🍊 Latent Atlas 🍉

Home

❯

Application

❯

Evaluation

Evaluation

2026年5月23日1分钟阅读

Evaluation 模块负责整理大模型应用评测,包括 benchmark、LLM-as-a-Judge、人评、线上评测和幻觉评测。

Notes

  • 评测与 Benchmark
  • Benchmark
  • LLM-as-a-Judge
  • Human Evaluation
  • Online Evaluation
  • Hallucination Evaluation

此文件夹下有6条笔记。

  • 2026年5月24日

    Hallucination Evaluation

    • evaluation
    • hallucination
  • 2026年5月24日

    Human Evaluation

    • evaluation
    • human-evaluation
  • 2026年5月24日

    LLM-as-a-Judge

    • evaluation
    • judge
  • 2026年5月24日

    Online Evaluation

    • evaluation
    • online-evaluation
  • 2026年5月23日

    Benchmark

    • evaluation
    • benchmark
  • 2026年5月23日

    Evaluation and Benchmark

    • application
    • evaluation

🍊 Latent Atlas 🍉 · An AI knowledge atlas built with Quartz © 2026