🍊 Latent Atlas 🍉

❯

❯

Evaluation

2026年5月23日1分钟阅读

Evaluation 模块负责整理大模型应用评测，包括 benchmark、LLM-as-a-Judge、人评、线上评测和幻觉评测。

Notes

评测与 Benchmark
Benchmark
LLM-as-a-Judge
Human Evaluation
Online Evaluation
Hallucination Evaluation

此文件夹下有6条笔记。

2026年5月24日
Hallucination Evaluation
- evaluation
- hallucination
2026年5月24日
Human Evaluation
- evaluation
- human-evaluation
2026年5月24日
LLM-as-a-Judge
- evaluation
- judge
2026年5月24日
Online Evaluation
- evaluation
- online-evaluation
2026年5月23日
Benchmark
- evaluation
- benchmark
2026年5月23日
Evaluation and Benchmark
- application
- evaluation

🍊 Latent Atlas 🍉 · An AI knowledge atlas built with Quartz © 2026