Evaluation 模块负责整理大模型应用评测,包括 benchmark、LLM-as-a-Judge、人评、线上评测和幻觉评测。 Notes 评测与 Benchmark Benchmark LLM-as-a-Judge Human Evaluation Online Evaluation Hallucination Evaluation