TODO: 说明人工评测设计、标注规范、一致性、成本和与自动评测的互补。