基本信息

TODO

  • 阅读论文原文,整理 Constitutional AI 的 critique-revision、AI feedback 和 harmlessness training 流程。
  • 回填 RLAIF 与 RLHF 的关系,以及安全偏好数据构造方法。
  • 补充 constitution 原则、拒答边界和偏好模型的局限。