2. 对齐数据:如上图所示,基于上述两者对齐场景,研究者们构造了三类对齐数据: a) Align-P:大模型生成了令人满意的回复,因此获得了积极的反馈。显然,Align-P 在和场景下都是满足对齐的。 b) Align-N:大模型生成了有瑕疵(蓝色加粗)的回复,因此获得了消极的反馈。对于 Align-N,中是不满足对齐。但考虑该消极反馈后,Align-N 在场景下仍是对齐的。 c) Misalign:Align-N 中真实的消极反馈被替换为一条伪造的积极反馈。显然,Misalign 在和场景下都不满足对齐。 3. 从对比中学习:
其中是控制非似然训练的比重的超参数,是回复词数。 b) Align-P v.s. Align-N:两者的区别主要在于下的对齐程度。本质上,大模型通过引入不同极性的语言反馈来控制输出回复的质量。因此该二者的对比能启发大模型去区分令人满意的回复和有瑕疵的回复。具体而言,研究者们通过以下最大似然估计(MLE)损失来从该组对比中学习: