[这个知识有争议,我可能没读透,正反观点现在都有,我后面在更新一下(五一后)]
[这个知识有争议,我可能没读透,正反观点现在都有,我后面在更新一下(五一后)]
我看到了一篇文章,大概是描述“为什么CHatGPT要用RLHF,而非指令微调”
核心论点大概是这样的:
“因为监督训练会教模型说谎,因为监督训练会让模型倾向于一定给出答案,而RLHF是教会模型辨别答案的好坏所以监督训练泛化性不足,在训练集以外的内容很容易编造、幻觉”
用通俗一点的例子说:
1. 监督学习就像填鸭教育,模型被强调按范文输出,甚至哪怕没有答案,也会被强制要求给出答案(于是幻觉出现)
2. 强化学习像引导学习,教会模型什么是好答案,什么是坏答案,让他具备答案选择能力,这样他更能切实地结合自己的问题回答
那么在我们学习的知识如此广泛的情况下,我们更加无法知道他内部的知识有多少,因此教会“学习方式”,胜过教会“填鸭式答题技巧”
这篇文章其实解答了我一个疑惑:
1. 满天飞的小模型Lora+指令微调项目,动不动就说对齐GPT-3,真的这么牛逼吗?如果这么牛逼为什么没有看到任何一个线上应用基于这些表现顶呱呱的模型上线?
2. 所以我现在看来,确实就是强行对齐了某些范围的能力,通过填鸭学习做了针对性优化,但是这些LLM会出现一些问题
3. 第一,如果超出指令微调的范围,就弱智了;第二,甚至在已微调过的范围内,如果问题深入、刁钻,也会变弱智
这个过程中印证了我一个判断技术的方法论:
如果一个方法超级广泛地应用,又没有任何实践上的声量,那么就要警惕方法到实践中的鸿沟