北大卢菁:1. 训练起来大模型和训练出有通用能力的模型完全是两码事。
北大卢菁:
1. 训练起来大模型和训练出有通用能力的模型完全是两码事。
目前国内大模型只能说训练起来了,但是远无技术壁垒,这是大厂本就应该具备的能力,并不值得骄傲。
2. 具备通用能力的大模型,入门参数量可能不是GPT3.5的175B,可能是GPT4的1.8T。而且这仅仅是必要条件,大规模的高质量语料也许才是现阶段除OpenAI以外其他企业真正的瓶颈所在。
3. 如果瓶颈真的在语料,我很悲观这会成为比芯片更大的壁垒。
因为人类最高质量的语料是书籍和论文,而真正高质量的书籍和论文掌握在西方世界手里。
4. 现阶段,最关键的是把智能做上去。诸如长文本建模,性能优化,应用场景这些一点都不关键。至少对有出息企业来说是这样,如果只是想做做应用就另当别论了。
5. 拿Llama2 Finetune刷榜意义不大,在特定数据集上刷得比GPT-4高并不能说明任何问题。
国内厂商最搞笑的是把C-eval的数据丢进训练集里面,然后再在C-eval上刷榜,各种吊打GPT,这种行为跟芯片造假的性质差不多,让国人认不清差距,以为GPT-4根本没有什么壁垒,国内厂商已经很接近了。
事实是,如果GPT4是100分的话,国产的大模型能拿个10分已经烧高香了。
6. 知识能力可能不是个事,GPT4除了四则运算会犯傻逼错误之外,很少犯傻逼错误。而且推理能力比其他模型要强太多太多,我想其中可能有特别的建模方式,不清楚是不是RLHF带来的收益。
7. 数学能力不是做算术,也不是做高考题。而是有数学直觉,推导,证明的能力。目前我只在GPT4上看到了拥有数学直觉,但证明的能力还很欠缺。
8. 流量不是大模型要考虑的事情,大模型要解决的是人类面临的难题,
比如解决人类还没解决的科学问题去扩展人类的智能;
帮助企业做商业计划优化市场经济;帮助社会建立更健全体系等等,达到千金一Token的效果。否则只是陪用户聊天,ROI很难做正。
9. 在国内做LLM其实竞争不大,因为大家做事都太急太糙,目前看来大家都没太大出息。
预计两年内不会有太好的成果,而我也非常期待被打脸。
10. 两个东西需要重新思考:在过去做不Work的想法,也许在大模型下可以重新尝试,说不定就Work了;在小模型下做Work的想法,也许在一定规模之后就不再Work了。
原因很简单,过去不Work的做法也许只是模型能力不够无法按照我们的预期去拟合;