https://mp.weixin.qq.com/s/mvBzhNmM-skPmxrXIpxUlQ
https://mp.weixin.qq.com/s/mvBzhNmM-skPmxrXIpxUlQ内容同样很干,个人觉得很有启发的一些观点摘抄:-行业大模型的计算量本质上是一个能源转化成智能的过程。如果我投入了更多的能源,我就会有更多的智能,中间转化率取决于我的算法的有效性。如果我假设你算法是一样的,那么你有多少智能就完全取决于你有多少能源...通用模型一定会取代垂直行业模型,因为前者的能耗大好几个数量级,对应的智能也会高几个数量级,并且差距会越来越大。短期内,垂直行业模型在一些封闭的行业内会有专有数据优势,但因为数据的流动性很高,“再封闭的行业,都很难阻止数据的扩散,超级入口会变成数据黑洞把各种数据吸纳进来,行业模型的优势会消失。”-如何衡量算法的有效性?最重要的标准其实是模型的压缩比。如果基于第一性原则来思考,智能的首要任务就是优化压缩,那么提升压缩比就意味着智能的增强。在一个足够大的数据集上,模型的压缩比有多大就能衡量出模型的优劣。例如,OpenAI的GPT-4可能在某些领域已经达到了30多的压缩比,而一些开源的模型的压缩比可能只有10出头,所以空间还是非常大的。-技术三段论。每项技术基本都会历经原理探索期、技术创新期以及纯产品应用阶段三个阶段。第一阶段意味着公众对于技术的第一性原理还不清晰,一切刚刚开始萌芽;第二阶段则指的是第一性原理已经清晰,但是仍然存在技术创新的空间,领先的公司会有显著的技术优势;最后一个阶段,当技术已经足够成熟了,可获得性很高了,就是纯产品的机会,网络效应建立。两三年前,NLP、CV这些技术都处于第一阶段。如今,我们已经来到第二阶段,AI的第一性原理已经被大量证据所证明——从GPT1到GPT4,我们会发现,人类文明的总和,数字化之后都可以变成硬盘上的数据,无论是文字、语音还是视频,只要我们有合适的办法,去对这些数据做最大限度的规模化无损压缩,就能实现非常高程度的“智能”。这就是AI的第一性原理。在第二阶段,第一性原理已经清晰的情况下,理论上我们只需要一条道走到黑,去想更好的办法尽可能地去对整个人类文明进行压缩,然后就能在技术上实现较高程度的智能化。我最喜欢的例子是等差数列。假设说目前我有1万个数字要去压缩,在我一无所知的情况下,我所能做的仅仅只是把这1万个数字存下来。但是,如果我能够知道这些数的底层运行规律,我知道等差数列,那我就只需要存两个数字,其他9998个数字就能被还原出来。而“更好的办法”也是第二阶段与第三阶段的分野。在这个方向上,我们看到大约5年的窗口期之中,我们需要去解决目前看到的问题,不断技术创新,让技术变得更加通用和低门槛,最终推动大规模的产品化。在这个阶段,更好的模型质量通常会直接带来更好的用户体验,通过技术驱动的公司会拥有更大的产品优势。如果我们去看美国市场,目前领先的公司例如OpenAI,Anthropic,Inflection,CharacterAI,Midjourney,无一不是通过Modelasanapplication的方式,通过技术优势来形成产品上的体验优势。-如果时间足够长,Transformer肯定会被更好的模型替代。比如,如果你想处理10万的context,你肯定不能使用原始的Transformer。如果你想处理分钟级别的长视频,使用原始的Transformer可能不是最优方案。但在短期三到五年内,更大的可能性是在Transformer的核心思想上进行优化。-真正的多模态模型还未出现。基于DiffusionModel的技术路径,一个重大问题是你没有办法去做真正的跨模态建模,只能基于很简单的文本向量去做decoding。本质上,它并没有对不同模态的联合概率去做一个可规模化的建模,这制约着这些模型去发挥更大的价值。从可规模化这个点上,我个人认为,长期来看,可能Autoregressivemodel(自回归模型)能够更通用得对不同模态去建模,长期会有更大的上升空间。-如何超越现有数据的限制。未来的大模型肯定不会停留在压缩现有的数据,而是会自主进行探索、在探索过程中生成和筛选数据、并进行压缩。一个很典型的例子是围棋,如果AI通过压缩已有的棋谱,很难在围棋水平上超越最顶尖的人类棋手。相同地,如果是我们想训练一个能达到IOI金牌水平的编程AI,那么仅仅通过压缩现有的题解也是很难做到的。我们需要让编程AI自己去搜索不同的解法,在搜索的过程中评判解法的可行性,从而对解空间进行更全面的探索。在科学领域也是一样,如果AI可以自主探索解空间,那么就可以发现人类还未发现的新知识。长期来说,通用地解决这个问题会产生超级智能(superintelligence)。-最终,大模型团队比拼的是人才密度。人才的稀缺性大于资本的稀缺性。目前,人才正开始从细分的NLP、CV、RL等领域向大模型公司集中。对团队来说,最难的是算法创新和工程实现。工程实现能力决定了你技术能力的下限,而算法创新能力决定了技术上限。