最近读到的LLM相关的文章,个人感觉质量最高的是这两篇:

最近读到的LLM相关的文章,个人感觉质量最高的是这两篇: 1. 马丁:大模型赛道的技术和应用分析 从技术测的预训练、Alignment(SFT / RLHF)、评测、MOE,到团队组织,到创业环境,再到应用层可能的机会(2C/2B),非常系统地给出了LLM现状的一个综述。尽管其中有不少都是opinions,但这些opinions是经过深度思考和前沿交流之后沉淀下来的,非常干,值得关注。 对个人启发比较大的几个点: - 目前制约大模型能力接近GPT4的主要因素不是knowhow(正在迅速贬值),而是如何在算力有限的情况下更快地试错。这样看来,随着中美算力的差距越来越大,模型能力的差距可能正在拉大而不是缩小。这可以通过即将发布的Google Gemini能否大幅超越GPT4来验证。 - 在预训练中,大家过于关注算力,对数据规模、数据质量、数据管理、数据配比、数据清洗、scaling up(做小规模的精准验证)的关注不够。MOE尤其考验数据和Infra能力; - 尚未证明RLHF一定比SFT更好,更难倒是真的; - 9月是大模型创业公司下场的最后期限,之后就太晚了。投资人之后会更关注Infra和应用方向。好团队的标准:技术实力(工程能力而不是学术能力)+ 行业资源knowhow( + 政府资源额外加分); - Infra层面上,未来需要一个足够强的未做过alignment的foundation model,在此基础上提供加训、自定义对齐、评测、部署等更加精细的服务,而不是像现在这样只是简单地调用各个大模型的API; - 向量数据库解决的是匹配外部知识的问题,它既不是唯一解,也不是最优解,甚至不如一些传统的搜索和NLP算法。如果是引入外部知识,那么更好的方法是pretrain或continued pretrain; - 在国内,相对于2B,更看好2C,但character.ai之类的chatbot窗口期已过。 2. 对话杨植麟:Moonshot AI即将完成超10亿元融资,公司最终目标并非超越OpenAI

相关推荐

封面图片

最近国内的投资人和很多团队几乎都达成共识, RLHF 不重要,SFT 就够了。

最近国内的投资人和很多团队几乎都达成共识, RLHF 不重要,SFT 就够了。 现在 Llama2 的论文说 RLHF 非常非常重要。 Llama2 是第三个用 RLHF 比较成功,并把能力推到 Chatgpt 3.5 水平的模型。 这是用实力打脸啊。 期待看到下周的「新共识」了。

封面图片

最近拜读了去年火热的斯坦福AI小镇文章的作者Joon Sung Park的两篇文章,分别是22年的Social Simulacr

最近拜读了去年火热的斯坦福AI小镇文章的作者Joon Sung Park的两篇文章,分别是22年的Social Simulacra和23年的Generative Agents(斯坦福AI小镇本文)。两篇都发在交互顶会UIST上(后者得了best paper) 比起Generative agents,22年发表的Social Simulacra聚焦于一个更小的领域- 交互设计原型(prototyping)。具体的思路是:交互原型设计师常常需要了解一个设计的效果,目前的常用做法是招募少量的真人做用户调查。 然而,现实情况下,少量用户的反馈往往并不能体现出这个设计的实际效果,或者使用的潜在隐患。这是因为“用户的行为会彼此影响”。 作者在这里举了“反社会行为”作为例子,比如说,一个人在使用社交媒体时,可能只会根据自己的信息发表观点,但是当很多人都参与讨论时,就会带来煽动性言论(inflammatory comments)或者钓鱼引战(trolling)等现象。这样的问题在小规模的用户测试中是无法被检测到的。 为了在“设计阶段”就能了解到大规模用户可能涌现的群体行为,有一种特定的方法叫做social computing system。这个方法可以看作代理人基模型(agent-based model)在设计学中的应用。尽管代理人基模型在其他学科里已经有很广泛的应用了,但是在设计和用户体验方面的探索还很少,这是本研究的一个创新点。 这篇文章的另一个亮点在于,使用了大语言模型(llm):首先,设计师把自己的设计意图输入给语言模型,然后语言模型生成一系列的用户行为(比如发帖/回复)。基于大量社交媒体数据训练的GPT3,已经足够生成各种积极或者消极的回复,其中也包含作者关注的反社会行为。 最后,作者通过用户实验+一个类似于图灵实验的方式来说明这个方法的有效性:让用户区分真实的用户行为,和使用Social Simulacra生成的用户行为。结果显示,用户在超过40%的数据上都无法判断这是真人还是生成数据,这说明了Social Simulacra在模拟真实用户的表现上效果很好。 阅读22年的Social Simulacra一文,可以看到很多Generative agents的影子:二者都使用了大语言模型(GPT3和GPT3.5),二者都尝试用llm去模拟人(一种是社交媒体行为,一种是生活行为),二者都考虑到了人类互相影响所带来的1+1>2的集体效应,并尝试用技术的方法去模拟这种人类群体效应。 两句话总结体会:1. 阅读Social Simulacra对于理解Generative Agents的想法有很大的帮助,两者结合更可以体现作者思考的连贯性。2. 此外,作者对前沿技术的敏感也让人惊讶。想到这篇文章要在22年3月投稿,而gpt3在20年6月才首次发布beta版本。要在很短的时间内把一项尚不成熟的技术用于解决跨学科问题,作者的技术嗅觉真是很准确也很超强啊。

封面图片

北大卢菁:1. 训练起来大模型和训练出有通用能力的模型完全是两码事。

北大卢菁: 1. 训练起来大模型和训练出有通用能力的模型完全是两码事。 目前国内大模型只能说训练起来了,但是远无技术壁垒,这是大厂本就应该具备的能力,并不值得骄傲。 2. 具备通用能力的大模型,入门参数量可能不是GPT3.5的175B,可能是GPT4的1.8T。而且这仅仅是必要条件,大规模的高质量语料也许才是现阶段除OpenAI以外其他企业真正的瓶颈所在。 3. 如果瓶颈真的在语料,我很悲观这会成为比芯片更大的壁垒。 因为人类最高质量的语料是书籍和论文,而真正高质量的书籍和论文掌握在西方世界手里。 4. 现阶段,最关键的是把智能做上去。诸如长文本建模,性能优化,应用场景这些一点都不关键。至少对有出息企业来说是这样,如果只是想做做应用就另当别论了。 5. 拿Llama2 Finetune刷榜意义不大,在特定数据集上刷得比GPT-4高并不能说明任何问题。 国内厂商最搞笑的是把C-eval的数据丢进训练集里面,然后再在C-eval上刷榜,各种吊打GPT,这种行为跟芯片造假的性质差不多,让国人认不清差距,以为GPT-4根本没有什么壁垒,国内厂商已经很接近了。 事实是,如果GPT4是100分的话,国产的大模型能拿个10分已经烧高香了。 6. 知识能力可能不是个事,GPT4除了四则运算会犯傻逼错误之外,很少犯傻逼错误。而且推理能力比其他模型要强太多太多,我想其中可能有特别的建模方式,不清楚是不是RLHF带来的收益。 7. 数学能力不是做算术,也不是做高考题。而是有数学直觉,推导,证明的能力。目前我只在GPT4上看到了拥有数学直觉,但证明的能力还很欠缺。 8. 流量不是大模型要考虑的事情,大模型要解决的是人类面临的难题, 比如解决人类还没解决的科学问题去扩展人类的智能; 帮助企业做商业计划优化市场经济;帮助社会建立更健全体系等等,达到千金一Token的效果。否则只是陪用户聊天,ROI很难做正。 9. 在国内做LLM其实竞争不大,因为大家做事都太急太糙,目前看来大家都没太大出息。 预计两年内不会有太好的成果,而我也非常期待被打脸。 10. 两个东西需要重新思考:在过去做不Work的想法,也许在大模型下可以重新尝试,说不定就Work了;在小模型下做Work的想法,也许在一定规模之后就不再Work了。 原因很简单,过去不Work的做法也许只是模型能力不够无法按照我们的预期去拟合;

封面图片

前几天微软发了一篇挺重要的关于 LLM 的论文,但我看不太懂。

前几天微软发了一篇挺重要的关于 LLM 的论文,但我看不太懂。 从社区讨论来看,这个研究可以大幅压缩模型体积,让 120B 大小的模型能在 24G 显存的设备上运行。 再加上一些其他优化我们在消费级设备运行 Llama 70B 也不是什么遥不可及的事情。 论文简介: 《1位大语言模型时代来临:一切大型语言模型均转向1.58位构架》 一种1位的LLM变体,命名为BitNet b1.58。在这个模型里,大语言模型的每个参数(或权重)都是三元的{-1, 0, 1}。它在复杂度和实际应用性能方面与相同模型规模和训练数据的全精度(即FP16或BF16)Transformer大语言模型不相上下,但在延迟、内存、吞吐量和能源消耗方面更具成本效益。 更为重要的是,1.58位LLM定义了新的扩展规律,并为训练新一代既高性能又高效的LLMs提供了方法。此外,它还开启了一个全新的计算范式,并为设计专门针对1位LLMs优化的硬件提供了可能性。 论文:

封面图片

最近微软和谷歌都出了AI相关教程,谷歌的是Generative AI learning path(

最近微软和谷歌都出了AI相关教程,谷歌的是Generative AI learning path( 以上我收藏在提示工程资料导航站上: 如果你和我一样日理万机,只能收藏上面的教程作为心理安慰,其实也可以看下下面这个不到一小时的视频去了解下大模型基本原理: OPENAI创始成员在MS BUILD2023上的演讲State of GPT ( 今天又看了一遍,人工总结了几点我觉得比较有意思的部分: 1) 人类反馈强化学习RLHF比较难,不建议新手碰,LORA是个不错的技术,下半年推出的GPT微调接口是不是和LORA有关系? 2) GPT本质上是在上下文(工作记忆)影响下,预测下一个token,它不知道对错,没有价值观,不会反思回溯。即心理学家卡尼曼的书《思考:快与慢》中的系统I:直觉本能式给结果,不像系统II:理性思考。所以GPT其实推理能力不太好,需要提示工程方法来引导它做慢思考,比如用思维链COT,或最新的思维树TOT等。 我的感觉是GPT推理虽然不好,但是有的,看上去是在预测下一个token,其实是使用了深层能力。类似人类的直觉隐含了深层的知识,有时候比慢思考更正确。我记得的例子有:将军得到敌人从某方向进攻的情报,但将军的直觉是敌人佯攻,真实意图是从其它地方进攻。一个武林高手,进入一个幽静的陌生环境,能用直觉感觉到有埋伏,然后先拔刀做准备。 3) 思维链等方法反映了目前大模型的限制,并不自然,以后能不能用API包装下使用?或者GPT-5 实现系统II的慢思考? 4) Let’s work this out in a step by step way. 比 let’s think step by step. 效果好 5) 为什么prompt中给GPT设定专家角色或IQ 120高能力比不设定效果好?简单看为检索信息,GPT中有普通答案也有专家答案,你指定它为专家,它就找专家的答案给你 6) Retrieval-Augmented LLMs,检索增强大模型,即通过检索在Prompt的上下文Context中提供尽可能多的任务相关信息,那它的输出就会越好。

封面图片

微软最近的研究集中在通过模仿学习来提高较小模型的能力,利用大型基础模型(LFMs)产生的输出。许多问题影响这些模型的质量,从来自

微软最近的研究集中在通过模仿学习来提高较小模型的能力,利用大型基础模型(LFMs)产生的输出。许多问题影响这些模型的质量,从来自浅LFM输出的有限模仿信号;小规模同质训练数据;最明显的是缺乏严格的评估,导致高估了小模型的能力,因为他们倾向于学习模仿风格,而不是LFM的推理过程。 为了解决这些挑战,微软开发了 Orca,一个130亿美元的参数模型,可以学习模拟lfm的推理过程。Orca从GPT-4的丰富信号中学习,包括解释痕迹;一步一步的思维过程;以及其他复杂的指令,由ChatGPT的老师指导。为了促进这种渐进式学习,微软利用明智的抽样和选择来获取大规模和多样化的模仿数据。在复杂的零射击推理基准(BBH)中,Orca比传统的最先进的指令调优模型,如Vicuna-13B上超过了100%,在AGIEval上超过了42%。此外,Orca在BBH基准上与ChatGPT持平,并在SAT、LSAT、GRE和GMAT等专业和学术考试中表现出竞争力(与优化系统信息差距4分),都是在没有CoT的零射击设置中而落后于GPT-4。 研究表明,从循序渐进的解释中学习,无论这些解释是由人类还是更先进的人工智能模型生成的,都是提高模型能力和技能的一个很有前途的方向。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人