最近读到的LLM相关的文章,个人感觉质量最高的是这两篇:

最近读到的LLM相关的文章,个人感觉质量最高的是这两篇: 1. 马丁:大模型赛道的技术和应用分析 从技术测的预训练、Alignment(SFT / RLHF)、评测、MOE,到团队组织,到创业环境,再到应用层可能的机会(2C/2B),非常系统地给出了LLM现状的一个综述。尽管其中有不少都是opinions,但这些opinions是经过深度思考和前沿交流之后沉淀下来的,非常干,值得关注。 对个人启发比较大的几个点: - 目前制约大模型能力接近GPT4的主要因素不是knowhow(正在迅速贬值),而是如何在算力有限的情况下更快地试错。这样看来,随着中美算力的差距越来越大,模型能力的差距可能正在拉大而不是缩小。这可以通过即将发布的Google Gemini能否大幅超越GPT4来验证。 - 在预训练中,大家过于关注算力,对数据规模、数据质量、数据管理、数据配比、数据清洗、scaling up(做小规模的精准验证)的关注不够。MOE尤其考验数据和Infra能力; - 尚未证明RLHF一定比SFT更好,更难倒是真的; - 9月是大模型创业公司下场的最后期限,之后就太晚了。投资人之后会更关注Infra和应用方向。好团队的标准:技术实力(工程能力而不是学术能力)+ 行业资源knowhow( + 政府资源额外加分); - Infra层面上,未来需要一个足够强的未做过alignment的foundation model,在此基础上提供加训、自定义对齐、评测、部署等更加精细的服务,而不是像现在这样只是简单地调用各个大模型的API; - 向量数据库解决的是匹配外部知识的问题,它既不是唯一解,也不是最优解,甚至不如一些传统的搜索和NLP算法。如果是引入外部知识,那么更好的方法是pretrain或continued pretrain; - 在国内,相对于2B,更看好2C,但character.ai之类的chatbot窗口期已过。 2. 对话杨植麟:Moonshot AI即将完成超10亿元融资,公司最终目标并非超越OpenAI

相关推荐

封面图片

最近国内的投资人和很多团队几乎都达成共识, RLHF 不重要,SFT 就够了。

最近国内的投资人和很多团队几乎都达成共识, RLHF 不重要,SFT 就够了。 现在 Llama2 的论文说 RLHF 非常非常重要。 Llama2 是第三个用 RLHF 比较成功,并把能力推到 Chatgpt 3.5 水平的模型。 这是用实力打脸啊。 期待看到下周的「新共识」了。

封面图片

北大卢菁:1. 训练起来大模型和训练出有通用能力的模型完全是两码事。

北大卢菁: 1. 训练起来大模型和训练出有通用能力的模型完全是两码事。 目前国内大模型只能说训练起来了,但是远无技术壁垒,这是大厂本就应该具备的能力,并不值得骄傲。 2. 具备通用能力的大模型,入门参数量可能不是GPT3.5的175B,可能是GPT4的1.8T。而且这仅仅是必要条件,大规模的高质量语料也许才是现阶段除OpenAI以外其他企业真正的瓶颈所在。 3. 如果瓶颈真的在语料,我很悲观这会成为比芯片更大的壁垒。 因为人类最高质量的语料是书籍和论文,而真正高质量的书籍和论文掌握在西方世界手里。 4. 现阶段,最关键的是把智能做上去。诸如长文本建模,性能优化,应用场景这些一点都不关键。至少对有出息企业来说是这样,如果只是想做做应用就另当别论了。 5. 拿Llama2 Finetune刷榜意义不大,在特定数据集上刷得比GPT-4高并不能说明任何问题。 国内厂商最搞笑的是把C-eval的数据丢进训练集里面,然后再在C-eval上刷榜,各种吊打GPT,这种行为跟芯片造假的性质差不多,让国人认不清差距,以为GPT-4根本没有什么壁垒,国内厂商已经很接近了。 事实是,如果GPT4是100分的话,国产的大模型能拿个10分已经烧高香了。 6. 知识能力可能不是个事,GPT4除了四则运算会犯傻逼错误之外,很少犯傻逼错误。而且推理能力比其他模型要强太多太多,我想其中可能有特别的建模方式,不清楚是不是RLHF带来的收益。 7. 数学能力不是做算术,也不是做高考题。而是有数学直觉,推导,证明的能力。目前我只在GPT4上看到了拥有数学直觉,但证明的能力还很欠缺。 8. 流量不是大模型要考虑的事情,大模型要解决的是人类面临的难题, 比如解决人类还没解决的科学问题去扩展人类的智能; 帮助企业做商业计划优化市场经济;帮助社会建立更健全体系等等,达到千金一Token的效果。否则只是陪用户聊天,ROI很难做正。 9. 在国内做LLM其实竞争不大,因为大家做事都太急太糙,目前看来大家都没太大出息。 预计两年内不会有太好的成果,而我也非常期待被打脸。 10. 两个东西需要重新思考:在过去做不Work的想法,也许在大模型下可以重新尝试,说不定就Work了;在小模型下做Work的想法,也许在一定规模之后就不再Work了。 原因很简单,过去不Work的做法也许只是模型能力不够无法按照我们的预期去拟合;

封面图片

最近拜读了去年火热的斯坦福AI小镇文章的作者Joon Sung Park的两篇文章,分别是22年的Social Simulacr

最近拜读了去年火热的斯坦福AI小镇文章的作者Joon Sung Park的两篇文章,分别是22年的Social Simulacra和23年的Generative Agents(斯坦福AI小镇本文)。两篇都发在交互顶会UIST上(后者得了best paper) 比起Generative agents,22年发表的Social Simulacra聚焦于一个更小的领域- 交互设计原型(prototyping)。具体的思路是:交互原型设计师常常需要了解一个设计的效果,目前的常用做法是招募少量的真人做用户调查。 然而,现实情况下,少量用户的反馈往往并不能体现出这个设计的实际效果,或者使用的潜在隐患。这是因为“用户的行为会彼此影响”。 作者在这里举了“反社会行为”作为例子,比如说,一个人在使用社交媒体时,可能只会根据自己的信息发表观点,但是当很多人都参与讨论时,就会带来煽动性言论(inflammatory comments)或者钓鱼引战(trolling)等现象。这样的问题在小规模的用户测试中是无法被检测到的。 为了在“设计阶段”就能了解到大规模用户可能涌现的群体行为,有一种特定的方法叫做social computing system。这个方法可以看作代理人基模型(agent-based model)在设计学中的应用。尽管代理人基模型在其他学科里已经有很广泛的应用了,但是在设计和用户体验方面的探索还很少,这是本研究的一个创新点。 这篇文章的另一个亮点在于,使用了大语言模型(llm):首先,设计师把自己的设计意图输入给语言模型,然后语言模型生成一系列的用户行为(比如发帖/回复)。基于大量社交媒体数据训练的GPT3,已经足够生成各种积极或者消极的回复,其中也包含作者关注的反社会行为。 最后,作者通过用户实验+一个类似于图灵实验的方式来说明这个方法的有效性:让用户区分真实的用户行为,和使用Social Simulacra生成的用户行为。结果显示,用户在超过40%的数据上都无法判断这是真人还是生成数据,这说明了Social Simulacra在模拟真实用户的表现上效果很好。 阅读22年的Social Simulacra一文,可以看到很多Generative agents的影子:二者都使用了大语言模型(GPT3和GPT3.5),二者都尝试用llm去模拟人(一种是社交媒体行为,一种是生活行为),二者都考虑到了人类互相影响所带来的1+1>2的集体效应,并尝试用技术的方法去模拟这种人类群体效应。 两句话总结体会:1. 阅读Social Simulacra对于理解Generative Agents的想法有很大的帮助,两者结合更可以体现作者思考的连贯性。2. 此外,作者对前沿技术的敏感也让人惊讶。想到这篇文章要在22年3月投稿,而gpt3在20年6月才首次发布beta版本。要在很短的时间内把一项尚不成熟的技术用于解决跨学科问题,作者的技术嗅觉真是很准确也很超强啊。

封面图片

前几天微软发了一篇挺重要的关于 LLM 的论文,但我看不太懂。

前几天微软发了一篇挺重要的关于 LLM 的论文,但我看不太懂。 从社区讨论来看,这个研究可以大幅压缩模型体积,让 120B 大小的模型能在 24G 显存的设备上运行。 再加上一些其他优化我们在消费级设备运行 Llama 70B 也不是什么遥不可及的事情。 论文简介: 《1位大语言模型时代来临:一切大型语言模型均转向1.58位构架》 一种1位的LLM变体,命名为BitNet b1.58。在这个模型里,大语言模型的每个参数(或权重)都是三元的{-1, 0, 1}。它在复杂度和实际应用性能方面与相同模型规模和训练数据的全精度(即FP16或BF16)Transformer大语言模型不相上下,但在延迟、内存、吞吐量和能源消耗方面更具成本效益。 更为重要的是,1.58位LLM定义了新的扩展规律,并为训练新一代既高性能又高效的LLMs提供了方法。此外,它还开启了一个全新的计算范式,并为设计专门针对1位LLMs优化的硬件提供了可能性。 论文:

封面图片

最近微软和谷歌都出了AI相关教程,谷歌的是Generative AI learning path(

最近微软和谷歌都出了AI相关教程,谷歌的是Generative AI learning path( 以上我收藏在提示工程资料导航站上: 如果你和我一样日理万机,只能收藏上面的教程作为心理安慰,其实也可以看下下面这个不到一小时的视频去了解下大模型基本原理: OPENAI创始成员在MS BUILD2023上的演讲State of GPT ( 今天又看了一遍,人工总结了几点我觉得比较有意思的部分: 1) 人类反馈强化学习RLHF比较难,不建议新手碰,LORA是个不错的技术,下半年推出的GPT微调接口是不是和LORA有关系? 2) GPT本质上是在上下文(工作记忆)影响下,预测下一个token,它不知道对错,没有价值观,不会反思回溯。即心理学家卡尼曼的书《思考:快与慢》中的系统I:直觉本能式给结果,不像系统II:理性思考。所以GPT其实推理能力不太好,需要提示工程方法来引导它做慢思考,比如用思维链COT,或最新的思维树TOT等。 我的感觉是GPT推理虽然不好,但是有的,看上去是在预测下一个token,其实是使用了深层能力。类似人类的直觉隐含了深层的知识,有时候比慢思考更正确。我记得的例子有:将军得到敌人从某方向进攻的情报,但将军的直觉是敌人佯攻,真实意图是从其它地方进攻。一个武林高手,进入一个幽静的陌生环境,能用直觉感觉到有埋伏,然后先拔刀做准备。 3) 思维链等方法反映了目前大模型的限制,并不自然,以后能不能用API包装下使用?或者GPT-5 实现系统II的慢思考? 4) Let’s work this out in a step by step way. 比 let’s think step by step. 效果好 5) 为什么prompt中给GPT设定专家角色或IQ 120高能力比不设定效果好?简单看为检索信息,GPT中有普通答案也有专家答案,你指定它为专家,它就找专家的答案给你 6) Retrieval-Augmented LLMs,检索增强大模型,即通过检索在Prompt的上下文Context中提供尽可能多的任务相关信息,那它的输出就会越好。

封面图片

!非常好的文章,使我的GPT4旋转。

!非常好的文章,使我的GPT4旋转。 Claude 官方发布的一篇博客,很实用,链接 下面是我用ChatGPT4的web browsing功能把这篇博客通过特定的prompt转换成的一本「执行手册」,可以简单参考一下,具体信息建议还是从原文链接看: 基于您的要求和提供的文章内容,以下是一份详细、具体、逻辑清晰且可操作的执行手册,形式为Markdown文本: - # Claude模型长文本回忆优化执行手册 本手册旨在指导用户通过特定步骤和方法,优化Claude模型在处理长文档时的回忆能力。 ## 一、目标定义 - 评估和优化Claude模型在长文档上下文中正确回忆特定信息的能力。 ## 二、准备阶段 ### 2.1 数据源选择 - 选择一个公开可用的、日常发布的政府文档,作为测试的基础数据源。 ### 2.2 文档分段与问题生成 - 将选定的文档分成多个部分。 - 使用Claude为每个部分生成五个选择题,每个题目包含三个错误答案和一个正确答案。 ## 三、多选题生成策略 ### 3.1 避免过于明显的问题 - 确保问题不应包含答案。 ### 3.2 避免模糊的短语 - 避免使用模糊的短语,如“此文档”或“此段落”,而应明确指定问题所指的段落。 ## 四、评估与测试 ### 4.1 模型选择 - 使用Claude Instant 1.2模型进行测试。 ### 4.2 回忆能力测试 - 在不同情境下测试Claude的回忆能力,例如仅提供Claude用于编写问题的确切段落,评估Claude能否正确回答自己生成的问题。 ## 五、提示策略 ### 5.1 Base策略 - 直接要求Claude回答问题。 ### 5.2 Nongov Examples策略 - 提供与政府文档无关的两个正确回答的常识性选择题示例。 ### 5.3 Two Examples策略 - 提供两个与文档上下文中的其他部分有关的正确回答的选择题示例。 ### 5.4 Five Examples策略 - 同上,但提供五个示例。 ## 六、优化提示 ### 6.1 使用 - 在测试各种提示策略时,同时测试是否使用,在其中指示Claude提取相关引用。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人