斯坦福这节课讲清楚了LLM做RAG所有最重要的问题。

斯坦福这节课讲清楚了LLM做RAG所有最重要的问题。 这节课就是传说中的Stanford CS25中的一节讲座。授课人就是RAG论文的作者之一Douwe Kiela,课程中他分享了一个检索增强语言模型的架构图。 这张图重要到让我觉得,做RAG只要记住这一张图就够了。所有相关概念和工程实践中的权衡,全都涵盖在这张图的架构和问题中了。 这个架构主要包括input、prompt、通过retriever检索增强生成的context,然后把这三部分一起输入给generator即模型,最终输出output作为结果。 关于这几个核心概念,值得注意的是: 1⃣input和prompt的区别和联系在于,input可理解为既包含system prompt,又包含用户输入的检索范围的指向,而prompt则强调用户输入的指令。 以公司知识库RAG举例,比如用户输入chatbot的内容为"检索公司2023年的财务数据并生成总结报告",其中"公司2023年的财务数据"是对公司知识库检索范围的指向,应理解为input的一部分,而"检索并生成总结报告"则是指令,应理解为prompt。 2⃣retriever的作用机制,我理解类似于在图书馆借书的过程,提供书名(query)-系统查找图书编号(query编码)-对应书架书籍编号(docs编码)-找到并借出图书(context)。 接着上文公司知识库的例子,从input获取query(如"2023年资产负债表, 2023年利润表, 2023年现金流量表"),对应的query编码("2023年资产负债表, 2023年利润表, 2023年现金流量表"的向量化表达)在docs编码(公司知识库所有文本的向量化表达)中检索匹配,提取匹配的部分作为context(涉及公司2023年财务数据的文本)。 其中query和input的关系,我想到两种可能性,一种是直接把input作为query,另一种是模型基于input生成的query,架构图简化表达了。 3⃣retriever和context之间可加一步reranker架构,对检索结果按特定规则进行重新排序。reranking的机制既可通过模型判断,也可在模型基础上预设特定规则。 比如根据员工职级限制其可获取的企业知识库信息范围。

相关推荐

封面图片

目前工程实践上,大家把优化的重点基本都放在了retrieve环节里,这里面涉及三个重要的问题:

目前工程实践上,大家把优化的重点基本都放在了retrieve环节里,这里面涉及三个重要的问题: 1⃣how and what do I retrieve:从传统的相似性检索、文本检索,到目前最常用的依托于embedding的语义检索,大家在实践中仍在不断迭代。Kiela后面也提到有研究希望把整个retriever过程做成一个模型,他也在课程中构想未来应该把retriever的训练也纳入到LLM的训练架构中。 文本的embedding可简化理解为文本的向量化表达,并且可根据不同文本的向量化表达,判断出文本之间语义的远近亲疏关系。 目前的文本emebedding也都是通过模型来实现的,这类模型也在不断迭代。OpenAI在今年1月份推出了text-embedding-3(small和large两版),相比其2022年12月推出的ada-002模型,在性能上获得了显著提升。 用于多语言检索的常用基准(MIRACL)平均分数已从 31.4%(ada-002)增加到 44.0%(3-small)和54.9%(3-large)。 附图之一是OpenAI对其text emebedding模型作用机制的示意。 2⃣When to retrieve: 一般就两种思路。一种是在获得检索范围后即retrieve,另一种是让模型判断何时retrieve。 3⃣How to encode: 如何编码也直接影响了如何检索的过程。 其他问题: 1⃣how to pre-process: 实际上强调就是input要包含system prompt,可设定角色、技能、任务、工作流、限制条件等。 2⃣how to prompt: 涉及提示词工程的方法论。 3⃣how to pass context: 可以把context作为prompt的一部分以文本形式输入,也可通过代码的方式代入。 4⃣how to post-process: 比如格式化输出的处理,如固定输出json格式,或固定在末尾输出reference列表等。 5⃣how to verify: 指的是如何验证output的效果或质量,比如验证output与知识库的相关性、准确性等。 最后,还有关于RAG整体架构的审视框架: 1⃣How to optimize: 各环节哪些地方可以优化。架构中已经列出的问题都是思考的重点。 2⃣How to learn: 这里的learn应该指的是机器学习的learn,探讨各环节从software 1.0的静态架构向机器学习和software 2.0的演进。 3⃣how to scale: 如何应对规模化的问题。 比如关于知识库如何chunk、何时编码,在知识库过大时就不适合提前预处理好chunk和编码。或者大量用户同时prompt该如何应对。 前段时间判断过2024年会是RAG应用爆发的一年 links: Stanford CS25 V4 2024春季课程(面向公众开放,有人想一起学习搭子么?) Stanford CS25 V3: Retrieval Augmented Language Models RAG论文原文 OpenAI text-embedding-3 models OpenAI text-embedding-ada-002 model Software 2.0 by Andrej Karpathy Kiela在讲这节课几个月后在其创立的Contextual AI正式推出RAG 2.0

封面图片

斯坦福2024 AI报告:中国AI专利全球第一 顶级AI模型主要来自美国

斯坦福2024 AI报告:中国AI专利全球第一 顶级AI模型主要来自美国 Stanford HAI 官方介绍道,‘这是我们迄今为止最全面的报告,而且是在人工智能对社会的影响从未如此明显的重要时刻发布的。’Stanford HAI 研究项目主任 Vanessa Parli 表示,‘我认为最令人兴奋的人工智能研究优势是将这些大型语言模型与机器人或智能体(agent)相结合,这标志着机器人在现实世界中更有效地工作迈出了重要一步。’附上《2024 年人工智能指数报告》下载地址: HAI 今年扩大了研究范围,更广泛地涵盖了人工智能的技术进步、公众对该技术的看法等基本趋势。新报告揭示了 2023 年人工智能行业的 10 大主要趋势:1.人工智能在某些任务上胜过人类,但并非在所有任务上人工智能已在多项基准测试中超越人类,包括在图像分类、视觉推理和英语理解方面。然而,它在竞赛级数学、视觉常识推理和规划等更复杂的任务上依然落后于人类。2.产业界继续主导人工智能前沿研究2023 年,产业界产生了 51 个著名的机器学习模型,而学术界只贡献了 15 个。2023 年,产学合作还产生了 21 个著名模型,创下新高。此外,108 个新发布的基础模型来自工业界,28 个来自学术界。3.前沿模型变得更加昂贵根据 AI Index 的估算,最先进的人工智能模型的训练成本已经达到了前所未有的水平。例如,OpenAI 的 GPT-4 估计使用了价值 7800 万美元的计算资源进行训练,而 Google 的 Gemini Ultra 的计算成本则高达 1.91 亿美元。相比之下,几年前发布的一些最先进的模型,即原始 transformer 模型(2017 年)和 RoBERTa Large(2019 年),训练成本分别约为 900 美元和 16 万美元。4.美国成为顶级人工智能模型的主要来源国2023 年,61 个著名的人工智能模型源自美国的机构,超过欧盟的 21 个和中国的 15 个。美国也仍然是人工智能投资的首选之地。2023 年,美国在人工智能领域的私人投资总额为 672 亿美元,是中国的近 9 倍。然而,中国依然是美国最大的竞争对手,中国的机器人安装量居世界首位;同样,世界上大多数人工智能专利(61%)都来自中国。5.严重缺乏对 LLM 责任的可靠和标准化评估AI Index 的最新研究显示,负责任的人工智能严重缺乏标准化。包括 OpenAI、 Google 和 Anthropic 在内的领先开发商主要根据不同的负责任人工智能基准测试他们的模型。这种做法使系统地比较顶级人工智能模型的风险和局限性的工作变得更加复杂。6.生成式人工智能投资激增尽管去年人工智能私人投资整体下降,但对生成式人工智能的投资激增,比 2022 年(约 30 亿美元)增长了近八倍,达到 252 亿美元。生成式人工智能领域的主要参与者,包括 OpenAI、Anthropic、Hugging Face 和 Inflection,都获得了一轮可观的融资。7.数据显示,人工智能让打工人更有生产力,工作质量更高2023 年,多项研究评估了人工智能对劳动力的影响,表明人工智能可以让打工人更快地完成任务,并提高他们的产出质量。这些研究还表明,人工智能有可能缩小低技能和高技能工人之间的技能差距。还有一些研究警告说,在没有适当监督的情况下使用人工智能可能会起到负面作用。8.得益于人工智能,科学进步进一步加速2022 年,人工智能开始推动科学发现。然而,2023 年,与科学相关的更重要的人工智能应用启动使算法排序更高效的 AlphaDev、促进材料发现过程的 GNoME、可在一分钟内提供极其准确的 10 天天气预报的 GraphCast、成功对 7100 万种可能的错义突变中的约 89% 进行分类的 AlphaMissence。如今,人工智能现在可以完成人类难以完成的、但对解决一些最复杂的科学问题至关重要的粗暴计算。在医疗方面,新的研究表明,医生可以利用人工智能更好地诊断乳腺癌、解读 X 射线和检测致命的癌症。9.美国的人工智能法规数量急剧增加2023 年,全球立法程序中有 2175 次提及人工智能,几乎是上一年的两倍。美国人工智能相关法规的数量在过去一年大幅增加。2023 年,与人工智能相关的法规有 25 项,而 2016 年只有 1 项。仅去年一年,人工智能相关法规的总数就增长了 56.3%。其中一些法规包括生成式人工智能材料的版权指南和网络安全风险管理框架。10.人们对人工智能的潜在影响有了更深刻的认识,同时也更焦虑来自市场研究公司 Ipsos 的一项调查显示,在过去一年中,认为人工智能将在未来 3-5 年内极大地影响他们生活的人,比例从 60%上升到 66%。此外,52% 的人对人工智能产品和服务表示焦虑,比 2022 年上升了 13 个百分点。在美国,来自皮尤研究中心(Pew)的数据显示,52% 的美国人表示对人工智能的担忧多于兴奋,这一比例比 2022 年的 38% 有所上升。附:来自AI Index 联合主任 Ray Perrault 的一封信十年前,世界上最好的人工智能系统也无法以人类的水平对图像中的物体进行分类。人工智能在语言理解方面举步维艰,也无法解决数学问题。如今,人工智能系统在标准基准上的表现经常超过人类。2023 年,人工智能进步加速。GPT-4、Gemini 和 Claude 3 等先进模型展示出了令人印象深刻的多模态能力:它们可以生成数十种语言的流畅文本,处理音频,甚至可以解释备忘录。随着人工智能的进步,它也越来越多地进入我们的生活。公司竞相打造基于人工智能的产品,普通大众也越来越多地使用人工智能。但是,当前的人工智能技术仍然存在重大问题。它无法可靠地处理事实、进行复杂的推理或解释其结论。人工智能面临两个相互关联的未来。第一个,技术不断改进,应用日益广泛,对生产力和就业产生重大影响。人工智能的用途有好有坏。第二个,人工智能的应用受到技术局限的制约。无论是哪一种,政府都越来越关注。政府正在积极参与,鼓励人工智能的发展,比如资助大学研发和激励私人投资。政府还致力于管理潜在的不利因素,如对就业的影响、隐私问题、错误信息和知识产权。在技术方面,今年的 AI Index 报告称,2023 年全球发布的新大型语言模型数量比上一年翻了一番。三分之二的模型是开源的,但性能最高的模型来自拥有封闭系统的行业参与者。Gemini Ultra 成为首个在大规模多任务语言理解(MMLU)基准上达到人类水平的 LLM;自去年以来,模型在该基准上的性能表现提高了 15 个百分点。此外,GPT-4 在综合语言模型整体评估(HELM)基准上取得了令人印象深刻的 0.97 平均胜率分数。虽然全球对人工智能的私人投资连续第二年减少,但对生成式人工智能的投资却急剧上升。财富 500 强企业财报电话会议中提及人工智能的次数比以往任何时候都多,而且新的研究表明,人工智能明显提高了打工人的生产率。在政策制定方面,全球在立法程序中提及人工智能的次数前所未有。美国监管机构在 2023 年通过的人工智能相关法规比以往任何时候都多。尽管如此,许多人仍对人工智能生成深度伪造等能力表示担忧。公众对人工智能有了更多的认识,研究表明,他们的反应也是焦虑的。 ... PC版: 手机版:

封面图片

李飞飞加入AI创业大军?斯坦福网站显示“部分休假”

李飞飞加入AI创业大军?斯坦福网站显示“部分休假” 截至发稿,斯坦福大学方面尚未向第一财经记者予以回复。一位接近李飞飞的人工智能专家对第一财经记者表示,不便就李飞飞的近况发表评论。据公开信息,李飞飞曾于2023年2月加入一家风险投资公司Radical Venture。李飞飞当时发表在该公司网站上的一篇声明文章称:“我将在担任斯坦福大学计算机科学系教授和斯坦福大学以人为中心的人工智能研究所(HAI)联席主任的同时,加入该公司。”她当时还表示,自己投资了Radical的投资组合公司以及最新的基金,但向学生强调:“我哪儿也不去!将继续在斯坦福大学担任教育家、研究员和导师的全职工作。”根据媒体最新报道,李飞飞的创业公司在近期一轮种子融资中获得了来自包括Radical Ventures和硅谷风投公司Andreessen Horowitz等机构的投资。Radical Ventures公司事务负责人没有立即回应第一财经记者的相关询问。在加入斯坦福大学前,李飞飞曾于2017年至2018年在Google云领导人工智能业务,还在Twitter董事会任职,并曾为白宫政策制定者提供建议。李飞飞目前共同领导斯坦福大学以人为中心的人工智能研究所(HAI),研究方向包括“认知启发人工智能”以及计算机视觉和机器学习。上个月,李飞飞在温哥华的一次TED演讲中表示,她正在使用“空间智能”的概念教会机器对物理世界进行预测并采取行动。她还表示,最前沿的研究涉及算法,通过算法可以合理地推断图像和文本在三维环境中的样子。李飞飞表示:“在空间智能的推动下,大自然创造了这种看见与行为之间的良性循环。”利用类人视觉数据处理技术,使人工智能能够进行高级推理,这将是该技术的一次飞跃。一些专家表示,在人工智能模型实现通用人工智能(AGI)之前,必须先建立这种“推理”能力,所谓的通用人工智能指的是,系统可以像人类一样或更出色地执行大多数任务。目前业内针对AGI的实现方式主要有两种路径的观点:一种是通过构建更大、更复杂的人工智能模型来改进推理;另一种是使用新的“世界模型”,让模型从物理世界的环境中获取视觉信息来开发逻辑,这就好比复制婴儿如何学习。目前科技巨头正在加大对AI的投入,根据最新一轮科技公司财报,Meta、微软和Google都在AI基础设施方面不惜血本地加大投入,并称这些支出还“远远不够”,因为对人工智能服务的需求正大幅超过供应。相关文章:斯坦福人工智能领袖李飞飞打造"空间智能"初创公司AI教母李飞飞首次创业 “空间智能”公司已完成种子轮 ... PC版: 手机版:

封面图片

斯坦福团队新作:喊话就能指导机器人 任务成功率暴增

斯坦福团队新作:喊话就能指导机器人 任务成功率暴增 比如在这个场景中,机器人没能完成系统设定的“把海绵放入袋子”的任务。这时研究者直接朝它喊话,“用海绵把袋子撑得再开一些”,之后就一下子成功了。而且,这些纠正的指令还会被系统记录下来,成为训练数据,用于进一步提高机器人的后续表现。有网友看了说,既然已经能朝着机器人喊话了,那汽车是不是也快点安排上,还在线点名特斯拉和其自动驾驶软件总监Ashok Elluswamy。成果发布后,前Google机器人高级研究员Eric Jang,前DeepMind研究员、斯坦福客座教授Karol Hausman等一众大佬也纷纷表示了肯定和赞许。那么,用喊话调整的机器人,都能实现什么样的动作呢?喊话就能发号施令利用YAY技术调教后,机器人以更高的成功率挑战了物品装袋、水果混合和洗盘子这三项复杂任务。这三种任务的特点是都需要两只手分别完成不同的动作,其中一只手要稳定地拿住容器并根据需要调整姿态,另一只手则需要准确定位目标位置并完成指令,而且过程中还涉及海绵这种软性物体,拿捏的力度也是一门学问。以打包装袋这个任务为例,机器人在全自主执行的过程中会遇到各种各样的困难,但通过喊话就能见招拆招。只见机器人在将装袋的过程中不小心把海绵掉落了下来,然后便无法再次捡起。这时,开发者直接朝它喊话,口令就是简单的“往我这边挪一挪,然后往左”。当按照指令做出动作后,第一次还是没成功,但机器人记住了“往左”这个指令,再次左移之后便成功把海绵捡起来了。但紧接着就出现了新的困难袋子的口被卡住了。这时只要告诉它再把袋子打开一点点,机器人就“心领神会”,调整出了一系列后续动作,并最终成功完成任务。而且不只是能纠正错误,任务的细节也能通过喊话实时调整,比如在装糖的任务中,开发者觉得机器人拿的糖有点多了,只要喊出“少一点”,机器人就会将一部分糖果倒回盒子。进一步地,人类发出的这些指令还会被系统记录并用作微调,以提高机器人的后续表现。比如在刷盘子这项任务中,经过微调之后的机器人清洁力度更强,范围也变大了。统计数据表明,机器人在经历这种微调之后,平均任务成功率提高了20%,如果继续加入喊话指令还能继续提高。而且这样的指令-微调过程可以迭代进行,每迭代一次机器人的表现都能有所提升。那么,YAY具体是如何实现的呢?人类教诲“铭记在心”架构上,整个YAY系统主要由高级策略和低级策略这两个部分组成。其中高级策略负责生成指导低级策略的语言指令,低级策略则用于执行具体动作。具体来说,高级策略将摄像头捕捉到的视觉信息编码,与相关知识结合,然后由Transformer生成包含当前动作描述、未来动作预测等内容的指令。而低级策略接收到语言指令后,会解析这些指令中的关键词,并映射到机器人关节的目标位置或运动轨迹。同时,YAY系统引入了实时的语言纠正机制,人类的口头命令优先级最高经识别后,直接传递给低级策略用于执行。且在这个过程中命令会被系统记录并用于微调高级策略通过学习人类提供的纠正性反馈,逐渐减少对即时口头纠正的依赖,从而提高长期任务的自主成功率。在完成基础训练并已经在真实环境中部署后,系统仍然可以继续收集指令信息,不断地从反馈中学习并进行自我改进。作者简介本项目的第一作者是斯坦福大学的学生研究员Lucy X. Shi,2019年毕业于人大附中后进入南加州大学就读计算机科学专业。其间,Lucy曾到英伟达实习研究多模态大模型,并曾与知名AI学者Jim Fan博士合作。她的论文曾连续两年被机器人顶会CoRL收录,还入选过NeurIPS,本人还被DeepMind邀请发表过演讲。Lucy的导师Chelsea Finn是斯坦福计算机科学和电气工程系助理教授,Google学术论文引用数超4.7万,此前还在Google Brain工作过一段时间。包括本项目在内,在ALOHA团队发表的一系列论文当中,Finn总是作为通讯作者出现。此外,ALOHA团队的Tony Z. Zhao、Sergey Levine等研究人员,也是本文的共同作者。 ... PC版: 手机版:

封面图片

关于ChatGPT 做 Search 会杀死大部分 Wrapper 型 AI 搜索引擎的讨论,我有一些不一样的看法

关于ChatGPT 做 Search 会杀死大部分 Wrapper 型 AI 搜索引擎的讨论,我有一些不一样的看法 1. AI 搜索引擎的第一要义是准确度。 准确度的决定性因素主要是两个:问答底座模型的智能程度 + 挂载上下文的信息密度。 做好 AI 搜索引擎的关键,选用最智能的问答底座模型,再对 RAG 的检索结果进行排序去重,保证信息密度。 第一个步骤容易,第二个步骤很难。所以现在市面上大部分的 AI 搜索引擎,包括 Perplexity,准确度也就 60% 左右。 2. ChatGPT自己做搜索,首先保证了问答底座模型的智能程度。 其次在检索联网信息层面会做黑盒优化,包括 Query Rewrite / Intent Detection / Reranking 这些措施。 最终依赖自身模型的 Long Context 特性,效果就能做到比其他纯 Wrapper 类型的 AI Search Engine 要好一点。 3. 我并不觉得大模型厂商自己做 AI 搜索 就一定会比第三方做的好。 比如我做 ThinkAny, 首先接入 claude-3-opus,在模型底座智能程度方面,就不会输 gpt-4,第三方甚至能有更多的选择,针对不同的场景切换不同的模型。 其次,Long Context 也有很多模型能够保证。 再者,工程层面对 RAG 挂载上下文内容的优化,ChatGPT 能做,第三方也可以做。 4. 做好 AI 搜索引擎,最重要的三点是准 / 快 / 稳,即回复结果要准,响应速度要快,服务稳定性要高。 其次要做差异化创新,错位竞争。比如对问答结果以 outline / timeline 等形式输出,支持多模态搜索问答,允许挂载自定义信息源等策略。 5. AI 搜索引擎是一个持续雕花的过程。 特别是在提升准确度这个问题上,就有很多事情可以做,比如 Prompt Engineering / Query Rewrite/ Intent Detection / Reranking 等等,每个步骤都有不少坑。 其中用 function calling 去做 Intent Detection 就会遇到识别准确度很低的问题。 用 llamaindex + embedding + Vector DB 做 Reranking 也会遇到排序效率低下的问题。 6. AI Search + Agents + Workflows 是趋势。 AI Search 做通用场景,通过 Agents 做垂直场景,支持个性化搜索需求。 通过 Workflows 实现更加复杂的流程编排,有机会把某类需求解决的更好。 使用 GPTs 做出的提示词应用或知识库挂载型应用,价值点还是太薄。 7. 我个人不是太看好垂直搜索引擎。 一定程度上,垂直搜索引擎可以在某个场景做深做透,但是用户的搜索需求是非常多样的,我不太可能为了搜代码问题给 A 产品付费,再为了搜旅游攻略给 B 产品付费。 垂直搜索引擎自建 index 索引,工程投入比较大,效果不一定比接 Google API 要好,而且接入的信息源太有限。 8. AI 搜索是一个巨大的市场,短时间内很难形成垄断。 海外 Perplexity 一家独大,国内 Kimi/秘塔小范围出圈。各家的产品体验,市场占有率还没有达到绝对的领先,后来者依然有机会。 9. AI 搜索引擎需要尽早考虑成本优化。 主要支出在于大模型的 token 成本和搜索引擎的 API 请求费用。 成本优化是个持续的过程,比如可以自行部署 SearXNG 来降低搜索的成本,部署开源模型来降低大模型的 API 调用成本。 day one payment,趁早向用户收费也许是一种 cover 成本的好办法,但是也要考虑用户流失的问题。 以上是我个人做一个多月以来的一些经验和思考。欢迎交流探讨。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人