斯坦福这节课讲清楚了LLM做RAG所有最重要的问题。

斯坦福这节课讲清楚了LLM做RAG所有最重要的问题。 这节课就是传说中的Stanford CS25中的一节讲座。授课人就是RAG论文的作者之一Douwe Kiela,课程中他分享了一个检索增强语言模型的架构图。 这张图重要到让我觉得,做RAG只要记住这一张图就够了。所有相关概念和工程实践中的权衡,全都涵盖在这张图的架构和问题中了。 这个架构主要包括input、prompt、通过retriever检索增强生成的context,然后把这三部分一起输入给generator即模型,最终输出output作为结果。 关于这几个核心概念,值得注意的是: 1⃣input和prompt的区别和联系在于,input可理解为既包含system prompt,又包含用户输入的检索范围的指向,而prompt则强调用户输入的指令。 以公司知识库RAG举例,比如用户输入chatbot的内容为"检索公司2023年的财务数据并生成总结报告",其中"公司2023年的财务数据"是对公司知识库检索范围的指向,应理解为input的一部分,而"检索并生成总结报告"则是指令,应理解为prompt。 2⃣retriever的作用机制,我理解类似于在图书馆借书的过程,提供书名(query)-系统查找图书编号(query编码)-对应书架书籍编号(docs编码)-找到并借出图书(context)。 接着上文公司知识库的例子,从input获取query(如"2023年资产负债表, 2023年利润表, 2023年现金流量表"),对应的query编码("2023年资产负债表, 2023年利润表, 2023年现金流量表"的向量化表达)在docs编码(公司知识库所有文本的向量化表达)中检索匹配,提取匹配的部分作为context(涉及公司2023年财务数据的文本)。 其中query和input的关系,我想到两种可能性,一种是直接把input作为query,另一种是模型基于input生成的query,架构图简化表达了。 3⃣retriever和context之间可加一步reranker架构,对检索结果按特定规则进行重新排序。reranking的机制既可通过模型判断,也可在模型基础上预设特定规则。 比如根据员工职级限制其可获取的企业知识库信息范围。

相关推荐

封面图片

目前工程实践上,大家把优化的重点基本都放在了retrieve环节里,这里面涉及三个重要的问题:

目前工程实践上,大家把优化的重点基本都放在了retrieve环节里,这里面涉及三个重要的问题: 1⃣how and what do I retrieve:从传统的相似性检索、文本检索,到目前最常用的依托于embedding的语义检索,大家在实践中仍在不断迭代。Kiela后面也提到有研究希望把整个retriever过程做成一个模型,他也在课程中构想未来应该把retriever的训练也纳入到LLM的训练架构中。 文本的embedding可简化理解为文本的向量化表达,并且可根据不同文本的向量化表达,判断出文本之间语义的远近亲疏关系。 目前的文本emebedding也都是通过模型来实现的,这类模型也在不断迭代。OpenAI在今年1月份推出了text-embedding-3(small和large两版),相比其2022年12月推出的ada-002模型,在性能上获得了显著提升。 用于多语言检索的常用基准(MIRACL)平均分数已从 31.4%(ada-002)增加到 44.0%(3-small)和54.9%(3-large)。 附图之一是OpenAI对其text emebedding模型作用机制的示意。 2⃣When to retrieve: 一般就两种思路。一种是在获得检索范围后即retrieve,另一种是让模型判断何时retrieve。 3⃣How to encode: 如何编码也直接影响了如何检索的过程。 其他问题: 1⃣how to pre-process: 实际上强调就是input要包含system prompt,可设定角色、技能、任务、工作流、限制条件等。 2⃣how to prompt: 涉及提示词工程的方法论。 3⃣how to pass context: 可以把context作为prompt的一部分以文本形式输入,也可通过代码的方式代入。 4⃣how to post-process: 比如格式化输出的处理,如固定输出json格式,或固定在末尾输出reference列表等。 5⃣how to verify: 指的是如何验证output的效果或质量,比如验证output与知识库的相关性、准确性等。 最后,还有关于RAG整体架构的审视框架: 1⃣How to optimize: 各环节哪些地方可以优化。架构中已经列出的问题都是思考的重点。 2⃣How to learn: 这里的learn应该指的是机器学习的learn,探讨各环节从software 1.0的静态架构向机器学习和software 2.0的演进。 3⃣how to scale: 如何应对规模化的问题。 比如关于知识库如何chunk、何时编码,在知识库过大时就不适合提前预处理好chunk和编码。或者大量用户同时prompt该如何应对。 前段时间判断过2024年会是RAG应用爆发的一年 links: Stanford CS25 V4 2024春季课程(面向公众开放,有人想一起学习搭子么?) Stanford CS25 V3: Retrieval Augmented Language Models RAG论文原文 OpenAI text-embedding-3 models OpenAI text-embedding-ada-002 model Software 2.0 by Andrej Karpathy Kiela在讲这节课几个月后在其创立的Contextual AI正式推出RAG 2.0

封面图片

elvis写了一篇非常详细的文章来介绍 RAG 生态的所有部分,还会添加清晰易懂的参考文献列表以及技术性编程教程帮助提高 RAG

elvis写了一篇非常详细的文章来介绍 RAG 生态的所有部分,还会添加清晰易懂的参考文献列表以及技术性编程教程帮助提高 RAG 系统的性能。 主要内容来自《大语言模型的检索增强生成:一项调查》这篇论文,我简要总结了一下文章每个部分的内容,感兴趣可以去看原文: 检索增强生成(Retrieval Augmented Generation, RAG)技术,旨在通过结合外部知识源,如数据库,来提升大语言模型(LLMs)的能力。它主要用于解决领域知识的缺失、事实性问题和生成错误。RAG特别适用于那些需要最新知识、又不需针对每个特定任务重复训练LLM的应用场景,比如对话代理和知识密集型任务。 RAG如何工作 RAG通过接收输入的提示信息,从资源如维基百科中检索相关文档,再将这些文档作为上下文来生成回答。这种方法使LLMs能够访问最新的信息,并生成更准确、更可控、更相关的内容。它能及时适应不断变化的信息,这对于LLM来说至关重要,因为它们的知识库本身是静态的。 RAG系统的发展 RAG系统已经从初级阶段(Naive RAG)发展到高级阶段(Advanced RAG)和模块化阶段(Modular RAG),以解决性能、成本和效率的限制。高级RAG通过优化不同阶段,如预检索、检索和检索后处理,来提高检索质量。模块化RAG则通过调整不同的功能模块来适应特定问题的背景,提供了更大的灵活性。 RAG系统的关键组成 检索:包括提升语义表示、对齐查询与文档,以及调整检索器输出以符合LLM的偏好。 生成:涉及将检索到的信息转化为连贯的文本,并在检索后对LLM进行微调。 增强:在生成任务中融合检索到的段落的上下文,包括不同阶段和增强数据源。 RAG与模型微调 RAG适合用于集成新知识,而模型微调则有助于提升模型的性能和效率。这两种方法可以互补,结合提示工程(Prompting Engineering),能够优化LLM在复杂和可扩展应用中的表现。 RAG的评估 RAG系统的评估基于检索到的上下文质量和生成的内容质量。评估指标包括规范化折扣累计增益(NDCG)、命中率、F1值和精确匹配(EM)等。评估重点是上下文的相关性、答案的准确性和相关性,以及抗噪声能力和信息整合能力。 RAG面临的挑战与未来展望

封面图片

斯坦福2024 AI报告:中国AI专利全球第一 顶级AI模型主要来自美国

斯坦福2024 AI报告:中国AI专利全球第一 顶级AI模型主要来自美国 Stanford HAI 官方介绍道,‘这是我们迄今为止最全面的报告,而且是在人工智能对社会的影响从未如此明显的重要时刻发布的。’Stanford HAI 研究项目主任 Vanessa Parli 表示,‘我认为最令人兴奋的人工智能研究优势是将这些大型语言模型与机器人或智能体(agent)相结合,这标志着机器人在现实世界中更有效地工作迈出了重要一步。’附上《2024 年人工智能指数报告》下载地址: HAI 今年扩大了研究范围,更广泛地涵盖了人工智能的技术进步、公众对该技术的看法等基本趋势。新报告揭示了 2023 年人工智能行业的 10 大主要趋势:1.人工智能在某些任务上胜过人类,但并非在所有任务上人工智能已在多项基准测试中超越人类,包括在图像分类、视觉推理和英语理解方面。然而,它在竞赛级数学、视觉常识推理和规划等更复杂的任务上依然落后于人类。2.产业界继续主导人工智能前沿研究2023 年,产业界产生了 51 个著名的机器学习模型,而学术界只贡献了 15 个。2023 年,产学合作还产生了 21 个著名模型,创下新高。此外,108 个新发布的基础模型来自工业界,28 个来自学术界。3.前沿模型变得更加昂贵根据 AI Index 的估算,最先进的人工智能模型的训练成本已经达到了前所未有的水平。例如,OpenAI 的 GPT-4 估计使用了价值 7800 万美元的计算资源进行训练,而 Google 的 Gemini Ultra 的计算成本则高达 1.91 亿美元。相比之下,几年前发布的一些最先进的模型,即原始 transformer 模型(2017 年)和 RoBERTa Large(2019 年),训练成本分别约为 900 美元和 16 万美元。4.美国成为顶级人工智能模型的主要来源国2023 年,61 个著名的人工智能模型源自美国的机构,超过欧盟的 21 个和中国的 15 个。美国也仍然是人工智能投资的首选之地。2023 年,美国在人工智能领域的私人投资总额为 672 亿美元,是中国的近 9 倍。然而,中国依然是美国最大的竞争对手,中国的机器人安装量居世界首位;同样,世界上大多数人工智能专利(61%)都来自中国。5.严重缺乏对 LLM 责任的可靠和标准化评估AI Index 的最新研究显示,负责任的人工智能严重缺乏标准化。包括 OpenAI、 Google 和 Anthropic 在内的领先开发商主要根据不同的负责任人工智能基准测试他们的模型。这种做法使系统地比较顶级人工智能模型的风险和局限性的工作变得更加复杂。6.生成式人工智能投资激增尽管去年人工智能私人投资整体下降,但对生成式人工智能的投资激增,比 2022 年(约 30 亿美元)增长了近八倍,达到 252 亿美元。生成式人工智能领域的主要参与者,包括 OpenAI、Anthropic、Hugging Face 和 Inflection,都获得了一轮可观的融资。7.数据显示,人工智能让打工人更有生产力,工作质量更高2023 年,多项研究评估了人工智能对劳动力的影响,表明人工智能可以让打工人更快地完成任务,并提高他们的产出质量。这些研究还表明,人工智能有可能缩小低技能和高技能工人之间的技能差距。还有一些研究警告说,在没有适当监督的情况下使用人工智能可能会起到负面作用。8.得益于人工智能,科学进步进一步加速2022 年,人工智能开始推动科学发现。然而,2023 年,与科学相关的更重要的人工智能应用启动使算法排序更高效的 AlphaDev、促进材料发现过程的 GNoME、可在一分钟内提供极其准确的 10 天天气预报的 GraphCast、成功对 7100 万种可能的错义突变中的约 89% 进行分类的 AlphaMissence。如今,人工智能现在可以完成人类难以完成的、但对解决一些最复杂的科学问题至关重要的粗暴计算。在医疗方面,新的研究表明,医生可以利用人工智能更好地诊断乳腺癌、解读 X 射线和检测致命的癌症。9.美国的人工智能法规数量急剧增加2023 年,全球立法程序中有 2175 次提及人工智能,几乎是上一年的两倍。美国人工智能相关法规的数量在过去一年大幅增加。2023 年,与人工智能相关的法规有 25 项,而 2016 年只有 1 项。仅去年一年,人工智能相关法规的总数就增长了 56.3%。其中一些法规包括生成式人工智能材料的版权指南和网络安全风险管理框架。10.人们对人工智能的潜在影响有了更深刻的认识,同时也更焦虑来自市场研究公司 Ipsos 的一项调查显示,在过去一年中,认为人工智能将在未来 3-5 年内极大地影响他们生活的人,比例从 60%上升到 66%。此外,52% 的人对人工智能产品和服务表示焦虑,比 2022 年上升了 13 个百分点。在美国,来自皮尤研究中心(Pew)的数据显示,52% 的美国人表示对人工智能的担忧多于兴奋,这一比例比 2022 年的 38% 有所上升。附:来自AI Index 联合主任 Ray Perrault 的一封信十年前,世界上最好的人工智能系统也无法以人类的水平对图像中的物体进行分类。人工智能在语言理解方面举步维艰,也无法解决数学问题。如今,人工智能系统在标准基准上的表现经常超过人类。2023 年,人工智能进步加速。GPT-4、Gemini 和 Claude 3 等先进模型展示出了令人印象深刻的多模态能力:它们可以生成数十种语言的流畅文本,处理音频,甚至可以解释备忘录。随着人工智能的进步,它也越来越多地进入我们的生活。公司竞相打造基于人工智能的产品,普通大众也越来越多地使用人工智能。但是,当前的人工智能技术仍然存在重大问题。它无法可靠地处理事实、进行复杂的推理或解释其结论。人工智能面临两个相互关联的未来。第一个,技术不断改进,应用日益广泛,对生产力和就业产生重大影响。人工智能的用途有好有坏。第二个,人工智能的应用受到技术局限的制约。无论是哪一种,政府都越来越关注。政府正在积极参与,鼓励人工智能的发展,比如资助大学研发和激励私人投资。政府还致力于管理潜在的不利因素,如对就业的影响、隐私问题、错误信息和知识产权。在技术方面,今年的 AI Index 报告称,2023 年全球发布的新大型语言模型数量比上一年翻了一番。三分之二的模型是开源的,但性能最高的模型来自拥有封闭系统的行业参与者。Gemini Ultra 成为首个在大规模多任务语言理解(MMLU)基准上达到人类水平的 LLM;自去年以来,模型在该基准上的性能表现提高了 15 个百分点。此外,GPT-4 在综合语言模型整体评估(HELM)基准上取得了令人印象深刻的 0.97 平均胜率分数。虽然全球对人工智能的私人投资连续第二年减少,但对生成式人工智能的投资却急剧上升。财富 500 强企业财报电话会议中提及人工智能的次数比以往任何时候都多,而且新的研究表明,人工智能明显提高了打工人的生产率。在政策制定方面,全球在立法程序中提及人工智能的次数前所未有。美国监管机构在 2023 年通过的人工智能相关法规比以往任何时候都多。尽管如此,许多人仍对人工智能生成深度伪造等能力表示担忧。公众对人工智能有了更多的认识,研究表明,他们的反应也是焦虑的。 ... PC版: 手机版:

封面图片

倒反天罡,斯坦福团队被曝抄袭清华系大模型,已删库跑路

倒反天罡,斯坦福团队被曝抄袭清华系大模型,已删库跑路 套壳丑闻让斯坦福AI Lab主任怒了!抄袭团队2人甩锅1人失踪、前科经历被扒 斯坦福的这项研究叫做(已删库),是于5月29日新鲜发布,宣称只需要500美元就能训出一个SOTA多模态大模型,比GPT-4V、Gemini Ultra、Claude Opus都强。 Llama3-V的3位作者或许是拥有名校头衔加持,又有特斯拉、SpaceX的大厂相关背景,这个项目短短几天就受到了不小的关注。 甚至一度冲上了HuggingFace趋势榜首页 一个网友爆料Llama3-V抄袭MiniCPM-Llama3-V 2.55(出自清华系明星创业公司面壁智能),跑到面壁智能的GitHub主页提醒团队注意,并把关键证据都一一截图列举整理了下来,这才有了整个抄袭门的还原现场。 证据一,Llama3-V的模型架构和代码与MiniCPM-Llama3-V 2.5几乎完全相同 证据二,网友质疑Llama3-V作者是如何在MinicPM-Llama3-V2.5项目发布之前就使用上MinicPM-Llama3-V2.5分词器的。 证据三,Llama3-V作者随后无故删除了网友在Llama3-V页面上提交的质疑他们抄袭的问题。 甚至该模型还能识别清华简:MiniCPM-Llama3-V 2.5特有的功能之一是识别清华简,这是一种非常罕见、于战国时期写在竹子上的中国古代文字。训练图像是从最近出土的文物中扫描出来的,由MiniCPM-Llama3-V 2.5团队进行了标注,尚未公开发布。 今天,Llama3-V团队承认抄袭,其中两位来自斯坦福的本科生还跟另一位作者切割了。 最新致歉推文,由Siddharth Sharma(悉达多)和Aksh Garg(阿克什)发出。 不在其中、来自南加利福尼亚大学的Mustafa Aljadery(简称老穆)被指是主要过错方,并且自昨天起人就失踪了:被指跑路的老穆本人,X主页目前已经开启保护锁定状态,需要申请才能关注 斯坦福人工智能实验室主任Christopher Manning都下场开喷:这是典型的不承认自己错误! 量子位:/ 标签: #大模型 #斯坦福 #抄袭 频道: @GodlyNews1 投稿: @GodlyNewsBot

封面图片

李飞飞加入AI创业大军?斯坦福网站显示“部分休假”

李飞飞加入AI创业大军?斯坦福网站显示“部分休假” 截至发稿,斯坦福大学方面尚未向第一财经记者予以回复。一位接近李飞飞的人工智能专家对第一财经记者表示,不便就李飞飞的近况发表评论。据公开信息,李飞飞曾于2023年2月加入一家风险投资公司Radical Venture。李飞飞当时发表在该公司网站上的一篇声明文章称:“我将在担任斯坦福大学计算机科学系教授和斯坦福大学以人为中心的人工智能研究所(HAI)联席主任的同时,加入该公司。”她当时还表示,自己投资了Radical的投资组合公司以及最新的基金,但向学生强调:“我哪儿也不去!将继续在斯坦福大学担任教育家、研究员和导师的全职工作。”根据媒体最新报道,李飞飞的创业公司在近期一轮种子融资中获得了来自包括Radical Ventures和硅谷风投公司Andreessen Horowitz等机构的投资。Radical Ventures公司事务负责人没有立即回应第一财经记者的相关询问。在加入斯坦福大学前,李飞飞曾于2017年至2018年在Google云领导人工智能业务,还在Twitter董事会任职,并曾为白宫政策制定者提供建议。李飞飞目前共同领导斯坦福大学以人为中心的人工智能研究所(HAI),研究方向包括“认知启发人工智能”以及计算机视觉和机器学习。上个月,李飞飞在温哥华的一次TED演讲中表示,她正在使用“空间智能”的概念教会机器对物理世界进行预测并采取行动。她还表示,最前沿的研究涉及算法,通过算法可以合理地推断图像和文本在三维环境中的样子。李飞飞表示:“在空间智能的推动下,大自然创造了这种看见与行为之间的良性循环。”利用类人视觉数据处理技术,使人工智能能够进行高级推理,这将是该技术的一次飞跃。一些专家表示,在人工智能模型实现通用人工智能(AGI)之前,必须先建立这种“推理”能力,所谓的通用人工智能指的是,系统可以像人类一样或更出色地执行大多数任务。目前业内针对AGI的实现方式主要有两种路径的观点:一种是通过构建更大、更复杂的人工智能模型来改进推理;另一种是使用新的“世界模型”,让模型从物理世界的环境中获取视觉信息来开发逻辑,这就好比复制婴儿如何学习。目前科技巨头正在加大对AI的投入,根据最新一轮科技公司财报,Meta、微软和Google都在AI基础设施方面不惜血本地加大投入,并称这些支出还“远远不够”,因为对人工智能服务的需求正大幅超过供应。相关文章:斯坦福人工智能领袖李飞飞打造"空间智能"初创公司AI教母李飞飞首次创业 “空间智能”公司已完成种子轮 ... PC版: 手机版:

封面图片

关于 AI 的顶尖课程(权威且免费,来自吴恩达,coursera,哈佛,斯坦福,谷歌等:

关于 AI 的顶尖课程(权威且免费,来自吴恩达,coursera,哈佛,斯坦福,谷歌等: ChatGPT 开发者提示工程 由 DeepLearning AI 和 OpenAI 为开发者提供的关于 ChatGPT Prompt工程的免费课程。来自@AndrewYNg 在这短短的 1.5 小时课程中,他和@isafulf 会教您如何使用大型语言模型 (LLM) 快速构建应用程序,以及这样做的最佳实践。 吴恩达的0基础人工智能入门经典课程 面向所有人的 AI 入门课程,包括非技术人员。 还是由吴老师@AndrewYNg和DeepLearningAI 在2019年推出,是一个4周的,0基础的系统课程,94万人报名。 哈佛CS50 使用 Python 学习 AI 机器学习的基础知识。 为期7周,66万人报名 斯坦福 CS 224N 介绍自然语言处理 (NLP) 及其工作原理。2022年推出 ,部分课程由克里斯托弗·曼宁老师讲授,斯坦福大学教授、斯坦福自然语言处理组负责人。 学习Prompting 包含 60 多个内容模块的提示工程综合课程。 带你从初级到高级。 机器学习简介 Google 的免费机器学习入门课程 学习 AI,通过微软的GitHub Copilot 4月25日推出 时效性很强 为ML新手,使用python语言的工程师准备的 LangChain 101:Prompts课程 您将学习如何: - 构建 LLM Prompts - 构建聊天Prompts - 使用Prompts选择器 - 使用解析器格式化输出

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人