AI Agents大爆发:软件2.0雏形初现,OpenAI的下一步

AI Agents大爆发:软件2.0雏形初现,OpenAI的下一步 本文编译自 Lilian Weng 的个人博客,Lilian 现在是 OpenAI 的 Head of Safety Systems,之前还领导过 OpenAI 的 Applied AI 团队。 AI Agent 被认为是 OpenAI 发力的下一个方向。OpenAI 的联合创始人 Andrej Karpathy 在近期的一次公开活动上提到“相比模型训练方法,OpenAI 内部目前更关注 Agent 领域的变化,每当有新的 AI Agents 论文出来的时候,内部都会很兴奋并且认真地讨论”,而在更早之前,Andrej还评价 AutoGPT 是 Prompt Engineering 下一阶段的探索方向。 Lilian Weng 的这篇 Blog 可以说是目前 AI Agent 领域优质论文的系统综述,她将 Agents 定义为 LLM、记忆(Memory)、任务规划(Planning Skills)以及工具使用(Tool Use) 的集合,其中 LLM 是核心大脑,Memory、Planning Skills 以及 Tool Use 等则是 Agents 系统实现的三个关键组件,在文章中,她还对每个模块下实现路径进行了细致的梳理和说明。到今天,构建 AI Agent 的工具箱已经相对完善,但仍需要面对一些限制,例如上下文长度、长期规划和任务分解,以及 LLM 能力的稳定性等。 从今年 3 月 AutoGPT 推出后,Generative Agent、GPT-Engineer、BabyAGI 项目的爆发将 LLM 的叙事代入了新的阶段,从“超级大脑”到真正有可能成为“全能助手”。Lillian 在自己的 Twitter 中也认为“This is probably just a new era”。 |

相关推荐

封面图片

AI Agents大爆发:软件2.0雏形初现,OpenAI的下一步

封面图片

TL;DV:AI会议记录软件:

TL;DV:AI会议记录软件: Ogimi:AI冥想和正念应用: Synthesia:内容营销平台: Channel:AI驱动的数据分析工具: Kickresume:AI优化简历: HyperDB:与 LLM 代理一起使用的本地矢量数据库: HealthGPT:分析你的健康数据: MULTI·ON Browser:ChatGPT控制你的浏览器: Better Prompt:Stable Diffusion Web UI的提示词优化插件: Uncody :AI驱动的网页构建工具: 学习资源: 如何在本地快速部署AutoGPT: 微软的机器学习工程师课程: ChatGPT 课程使用 OpenAI API 编写 5 个项目: 精选文章: Sam Altman:未来LLM的规模不会那么重要:

封面图片

ChatGPT-4o,OpenAI的一小步,人类“AI助理”的一大步

ChatGPT-4o,OpenAI的一小步,人类“AI助理”的一大步 它长出了“眼睛”,可以通过摄像头看到你,比如它通过研究员上扬的嘴角判断他的心情、通过他周围的环境背景判断了他正在做什么、甚至给出了造型建议;它能“看到”你的电脑桌面,直接帮你查看写的代码有什么问题。它有了更灵敏的“耳朵”,能听懂的不只是语言,还能听懂研究员过于急促的呼吸声,并引导他慢慢平稳呼吸、放松下来。OpenAICTO Mura Murati 宣布推出 ChatGPT-4o | 图片来源:OpenAI它有了更灵活的“嘴巴”,对话不再有延时,你能随时打断它、它能随时接住你的话。它的声音能带入感情,比如更冷静一点、更激昂一点、甚至讽刺一点。它还能唱歌。它也有了更聪明的“大脑”。它能帮研究员一步步解不等式,还可以做同声翻译、你可以通过它跟不同语种的人们交流。这些强大的能力背后,源自 OpenAI 推出的新模型 GPT-4o。与现有模型相比,GPT-4o 的最大进步在于,它可以实时对音频、视觉和文本进行推理换句话说,它让ChatGPT实现了真正意义上的多模态交互。这不仅仅是技术进步的追求,更是应用普及的追求。OpenAI 的使命之一是让 AI 普惠每个人,让用户能顺滑地用上 AI 是至关重要的。在“模型即应用”的时代,这种交互体验最终还是靠模型能力的提升。OpenAI 称,GPT-4o(“o”代表“omni”)是迈向更自然的人机交互的一步。发布会上,Mira Murati 宣布 ChatGPT-4o 将免费向所有用户开放,而付费和企业用户,可以抢先获得体验。电影《Her》上映于 2013 年,它讲述了一位人类爱上一位人工智能语音助理的故事。从今天 ChatGPT 呈现的能力来看,这样的想象正在加速成为现实。ChatGPT 的惊人进步:变身人类“超级助理”,甚至不需要人类参与在 OpenAI 的官网上,呈现了 ChatGPT 作为个人语音“超级助理”的更多惊人应用场景。首先是面向单个用户,和人一样,它提供的主要是“情绪价值”与“认知价值”。比如它能讲笑话、唱生日快乐歌、玩游戏、逗小狗、给人催眠、让人放松等等;它能充当面试官,给人提供面试建议;它还能给一位盲人提供环境观察,给他讲述看到的景色、提醒他过马路的路况。盲人用户使用 ChatGPT-4o“观察”整个世界 | 图片来源:OpenAI接着是面向多个用户,它提供的更多是一种“协同价值”。比如给两个语言不通的人充当翻译,让他们能无障碍沟通;给两个人做“剪刀石头布”的游戏裁判,先喊口令让游戏开始、之后还能准确判断是哪个人赢了;充当一名“家教”,帮一位父亲辅导他的孩子做作业;甚至作为一名“会议第三方”,主持和记录多人会议。最有意思的还是,不同 ChatGPT 之间的对话。这种无需人类参与的沟通,不仅充满了科幻感,更让人开始想象无需人类协作、而让机器代替人类协作的未来。在一段演示中,一位用户要求一部手机的 ChatGPT 代表自己,向另一部手机的 ChatGPT 申请售后,结果这两个 ChatGPT 毫无阻碍地聊了两分钟,顺利帮这位用户“换了货”。而 OpenAI 总裁 Greg Brockman 则做了一个调皮的演示,他让两个 ChatGPT 互动并唱了歌。OpenAI 总裁 Greg Brockman 演示两个 GPT 的互动 |图片来源:OpenAI一位曾在 10 年前就开始做“AI 语音助理”的前大厂高管对极客公园表示,他当时就设想过 AI 助理的终极形态应该是“多模态、无所不能”,但彼时技术并不支持,他认为 ChatGPT 会加速这种设想实现的可能只是他没想到,这个过程会来得这么快。他认为,实现 AGI 的一个关键标志是,机器是否能具备了自主学习、自主迭代、自主解决问题等能力。这个突破看起来很遥远,但当两个 ChatGPT 开始互相聊天的时候,这个鸿沟看起来似乎浅了一点点。GPT-4o 多模态大模型的技术进步、以及安全性这些惊艳的产品表现,根本上源自于 GPT-4o 多模态大模型的技术进步。后者分为文本、语音、图像三部分,GPT-4o 在这三块都有提升,尤其是后两者。在文本方面,据 OpenAI 的技术报告,GPT-4o 在 MMLU(语言)、GPQA(知识)、MATH(数学)、HumanEval(编程)的评测指标上,都超出了 GPT-4T、GPT-4 (23 年 3 月最初发布版本),以及竞品 Claude 3 Opus、Gemini Pro 1.5、Llama3 400b、Gemini Ultra 1.0。比如在 0-shot COT MMLU 上,GPT-4o 创下了 88.7% 的新高分。GPT-4o 在文本上的成绩相当优异|图片来源:OpenAI最关键的,是音频、多语言和视觉上的进步。在音频方面,过去 ChatGPT 的音频缺陷是需要经过三个独立的模型,从而存在延迟、且无法承载丰富信息。它先由第一个模型将音频转录为文本,再由 GPT-3.5 或 GPT-4 接收文本并输出文本,最后由第三个模型将该文本转换回音频一方面,它使得音频的传输存在延迟,GPT-3.5 的平均延迟为 2.8 秒,GPT-4 的平均延迟为 5.4 秒。另一方面,模型会丢失大量信息,从而无法直接观察音调、多个说话者或背景噪音,也无法输出笑声、歌唱或表达情感。而 GPT-4o 的解决办法是,跨文本、视觉和音频端到端地训练了一个新模型,这意味着所有输入和输出都由同一神经网络处理。OpenAI 称这是其突破深度学习界限的最新举措。目前,GPT-4o 可以在短至 232 毫秒、平均 320 毫秒的时间内响应音频输入,与人类的响应时间相似。同时在音频 ASR 性能和翻译性能上,GPT-4o 都比 Whisper-v3(OpenAI 的语音识别模型)的性能更优。M3Exam 基准测试既能用于多语言评估,也可以用于视觉评估。它由多项选择题组成,包括图形和图表。在所有语言的基准测试中,GPT-4o 都比 GPT-4 更强。另外在视觉理解评估上,GPT-4o 在视觉感知基准上都实现了最先进的性能。GPT-4o 在视觉理解上同样能力不错 | 图片来源:OpenAI一位大模型训练者曾对极客公园表示,模型的技术领先性从来不是靠打榜评分,而是靠用户最真实的感受和体验。从这个角度来说,GPT-4o 的技术领先性将很容易见分晓。OpenAI 表示,GPT-4o 的文本和图像功能将于发布会当天在 ChatGPT 中推出。免费用户就可以使用,不过 Plus 付费用户能享受高达 5 倍的消息容量。在未来几周内,OpenAI 会在 ChatGPT Plus 中推出新版本的语音模式 GPT-4o alpha。而开发人员现在就可以在 API 中访问 GPT-4o 的文本和视觉模型。与 GPT-4 Turbo 相比,GPT-4o 速度提高了 2 倍、价格降低了一半、速率限制提高了 5 倍。在未来几周内,OpenAI 计划向一小部分值得信赖的合作伙伴推出 GPT-4o 的新音频和视频功能。一项强大的技术最令外界担忧的,就是它的安全可控性。这也是 OpenAI 最核心的考虑之一。OpenAI 表示,GPT-4o 通过过滤训练数据和通过训练后细化模型行为等技术,在跨模式设计中内置了安全性。其还创建了新的安全系统,为语音输出提供防护。为了保证更好的安全性,OpenAI 表示在接下来的几周和几个月里,将致力于技术基础设施、培训后的可用性以及发布其他模式所需的安全性。OpenAI 从没让外界失望,再次引领科技圈的未来作为这波 AI 浪潮的开启者、引领者,OpenAI 的每一次发布和更新,都关系着其庞大用户量的涨跌、公司竞争的进退、以及整个行业的关注和走向。在这次发布会之前,外界对 OpenAI 颇多谣传、也包括质疑。一周前,外媒报道此次 OpenAI 要发布的是一款搜索引擎在一年最重要的新闻发布时刻,这家公司没有推出 GPT-5,这引来外界对其创新力的颇多怀疑。而如果无法拿出足够创新力的技术和产品,这家公司将难以重振用户的增长、满足整个市场对它的期待。自 2022 年底推出 ChatGPT 后,这家公司的用户量经历了大起大落。据 Similarweb 估计,其全球访问量在 2023 年 5 月达到... PC版: 手机版:

封面图片

AI 新知:为什么基础代理将会是下一个革命性技术?

AI 新知:为什么基础代理将会是下一个革命性技术? 来自英伟达高级研究员 & AI Agents负责人Jim Fan 近期释放的TED 演讲,《The next grand challenge for AI》提出了「基础代理」将在虚拟世界和物理世界中无缝运行。他解释了这项技术将如何从根本上改变我们的生活渗透到从视频游戏、元宇宙到无人机和仿人机器人的方方面面并探讨了这一模型如何掌握跨越这些不同现实的技能。 他提出「基础代理」(Foundation Agent)的秘诀:一个单一的模型,可以学习如何在不同的世界中行动。 (如果你之前不太熟悉AI agents相关基础知识, 可以结合文本内容补充相关知识点,Enjoy) 「基础代理」中的智能体, Voyager 是什么?? - 它是一个在 Minecraft开放世界中无限学习的智能体。Voyager 可以自己写代码、自我迭代、不断完善技能库中,实现无限学习(Longlife learning)的探索过程。 - 这里核心只有一个,就是无限迭代。 它不断扩充自己的技能图书馆, 无论是在游戏中制作工具,并升级科技树(例如,从Wooden Tool 到Iron Tool), 全部是自主迭代、自主验证的。 它不仅是自动化,它是通过一套机制自主学习 [1]。 - 它建立在GPT-4之上,并解锁了一个新的范式:「训练」在这个语境下是执行代码;「训练模型」是Voyager迭代组成的技能代码库,而不是浮点矩阵。 - Voyager 作为一个超级玩家,在《我的世界》中,它获得了3.3倍的独特物品,旅行了2.3倍的距离,解锁关键技术树里程碑的速度比之前的方法快15.3倍。它还开源的。 [1] 为什么这个「基础代理」具有非凡意义? - LLM 适用于大量文本,而基础代理可以跨越很多很多现实。 基础代理 已经在虚拟世界被验证强大的学习自主性。 - 其次,Jim Fan 认为它具有跨越Reality的拓展性。 开放游戏世界Minecraft 只是作为一个模拟现实(simulated realities)和实验基地,他们还在其他仿真环境进行训练和探索得到惊人进展。[2] - 如果它能够掌握 10,000 种不同的模拟现实,那么它就能很好地推广到我们的物理世界,而物理世界只是第 10,001 个现实。 - 换句话说,它正在加速应用于物理世界,特别是机器人技术。 参考Jim Fan的PPT 。 [3] Hans 注释: [1] 这套自主学习和迭代的机制,有三个核心组件: a)结合游戏反馈、执行错误、自我验证来完善程序的迭代提示机制;(让 GPT-4 写代码 ) b)用于存储和检索复杂行为的技能代码库;(任务的完善和迭代,成为了技能) c)最大化探索的自动课程。Hans 在去年相关论文讨论的《当GPT-4 遇上开放世界》中,有更详细的解读。 [2] 英伟达 Isaac Gym 是一个功能强大的端到端 GPU 加速仿真环境,用于强化学习,可用于训练机器人和模型。它是英伟达 Omniverse 平台的一部分,为机器人和计算机视觉算法提供基于物理的高保真模拟。 [3] TED 视频中Jim Fan的PPT : Invalid media:

封面图片

大模型有望迎新突破 OpenAI、Meta将推出拥有“推理”功能的AI

大模型有望迎新突破 OpenAI、Meta将推出拥有“推理”功能的AI 本周,OpenAI和Meta的高管表示,两家公司正准备推出其大型语言模型的下一个版本,这些模型为生成式人工智能应用提供动力。Meta表示,将在未来几周内开始推出Llama 3;而OpenAI则表示,它的下一个型号,预计将被称为GPT-5,将“很快推出”。推理功能Meta人工智能研究副总裁Joelle Pineau表示,“我们正在努力弄清楚如何让这些模型不仅能说话,而且能真正进行推理和规划……拥有记忆。”OpenAI首席运营官Brad Lightcap在接受采访时表示,下一代GPT将在解决推理等“难题”方面取得进展,“我们将开始看到人工智能能够以更精密的方式处理更复杂的任务,我认为,我们才刚刚开始触及这些模型推理能力的表层。”Lightcap补充道,如今的人工智能系统“非常擅长一次性的小任务”,但其能力仍然“相当有限”。为AGI铺路伴随着科技公司间越来越“卷”技术,进步的步伐正在加快,它们竞相创造更复杂的生成式人工智能这种模型可以创造出与人类无异的文字、图像、代码和视频,其质量也在不断提高。今年,Google、Anthropic和Cohere等公司陆续发布了一波新的大语言模型。推理和规划功能便是通往“通用人工智能(AGI)”的必经之路。AGI拥有人类水平的认知,它允许聊天机器人和虚拟助手完成相关任务的序列,并预测其行为的后果。Meta首席人工智能科学家Yann LeCun周二(4月9日)在伦敦的一次活动上表示,目前的人工智能系统“在没有思考和计划的情况下,是一个接一个地生成单词”,他们很难处理复杂的问题或长时间记住信息,因此他们仍然会“犯愚蠢的错误”。他表示,增加推理能力意味着人工智能模型将“搜索可能的答案”、“计划行动的顺序”,并建立一个“关于其行动将产生何种影响的心理模型”。LeCun补充道,这正是目前模型的重要缺失部分,而这些能力将使机器达到下一个智能水平。OpenAI的Lightcap则表示,OpenAI很快就会对下一个版本的GPT“有更多话要说”。Lightcap称,“我认为随着时间的推移,我们将看到这些模型走向更长、更复杂的任务,这就要求他们提高推理能力。” ... PC版: 手机版:

封面图片

对 agent 的一个暴论:现有 (multi) agent workflow 的模式没有太大价值。Agent 今年(在以吴恩达

对 agent 的一个暴论:现有 (multi) agent workflow 的模式没有太大价值。Agent 今年(在以吴恩达老师为首的各类大佬的吹捧下)热度很高,但现有的这些所谓的 (multi) agent workflow,本质上是把一个大任务拆分成很多个子任务,每个子任务都有明确的 input 和 output,自己定义一些变量和接口,把这些子任务串起来。这种方式很像是早期的自动驾驶,把感知和规控分开解,或者是上一代的语音助手,把语音转文字、LLM、语音合成这些工作流串起来。 终极的解决方案应该不是这个样子的。现有的 (multi) agent workflow,速度慢先不说,最大的问题还是在接口的地方把信息降维了。这些 input / output 的接口和变量,本质上都是把信息降维到人能理解的维度,这是以高维信息的损失为代价的。每多一层 workflow,损失的信息就多了一次。面对简单问题时, (multi) agent workflow 或许是可行的,但它注定无法解决复杂问题。就好比Waymo 用感知+规控的架构,搭配高精地图,能够在凤凰城和三藩市勉强把本地 L4 跑通,但很难 scale 成一个通用的解法。只有 Tesla 端到端的方案才是自动驾驶的未来。 因此,现有的 (multi) agent workflow方式注定只是一个中间状态,类似自动驾驶中感知+规控+高精地图的拼凑。而最终想要解决复杂问题,需要靠基础模型的进化。当模型能力足够强之后,应该是可以端到端的解决问题。你可以在 prompt 里提示它去使用某些工具,或者采用某些步骤,但应该不需要人为去把 workflow 拆出来。 Agent 的概念依旧重要,但应该回归它更加 native 的定义,即每一个 Agent 应该是独立的智能体,拥有自己的 memory, planning, tool use 等能力,能够端到端地解决问题,而不是需要人类按照自己的理解一口口地把饭喂到嘴里。一个 Agent 就应该是一辆独立的L5 Autopilot 的汽车,而不是一堆弱智 L2 Workflow 凑出来的所谓 multi agents 辅助驾驶杂牌军团。这听起来就很不优雅。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人