AI Agents大爆发:软件2.0雏形初现,OpenAI的下一步

AI Agents大爆发:软件2.0雏形初现,OpenAI的下一步 本文编译自 Lilian Weng 的个人博客,Lilian 现在是 OpenAI 的 Head of Safety Systems,之前还领导过 OpenAI 的 Applied AI 团队。 AI Agent 被认为是 OpenAI 发力的下一个方向。OpenAI 的联合创始人 Andrej Karpathy 在近期的一次公开活动上提到“相比模型训练方法,OpenAI 内部目前更关注 Agent 领域的变化,每当有新的 AI Agents 论文出来的时候,内部都会很兴奋并且认真地讨论”,而在更早之前,Andrej还评价 AutoGPT 是 Prompt Engineering 下一阶段的探索方向。 Lilian Weng 的这篇 Blog 可以说是目前 AI Agent 领域优质论文的系统综述,她将 Agents 定义为 LLM、记忆(Memory)、任务规划(Planning Skills)以及工具使用(Tool Use) 的集合,其中 LLM 是核心大脑,Memory、Planning Skills 以及 Tool Use 等则是 Agents 系统实现的三个关键组件,在文章中,她还对每个模块下实现路径进行了细致的梳理和说明。到今天,构建 AI Agent 的工具箱已经相对完善,但仍需要面对一些限制,例如上下文长度、长期规划和任务分解,以及 LLM 能力的稳定性等。 从今年 3 月 AutoGPT 推出后,Generative Agent、GPT-Engineer、BabyAGI 项目的爆发将 LLM 的叙事代入了新的阶段,从“超级大脑”到真正有可能成为“全能助手”。Lillian 在自己的 Twitter 中也认为“This is probably just a new era”。 |

相关推荐

封面图片

AI Agents大爆发:软件2.0雏形初现,OpenAI的下一步

封面图片

最近有点纠结,究竟是开始上手AI视频,还是深入研究些 agent。

最近有点纠结,究竟是开始上手AI视频,还是深入研究些 agent。 本着“不看广告看疗效”的态度,调研了一圈两者在商业公司的落地情况,发现还是后者更加靠谱,更加适合我。 吴恩达老师的“GPT-4+agent>GPT-5”的判断,个人是比较认同和深有感触的。 吴恩达老师在演讲中还提到agent的 4 大设计模式,并推荐了10篇相关的论文,我打算今天就开始啃起来: 1、Reflection 2、Tool Use 3、Planning 4、Multi-agent collaboration

封面图片

TL;DV:AI会议记录软件:

TL;DV:AI会议记录软件: Ogimi:AI冥想和正念应用: Synthesia:内容营销平台: Channel:AI驱动的数据分析工具: Kickresume:AI优化简历: HyperDB:与 LLM 代理一起使用的本地矢量数据库: HealthGPT:分析你的健康数据: MULTI·ON Browser:ChatGPT控制你的浏览器: Better Prompt:Stable Diffusion Web UI的提示词优化插件: Uncody :AI驱动的网页构建工具: 学习资源: 如何在本地快速部署AutoGPT: 微软的机器学习工程师课程: ChatGPT 课程使用 OpenAI API 编写 5 个项目: 精选文章: Sam Altman:未来LLM的规模不会那么重要:

封面图片

社会假定每个人的目标都是向上爬,员工的下一步是经理,经理的下一步是主管,主管的下一步是总监。

社会假定每个人的目标都是向上爬,员工的下一步是经理,经理的下一步是主管,主管的下一步是总监。 这种假设有问题的。 我觉得人的成长更像植物。白杨树长得很高,为自己争取到了许多阳光。蒲公英把根扎得很深,避免了自己被无端地铲除。百里香等植物则把自己平铺开来,分散生长,处处生根。每个人的梦想各不相同。不爬梯,也是完全可以的。只有你自己,最清楚自己适合往哪个方向成长。

封面图片

对 agent 的一个暴论:现有 (multi) agent workflow 的模式没有太大价值。Agent 今年(在以吴恩达

对 agent 的一个暴论:现有 (multi) agent workflow 的模式没有太大价值。Agent 今年(在以吴恩达老师为首的各类大佬的吹捧下)热度很高,但现有的这些所谓的 (multi) agent workflow,本质上是把一个大任务拆分成很多个子任务,每个子任务都有明确的 input 和 output,自己定义一些变量和接口,把这些子任务串起来。这种方式很像是早期的自动驾驶,把感知和规控分开解,或者是上一代的语音助手,把语音转文字、LLM、语音合成这些工作流串起来。 终极的解决方案应该不是这个样子的。现有的 (multi) agent workflow,速度慢先不说,最大的问题还是在接口的地方把信息降维了。这些 input / output 的接口和变量,本质上都是把信息降维到人能理解的维度,这是以高维信息的损失为代价的。每多一层 workflow,损失的信息就多了一次。面对简单问题时, (multi) agent workflow 或许是可行的,但它注定无法解决复杂问题。就好比Waymo 用感知+规控的架构,搭配高精地图,能够在凤凰城和三藩市勉强把本地 L4 跑通,但很难 scale 成一个通用的解法。只有 Tesla 端到端的方案才是自动驾驶的未来。 因此,现有的 (multi) agent workflow方式注定只是一个中间状态,类似自动驾驶中感知+规控+高精地图的拼凑。而最终想要解决复杂问题,需要靠基础模型的进化。当模型能力足够强之后,应该是可以端到端的解决问题。你可以在 prompt 里提示它去使用某些工具,或者采用某些步骤,但应该不需要人为去把 workflow 拆出来。 Agent 的概念依旧重要,但应该回归它更加 native 的定义,即每一个 Agent 应该是独立的智能体,拥有自己的 memory, planning, tool use 等能力,能够端到端地解决问题,而不是需要人类按照自己的理解一口口地把饭喂到嘴里。一个 Agent 就应该是一辆独立的L5 Autopilot 的汽车,而不是一堆弱智 L2 Workflow 凑出来的所谓 multi agents 辅助驾驶杂牌军团。这听起来就很不优雅。

封面图片

微软2023年Build大会演讲:如何训练和应用GPT |微软2023年Build大会来自OpenAI的AI 研究员和创始成员A

微软2023年Build大会演讲:如何训练和应用GPT |微软2023年Build大会来自OpenAI的AI 研究员和创始成员Andrej Karpathy的一个主题为State of GPT的演讲。 演讲主要有两部分内容: 1. OpenAI是如何训练GPT的 2. 我们如何有效应用GPT

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人