AI Agents大爆发：软件2.0雏形初现，OpenAI的下一步

AI Agents大爆发：软件2.0雏形初现，OpenAI的下一步本文编译自 Lilian Weng 的个人博客，Lilian 现在是 OpenAI 的 Head of Safety Systems，之前还领导过 OpenAI 的 Applied AI 团队。 AI Agent 被认为是 OpenAI 发力的下一个方向。OpenAI 的联合创始人 Andrej Karpathy 在近期的一次公开活动上提到“相比模型训练方法，OpenAI 内部目前更关注 Agent 领域的变化，每当有新的 AI Agents 论文出来的时候，内部都会很兴奋并且认真地讨论”，而在更早之前，Andrej还评价 AutoGPT 是 Prompt Engineering 下一阶段的探索方向。 Lilian Weng 的这篇 Blog 可以说是目前 AI Agent 领域优质论文的系统综述，她将 Agents 定义为 LLM、记忆（Memory）、任务规划（Planning Skills）以及工具使用（Tool Use）的集合，其中 LLM 是核心大脑，Memory、Planning Skills 以及 Tool Use 等则是 Agents 系统实现的三个关键组件，在文章中，她还对每个模块下实现路径进行了细致的梳理和说明。到今天，构建 AI Agent 的工具箱已经相对完善，但仍需要面对一些限制，例如上下文长度、长期规划和任务分解，以及 LLM 能力的稳定性等。从今年 3 月 AutoGPT 推出后，Generative Agent、GPT-Engineer、BabyAGI 项目的爆发将 LLM 的叙事代入了新的阶段，从“超级大脑”到真正有可能成为“全能助手”。Lillian 在自己的 Twitter 中也认为“This is probably just a new era”。 |

在Telegram中查看

相关推荐

AI Agents大爆发：软件2.0雏形初现，OpenAI的下一步

最近有点纠结，究竟是开始上手AI视频，还是深入研究些 agent。

最近有点纠结，究竟是开始上手AI视频，还是深入研究些 agent。本着“不看广告看疗效”的态度，调研了一圈两者在商业公司的落地情况，发现还是后者更加靠谱，更加适合我。吴恩达老师的“GPT-4+agent＞GPT-5”的判断，个人是比较认同和深有感触的。吴恩达老师在演讲中还提到agent的 4 大设计模式，并推荐了10篇相关的论文，我打算今天就开始啃起来： 1、Reflection 2、Tool Use 3、Planning 4、Multi-agent collaboration

TL;DV：AI会议记录软件：

TL;DV：AI会议记录软件： Ogimi:AI冥想和正念应用： Synthesia：内容营销平台： Channel：AI驱动的数据分析工具： Kickresume：AI优化简历： HyperDB：与 LLM 代理一起使用的本地矢量数据库： HealthGPT：分析你的健康数据： MULTI·ON Browser：ChatGPT控制你的浏览器： Better Prompt：Stable Diffusion Web UI的提示词优化插件： Uncody ：AI驱动的网页构建工具：学习资源：如何在本地快速部署AutoGPT：微软的机器学习工程师课程： ChatGPT 课程使用 OpenAI API 编写 5 个项目：精选文章： Sam Altman：未来LLM的规模不会那么重要：

社会假定每个人的目标都是向上爬，员工的下一步是经理，经理的下一步是主管，主管的下一步是总监。

社会假定每个人的目标都是向上爬，员工的下一步是经理，经理的下一步是主管，主管的下一步是总监。这种假设有问题的。我觉得人的成长更像植物。白杨树长得很高，为自己争取到了许多阳光。蒲公英把根扎得很深，避免了自己被无端地铲除。百里香等植物则把自己平铺开来，分散生长，处处生根。每个人的梦想各不相同。不爬梯，也是完全可以的。只有你自己，最清楚自己适合往哪个方向成长。

对 agent 的一个暴论：现有 (multi) agent workflow 的模式没有太大价值。Agent 今年（在以吴恩达

对 agent 的一个暴论：现有 (multi) agent workflow 的模式没有太大价值。Agent 今年（在以吴恩达老师为首的各类大佬的吹捧下）热度很高，但现有的这些所谓的 (multi) agent workflow，本质上是把一个大任务拆分成很多个子任务，每个子任务都有明确的 input 和 output，自己定义一些变量和接口，把这些子任务串起来。这种方式很像是早期的自动驾驶，把感知和规控分开解，或者是上一代的语音助手，把语音转文字、LLM、语音合成这些工作流串起来。终极的解决方案应该不是这个样子的。现有的 (multi) agent workflow，速度慢先不说，最大的问题还是在接口的地方把信息降维了。这些 input / output 的接口和变量，本质上都是把信息降维到人能理解的维度，这是以高维信息的损失为代价的。每多一层 workflow，损失的信息就多了一次。面对简单问题时， (multi) agent workflow 或许是可行的，但它注定无法解决复杂问题。就好比Waymo 用感知+规控的架构，搭配高精地图，能够在凤凰城和三藩市勉强把本地 L4 跑通，但很难 scale 成一个通用的解法。只有 Tesla 端到端的方案才是自动驾驶的未来。因此，现有的 (multi) agent workflow方式注定只是一个中间状态，类似自动驾驶中感知+规控+高精地图的拼凑。而最终想要解决复杂问题，需要靠基础模型的进化。当模型能力足够强之后，应该是可以端到端的解决问题。你可以在 prompt 里提示它去使用某些工具，或者采用某些步骤，但应该不需要人为去把 workflow 拆出来。 Agent 的概念依旧重要，但应该回归它更加 native 的定义，即每一个 Agent 应该是独立的智能体，拥有自己的 memory, planning, tool use 等能力，能够端到端地解决问题，而不是需要人类按照自己的理解一口口地把饭喂到嘴里。一个 Agent 就应该是一辆独立的L5 Autopilot 的汽车，而不是一堆弱智 L2 Workflow 凑出来的所谓 multi agents 辅助驾驶杂牌军团。这听起来就很不优雅。

微软2023年Build大会演讲：如何训练和应用GPT |微软2023年Build大会来自OpenAI的AI 研究员和创始成员A

微软2023年Build大会演讲：如何训练和应用GPT |微软2023年Build大会来自OpenAI的AI 研究员和创始成员Andrej Karpathy的一个主题为State of GPT的演讲。演讲主要有两部分内容： 1. OpenAI是如何训练GPT的 2. 我们如何有效应用GPT

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人