对 agent 的一个暴论:现有 (multi) agent workflow 的模式没有太大价值。Agent 今年(在以吴恩达

对 agent 的一个暴论:现有 (multi) agent workflow 的模式没有太大价值。Agent 今年(在以吴恩达老师为首的各类大佬的吹捧下)热度很高,但现有的这些所谓的 (multi) agent workflow,本质上是把一个大任务拆分成很多个子任务,每个子任务都有明确的 input 和 output,自己定义一些变量和接口,把这些子任务串起来。这种方式很像是早期的自动驾驶,把感知和规控分开解,或者是上一代的语音助手,把语音转文字、LLM、语音合成这些工作流串起来。 终极的解决方案应该不是这个样子的。现有的 (multi) agent workflow,速度慢先不说,最大的问题还是在接口的地方把信息降维了。这些 input / output 的接口和变量,本质上都是把信息降维到人能理解的维度,这是以高维信息的损失为代价的。每多一层 workflow,损失的信息就多了一次。面对简单问题时, (multi) agent workflow 或许是可行的,但它注定无法解决复杂问题。就好比Waymo 用感知+规控的架构,搭配高精地图,能够在凤凰城和三藩市勉强把本地 L4 跑通,但很难 scale 成一个通用的解法。只有 Tesla 端到端的方案才是自动驾驶的未来。 因此,现有的 (multi) agent workflow方式注定只是一个中间状态,类似自动驾驶中感知+规控+高精地图的拼凑。而最终想要解决复杂问题,需要靠基础模型的进化。当模型能力足够强之后,应该是可以端到端的解决问题。你可以在 prompt 里提示它去使用某些工具,或者采用某些步骤,但应该不需要人为去把 workflow 拆出来。 Agent 的概念依旧重要,但应该回归它更加 native 的定义,即每一个 Agent 应该是独立的智能体,拥有自己的 memory, planning, tool use 等能力,能够端到端地解决问题,而不是需要人类按照自己的理解一口口地把饭喂到嘴里。一个 Agent 就应该是一辆独立的L5 Autopilot 的汽车,而不是一堆弱智 L2 Workflow 凑出来的所谓 multi agents 辅助驾驶杂牌军团。这听起来就很不优雅。

相关推荐

封面图片

吴恩达对AI Agent的这个分享,真的很有价值,这可能才是AI Agent未来的打开方式,我自己体验了一下效果确实很好。

吴恩达对AI Agent的这个分享,真的很有价值,这可能才是AI Agent未来的打开方式,我自己体验了一下效果确实很好。 大多数人使用语言模型的方式是非 Agent 式的工作流,即输入提示,生成答案;而Agent 式工作流是这样的:让 AI 编写文章大纲,看是否需要做一些研究,然后写初稿,阅读初稿并思考哪些部分需要修改,然后修改草稿,如此反复。 多Agent协同很有SaaS 里协同带来的价值那种感觉,我觉得协同在 AI 时代或许仍然非常重要,只不过是将人与人之间的协同更多换成了 AI Agent 而已,而我猜测 AI+Human 协同可能会是未来长期的一个状态。

封面图片

Windows 平台上的 SSH Agent 协议翻译器,使多种实现的 SSH 客户端能利用同一个 Agent 实例

Windows 平台上的 SSH Agent 协议翻译器,使多种实现的 SSH 客户端能利用同一个 Agent 实例 本项目是 OSPP 2021 的项目。 Windows 平台上有着各式各样的 SSH 客户端,它们几乎都以自己各自独有的方式实现了 SSH Agent 及其相应的通信机制。不同实现之间通信机制的不兼容性给使用带来了很大的不便。有名言曰:「任何软件工程遇到的问题都可以通过增加一个中间层来解决。」本项目以增加一层中间层的方式解决了这一问题,使得各种客户端能连接到同一个 Agent 并实行认证。 现支持: - Windows 10 自带 OpenSSH - Putty - Windows 10 原生 Unix Domain Socket 实现的 WSL1 支持 - 通过辅助程序实现的 WSL2 支持 另外还能将 GPG4Win 的 Agent 转发到 WSL 中。 现在项目已基本可用,欢迎大家尝试使用,并提出您宝贵的意见! 地址:

封面图片

小鹏汽车再失自动驾驶大牛 吴恩达高徒王弢离职

小鹏汽车再失自动驾驶大牛 吴恩达高徒王弢离职 但在去年5月,他已调离小鹏,入职小鹏旗下机器人公司鹏行智能。9个月后,曝出他离职的消息。又一位自动驾驶大牛,重归江湖。王弢离职消息最早由凤凰网车研所曝光,报道称小鹏汽车原北美视觉感知负责人王弢已于近期离职,公司系统里查无此人。目前小鹏官方还没有对此消息作出回应。不过根据王弢的领英主页,他在小鹏汽车的工作时间截至到2024年1月。这可以证明此消息为真,王弢确实从小鹏汽车离开。王弢于2019年8月加入小鹏,在当年小鹏技术分享日上,首次以“北美视觉感知团队负责人”的title被介绍,是当时小鹏自动驾驶北美算法团队的核心成员。他总管大感知团队,向来自高通CR&D的Parixit Ahera汇报。但在去年5月,王弢内部调岗,从小鹏算法团队调去了小鹏旗下机器人公司鹏行智能,出任创新战略总监。机器人和自动驾驶底层算法确实有互通之处,内部转岗也不算非常大的变动。但是转岗不到一年,就传出王弢离职的消息。王弢是谁?为什么他的离职会备受关注?王弢是谁之所以称王弢为自动驾驶大牛,是因为无论是理论还是实践,王弢都有丰富的经验,还是将深度学习应用于自动驾驶领域的先驱之一。王弢本科就读于斯坦福大学计算机本科专业,硕士在新加坡国立大学读了电气与电子工程专业,博士阶段则回归斯坦福,师从AI大牛吴恩达,继续攻读计算机科学方向。当时硅谷第一波自动驾驶浪潮正盛,王弢则随着这股浪潮休学创业,和其他几位吴恩达的学生一起,创办了自动驾驶公司Drive.ai。王弢除了是公司联合创始人外,还是研发与工程总监。Drive.ai成立的目标很明确:推进自动驾驶技术落地,并且迅速成为硅谷明星自动驾驶公司之一。△ 中:王弢;右:吴恩达原因一方面是有吴恩达背书,另一方面是公司出色的技术实力:成立两年,成为全球首个展示雨夜行车的自动驾驶公司,还在德州提供了Robotaxi服务。并且,Drive.ai也备受资本青睐。成立两年多共完成5次融资,总金额超7700万美元(约5.54亿元),估值一度达到2亿美元(约14.39亿元)。这背后作为领导者和核心研发人员的王弢,功不可没。不过在2019年情况大变,Drive.ai作价2亿美元卖身,创始团队纷纷出走,后来公司被苹果收购。而王弢在同年跳槽来到小鹏汽车,出任北美自动驾驶视觉感知负责人。此时小鹏汽车的自动驾驶阶段,正好引来了“吴新宙时代”,王弢就是此时被吴新宙挖来的人才之一。当时吴新宙大刀阔斧改动小鹏自动驾驶的团队架构和研究方向,团队分为感知、归控、地图三部分,核心的算法团队在美国,除了负责核心算法研发,还要配合国内团队的需求、路测结果,解决对应问题。王弢正是北美感知算法团队的核心成员。在吴新宙带领下,小鹏通过智能驾驶重要功能不断落地,完成与“技术派”标签的绑定。这其中各类标志性事件:没有激光雷达实现高速NGP、记忆泊车功能上车、高速NGP完成从广州到北京的实测、发布“重感知、轻地图”的城市NGP……感知团队的作用越来越大,也越来越重要。王弢对小鹏自动驾驶技术的重要性,也能够管窥。不过,变动还是在2023年发生了。8月,曝吴新宙离职小鹏,入职英伟达,后亮相证实负责管理英伟达中国自动驾驶团队。巧合的是,无论是王弢,还是吴新宙,工作地点主要都在北美。而之前有传闻称,小鹏汽车想要逐步缩小北美团队,大概和控制人员预算有关。值得关注的是,同样是吴新宙挖来的人才之一刘兰个川,也在2023年被曝离职小鹏,离职前担任算法研发总监,对外也有“小鹏自动驾驶AI负责人”的title。至此可以明确,吴新宙的核心团队成员,正随着吴新宙出走逐渐离开小鹏。目前王弢还没曝光下一步的动向,一位懂管理、懂技术的自动驾驶大牛,重归江湖。 ... PC版: 手机版:

封面图片

是一个正在开发的轻量级AI Agent,它也可以作为一个简单的开发框架,用于快速构建和试验各种AI Agent想法。特点如下:

是一个正在开发的轻量级AI Agent,它也可以作为一个简单的开发框架,用于快速构建和试验各种AI Agent想法。特点如下: 自然且高度容错的交互式代理调用树架构。 以最灵活的方式解析 LLM 输出,支持更多样的函数调用机制。 自构建、动态加载环境交互模块,提供无限的功能扩展潜力。 专为开源模型设计,但无缝支持 GPT-4 等商业模型。 支持对特定主题的深入调查。 自动化编程和脚本执行。它是一个包罗万象的编码器和熟练的系统管理工具,掌握所有系统命令类似于人工智能操作系统。 设计AIlice时的基本原则是: 以高度动态的提示构建机制丰富LLM行为; 尽可能分离不同的计算任务,利用传统计算中的递归和分治法来解决复杂问题。 代理应该能够双向交互。 让我们简要解释一下这些基本原则。 从最明显的层面开始,高度动态的提示结构使得代理不太可能陷入循环。外部环境新变量的涌入不断影响着法学硕士,帮助其避免陷入这种陷阱。此外,向法学硕士提供所有当前可用的信息可以大大提高其产出。例如,在自动化编程中,来自解释器或命令行的错误消息帮助法学硕士不断修改代码,直到获得正确的结果。最后,在动态提示构建中,提示中的新信息也可能来自其他智能体,作为一种联动推理计算的形式,使得系统的计算机制更加复杂、多样,能够产生更丰富的行为。 从实际的角度来看,分离计算任务是由于我们有限的上下文窗口。我们不能指望在几千个代币的窗口内完成一项复杂的任务。如果我们能够分解一个复杂的任务,以便在有限的资源内解决每个子任务,那将是一个理想的结果。在传统的计算模型中,我们一直利用这一点,但在以LLM为中心的新计算中,这并不容易实现。问题是,如果一个子任务失败,整个任务就有失败的风险。递归更具挑战性:如何确保每次调用时,LLM 都能解决部分子问题,而不是将整个负担传递给下一级调用?我们在AIlice中用IACT架构解决了第一个问题,第二个问题理论上不难解决,但很可能需要更聪明的LLM。 第三个原则是大家目前正在努力的:让多个智能代理交互、协作来完成更复杂的任务。这一原则的实现实际上解决了前面提到的子任务失败的问题。多智能体协作对于智能体运行中的容错能力至关重要。事实上,这可能是新计算范式与传统计算最大的区别之一:传统计算是精确且无错误的,仅通过单向通信(函数调用)来分配子任务,而新计算范式则容易出错且需要计算单元之间的双向通信来纠正错误。这将在下面有关 IACT 框架的部分中详细解释。

封面图片

特斯拉FSD入华在即,端到端是自动驾驶量产上路的最优解吗?

特斯拉FSD入华在即,端到端是自动驾驶量产上路的最优解吗? Jane 出行的回答 先解释下什么叫端到端,是自动驾驶AI算法系统,End to End. 端到端自动驾驶指的是使用单一的AI模型,能够做到直接从输入数据到输出决策(以前一直说的是串联:感知-决策-控制,下图作为对比参考)的自动驾驶系统。该系统的目标是通过学习大量的数据来模仿人类驾驶员的决策过程,最终实现对车辆的控制。来自网络,侵删 具体来说,就是向自动驾驶系统输入传感器感知到的周围环境信息,它能迅速规划出最优路径,并输出对方向盘的控制角度、油门、刹车的力度的信号,从而实现对车辆的控制。 简单概述就是,端到端自动驾驶AI大模型将进化为无限接近人类大脑的思考速度及准确度,而不是靠后台规划完成计算和算法。 好处是什么? 1)习得人类理解能力的捷径是AI。大家看chat-GPT,或者Mid-journey,或者sora,应该能大概体会到AI的能力。通过代码规划无法穷尽人类世界遇到的所以驾驶场景,而基于神经网络及部分规划的端到端(指的是告知-决策-控制这几端)则通过神经网络自学习,越来越像人类思考。 2)快速解决长尾场景的捷径也是AI。通过不断输入视频训练数据,让AI端到端大模型举一反三,学习成千上万个类似的场景,对现实中类似场景即可做出准确且安全的瞬时反应。城市钟除了主干道,还有很多狭窄车道 如果辨别什么是好的端到端? 端到端自动驾驶AI大模型,你可以理解为技术路线。 但是培养AI算法进化是需要很费钱的,小鹏汽车说自己花了7000张卡,相当于8E,中国主机厂最多,单训练费用一年就7亿。而马斯克也说他蔚来一年在人工智能上总投入100亿美金。好的端到端必定需要有明确的商业变现模式。来自网络,侵删 端到端自动驾驶AI大模型需要专业团队把控,即使上了端到端,如果没有体系化的数据管理能力,没有及时的问题诊断和解决能力。 以上两点都需要企业极大的战略定力和觉醒,已经商业化能力,总得活到春天到来时把。 via 知乎热榜 (author: Jane 出行)

封面图片

吴恩达:美国加州AI安全法案将扼杀开源大模型

吴恩达:美国加州AI安全法案将扼杀开源大模型 例如,根据该法案的定义,Meta的Llama-3被定义为超过1亿美元训练成本的“前沿模型”。如果有人将该模型用于非法用途,Meta也会受到严重处罚。咱们2000多年前大秦的连坐制度,咋还出口了呢~加州的地理位置非常特殊,这里既有斯坦福、加州理工、南加州大学等名校,也是Google、苹果、OpenAI、Meta等科技巨头总部的所在地,所以,该法案也受到了吴恩达、Yann LeCun等AI界泰斗的抵制。例如,该法案中的22603(a)(3)(4)条要求"有限职责豁免"向政府部门提交证明,并在有错误时停止模型的运行;第22603(b)条要求开发者需要报告任何模型的潜在的AI安全事故。如果开发者无法完全掌控基于其模型的各种衍生版本,若发生安全事故,责任将归属于第一开发者。也就是说,开发者需要对模型的能力做出保证,一旦大模型开源后被他人修改,能力发生变化,会面临合规风险的处罚。所以,企业、个人开发者在开源大模型权重时会非常谨慎,这相当于是一个连带责任。此外,该法案中的22604(a)(b)规定,当用户使用其“前沿模型”和算力资源时,开发者需要提交客户的所有资料,包括客户的身份、信用卡号、账号、客户标识符、交易标识符、电子邮件、电话号码。同时,每年都要提交一次资料,并对用户的行为、意图进行评估。用户的所有资料会被备份7年,也会在海关、边境总署备案。而开发者也需要具备紧急停止大模型的能力,例如,用户使用其模型用于别的业务场景,可以不用通过用户本地直接关闭模型。像这种严格的监管条例还有不少,无形之中会加重企业、开发者对大模型的合规成本和开放权重的态度。尤其是那种“秦朝连坐制度”,用户使用了你的模型开发了其他潜在危险的应用,特别是这个判定还很模糊,那么第一开发者弱没有“豁免权”将会一起被处罚,真的是挺离谱的。对于SB-1047法案的拟定,吴恩达发表了一篇深度长文进行回应。他表示,该法案中有很多问题,首先就是危险范畴定义不合理,如果有人使用他们的模型做超出规定的事情,原作者一起被处罚。此外对造成的伤害定义也不太好,例如,造成5亿美元的损失,这在AI领域还是很难实现的。如果最终议会通过了这个方案,那么将会对AI大模型领域造成很大影响,将彻底扼杀开源大模型的技术创新。吴恩达进一步指出,应该监管的是AI应用程序而不是大模型本身。例如,电机是一种技术。当我们把它放在搅拌机、电动汽车、透析机或导弹中时,它就成为了一种应用。如果我们通过法律规定,如果任何人以有害的方式使用电机,制造商将承担相应的责任。那么,电机制造商要么关闭生产,要么将电机的性能制造的非常小,难以大范围应用。SB-1047法案似乎没有考虑过大模型有益处的应用,而是全部针对他的有害来处理的,这是不公平的。如果这样的监管法案最终通过了,可能会阻止人们使用电机制造导弹,但我们也会失去使用搅拌机、电动汽车和透析机的机会。吴恩达在最近演讲中谈SB-1047更大的忧虑是,加州的SB-1047法案一旦通过,其他州可能会效仿,整个负面影响会不断扩大。图灵奖获得者、Meta首席科学家- Yann LeCun直言,SB-1047法案意味着,加州的科技产业将直接面临终结。知名架构师Daniel Jeffries也赞成Yann的观点,并发表长文强烈呼吁加州议会对SB-1047法案提反对票。并且认为,SB-1047根本就不是一个法案,就是一个“特洛伊木马”。原因很简单,这是由一群小范围利益群体制定的规则,他们坚信AI大模型会带来“世界毁灭”,完全不顾他的好处。此外,他提出中国已经具备与OpenAI等科技巨头竞争的大模型,在电动汽车、自动驾驶、城市AI大脑皆处于领先地位。这个方案要是通过了,将直接压制美国AI领域的发展进程。普通用户对SB-1047法案也是相当抵制的,这个法案的最终目的,就是让第一开发者为自己的大模型永久负责,并保证不会出现任何危险。这简直是难以执行的监管,会严重影响开源领域的发展。同时嘲讽道,让一群平均年龄63岁的人,来监管AI大模型有点不靠谱啊~~也有人建议,不行就把开源大模型这事交给中国来做吧,Quen 2、零一万物等开源大模型的性能已经和GPT-4、GPT-4o等旗鼓相当。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人