虽然这句话本身是个段子,但同时也可以是开发者的思考范式。

虽然这句话本身是个段子,但同时也可以是开发者的思考范式。 AI的记忆有限,能做什么?langchian AI会产生幻觉,能做什么?new bing AI没有实时数据,能做什么?用插件喂数据 AI不会思考中间步骤,能做什么?prompt 加上一步步 AI现在只有快思考,能做什么?做一个慢思考层 : 不要问AI能为你做些什么, 而要问你能为AI做些什么。

相关推荐

封面图片

微软Build开发者大会前瞻: AI PC、ARM版Windows和云AI

微软Build开发者大会前瞻: AI PC、ARM版Windows和云AI 今年1月,微软CEO萨蒂亚·纳德拉(Satya Nadella)宣布,2024年将是人工智能成为“每台个人电脑不可或缺部分”的一年。微软已在其必应搜索引擎中集成了Copilot聊天机器人助手,并在Office软件中提供此功能的付费服务。在即将举行的Build大会上,PC用户将了解到更多关于人工智能如何被整合进Windows以及他们在新的AI PC上能做些什么。Build大会紧随谷歌I/O大会之后不久举行,在后者的活动中,谷歌推出了迄今为止最强大的AI模型,并展示了其Gemini AI如何在计算机和手机上运行。在谷歌活动之前,OpenAI公布了其新的GPT-4o模型。作为OpenAI的主要投资者,微软的Copilot技术基于OpenAI的模型。对于微软而言,挑战是双重的:不仅要在AI领域保持领先地位,还要推动个人电脑销量的增长,尤其是在疫情期间升级周期后的销售低迷。摩根士丹利分析师埃里克·伍德林(Erik Woodring)在近期给投资者的一份报告中表示,他对个人电脑市场的复苏持乐观态度,这主要基于客户的积极反馈以及对笔记本电脑原始设计制造商(ODM)构建的“预期上调”。科技行业研究机构Gartner估计,经历多年低迷后,本季度PC出货量同比增长了0.9%。微软首席财务官阿米·胡德(Amy Hood)在上月的季度财报电话会议中表示,个人电脑的需求“略好于预期”。微软发布的新AI工具可能为企业和消费者客户提供升级其旧电脑的另一个理由,无论这些电脑是惠普、戴尔还是联想生产的。投行伯恩斯坦分析师在4月26日微软发布财报后给投资者的一份报告中写道:“尽管Windows的Copilot不直接推动收入增长,但我们相信,它应该会提升Windows的使用频率和用户黏性,吸引消费者购买更高价更强大的PC(从而为微软每台设备带来更多收入),并可能增加搜索收入。”微软不仅提供处理互联网AI任务的软件,其计算机还将使用AMD、英特尔以及高通的芯片来处理离线AI任务。例如,用户可以使用语音命令让Copilot在无网络连接的情况下总结录音。什么是AI PC?AI PC的关键硬件是所谓的神经处理单元(NPU)。NPU超越了传统的中央处理单元(CPU)的功能,专为处理人工智能任务而设计。例如,苹果公司就使用NPU来改进照片和视频的质量或进行语音识别。微软尚未说明在无网络连接的情况下AI PC能做什么。但谷歌的Pixel 8 Pro手机,尽管没有完整的计算机处理器,已能利用其Gemini Nano AI进行录音的摘要和转录,推荐短信回复等。预计搭载英特尔最新Lunar Lake芯片和专用NPU的计算机将于2024年底上市。配备NPU的高通骁龙X Elite芯片将于今年中发布,AMD的最新Ryzen Pro预计在本季度某时推出。英特尔表示,其芯片能够实现“实时语言翻译、自动推理和增强游戏环境”等功能。苹果公司多年来一直使用NPU,并在最近推出的iPad Pro的新M4芯片中突出显示了这些功能。预计M4芯片将在今年晚些时候出现在新一代Mac电脑中。基于ARM的Windows与英特尔和AMD的芯片不同,高通提供的芯片基于ARM架构。微软Build开发者大会一个会议主题将是“下一代基于ARM的Windows”,这可能涉及Windows如何在高通芯片上运行,以及这如何不同于在英特尔和AMD芯片上运行的Windows版本。根据市场研究公司Canalys的最新数据,特尔仍然控制着78%的PC芯片市场份额,AMD紧随其后,占据13%的份额。高通在推广搭载骁龙芯片的计算机时,一直强调其更长的电池寿命、更薄的设计以及蜂窝连接等优势。然而,高通早期的芯片为消费者提供的功能有限,例如2018年发布的骁龙835芯片就无法运行大多数Windows应用程序。此后,微软优化了Windows系统,以支持在ARM芯片上运行传统应用程序,但仍存在问题。微软甚至专门为运行在ARM硬件上的计算机设立了一个常见问题解答页面。无处不在的人工智能微软还将在Build开发者大会上举办“AI Everywhere”等分会议,探讨如何在云端运行设备上“加速生成人工智能模型”。“Azure AI Studio”会议将探讨开发者如何创建他们自己的Copilot聊天机器人,这可能与谷歌和OpenAI在Gemini和ChatGPT上所做的类似。例如,想象一家公司创建一个聊天机器人,帮助员工选择医疗福利。 ... PC版: 手机版:

封面图片

最近一周时间在上海、深圳、北京见了近20位一线AI从业者,其中包括投资人,大厂AI业务&模型厂&应用厂的员工,独立开发者,fou

最近一周时间在上海、深圳、北京见了近20位一线AI从业者,其中包括投资人,大厂AI业务&模型厂&应用厂的员工,独立开发者,founder。很累,收获也很多。总结一下我觉得重要的共识和非共识,以下内容没有优先顺序,想到哪写到哪: 1.关于竞争:大厂、模型厂、应用厂 大厂没有逃脱局部兵力不足的问题,越是铺得广的厂这个问题越严重,字节的遍历填格子打法在业务相似度低的时候是人才密度不够的,战术上重视就行。反而阿里的通义因为更研究院模式,没有主核,分布式创新使得反而跑出来一些模型和应用侧有意思的东西,这个很值得大厂内部思考一下。 模型厂基于GPT-5迟迟不到,可能也判断出了,算力未必是万能解药,开始卷差异化,差异化对于tob的竞争尤为重要。但国内的模型厂还有一个不得不卷应用的任务,但不基于模型差异化的应用很难卷出用户体验增量,各位厂里的小伙伴都在努力地拉齐共识和内部创新的过程中。 应用厂,AI搜索的共识形成得太快了,其实没有留下太多保护期,大明牌的卷度会很激烈。反而是AI+every thing因为去年的过分乐观到今年的幻灭,留出了大量的创新保护窗口,给不迷信AI解决一切问题,但试图先用AI对具体领域做一些用户体验提升的公司留下了机会。 额外补一个硬件厂,世界上还有大量的数据没有被搜集,每个带有数据收集器的硬件厂都有属于自己的机会,但硬件厂目前很少有软硬一体的能力。补齐短板的玩家会可能会跑出来新东西。 2.关于模型能力 GPT-4o展示了快非常重要,快是核心体验之一,那么moe就必须得卷了,groq这种加速的基建也会变得非常有价值。如果大规模的智力代差比如3.5->4不会卷得那么快的话,代差之间可能更多是成本和速度的竞争。 长上下文很牛,但低成本的长上下文才有意义,基于长上下文成本急剧下降这个假设,能解决很多当前的用户体验问题。 多模态暂时在应用层的优势不明显,不考虑终态世界模型之类的,当前可能主要体现在一些之前没覆盖到的小CV场景。 fine - tuning不是净提升,是某类问题解决的更好,但通用问题更差的trade off,可以通过调整尽量降低负面影响,但从技术成本和数据成本来考虑,暂时很难作为可普及的常用武器库。 更细分的卷法,卷RAG,卷function call,卷代码能力,卷交互理解,卷情绪理解等等 可能真正值得卷的是意图识别,意图识别才是ai的推荐系统。 3.关于投融资 国内目前的情况是:创业者说市场温度低难拿钱,投资人说好项目少没法投。回到本质还是大家想用钱干什么,如果是为了加速市场形成,烧出一个煊赫盛世应该是不太可能了,因为各有各的难处,但如果真的想要构建一个未来5-10年在AI世界有独特社会分工的企业,大家还是很认可的。但目前市面上能持之以恒解自己的题的人很稀缺。 海外听到了多种说法,鉴于没有一手信息就不评价了,但如果做海外市场,还是建议谨慎考虑融资动作。 4.关于用户需求 PMF对还是TMF对?还是前者对,但现在加了一层技术可行性的约束,使用门槛很高,但体验提升巨大,也有机会。 工具效率/工作流,这是目前AI落地得最好的部分,但目前最大公约数已经挖完了,而AI目前远达不到数字员工的级别,很长一段时间基于某个职业的AI工作流copilot应该都是主要落地形式。tob和toc在这个领域都能持续跑出来赚钱的东西。 情感陪伴/内容消费,成本下不来,质量上不去,商业模式讲不清楚(付费逻辑只有hs内容能跑通,免费逻辑留存一直上不去)。 AI也不是唯一主线,AR眼镜等硬件对原本手机场景的分割,电话、拍照、翻译。还有web3。基于满足用户需求来思考,AI未必是唯一的锤子。 5.关于长期主义的优劣势 这回出来有一个比较深的感受是,基本上可以把founder分为偏长期主义和不偏长期主义两类,而这两类似乎都有其生存空间和价值。 因为我的个人偏好,所以说明一下长期主义的优劣势: 优势是,长期主义在各类决策上,难度都会降纬,因为长期主义代表你对于未来世界是有一个大概想象的,你知道五年之后想要什么,所以对于判断做什么不做什么会变容易,对于招谁不招谁也会变得容易。单一目标的决策总是比多目标的决策好做。 劣势是,早期找PMF切入点可能会非常难且漫长,对于耐力、定力和资源的要求会更高,是的,长期主义是更消耗资源的,因为反馈周期会更长。

封面图片

参加华为开发者大会后 我感觉他们把系统玩明白了

参加华为开发者大会后 我感觉他们把系统玩明白了 也正是在这场大会上,之前跟大家预告过的 HarmonyOS NEXT 正式和大家见面了。托尼也是从杭州出发,前往大名鼎鼎的松山湖畔来参加这场为期数天的开发者大会( 不是来打捞芯片的 )。废话不多说,咱们直接进入这次的正题HarmonyOS NEXT 。>/ HarmonyOS NEXT简单来讲, HarmonyOS NEXT 采用了华为自研的全新系统架构,这次真的要跟Android说再见了。而这也就意味着,之前说过的鸿蒙原生应用,现在成为了现实。看看这一屏幕的小伙伴就能知道,大家常用的京东、淘宝、美团和微博等等,肯定都开发了鸿蒙原生应用。统一的鸿蒙生态这一点,其实在现在的鸿蒙设备上就能感受到,但是这次鸿蒙更进一步,你在手机、折叠屏或者平板上面打开相同的应用时,体验是几乎一样的。以前做不到这种程度,是因为之前只是植入了鸿蒙互联框架,运行和流转的应用本身依旧是Android App 。但Android嘛,它一开始就没有给跨硬件的无缝流转留余地,所以体验可以说是稀烂……不过鸿蒙这次从设计之初就考虑到了这些问题,所以厂商们的鸿蒙原生应用体验必然是丝滑般顺畅,遥遥领先。这些应用一出生就有对应的 “ 平板版本 ” ,不需要在平板上用别扭的手机应用了。为了展示原生应用,华为现场还摇了不少人,比如 WPS 副总裁,他在现场就表示手机和平板 WPS 都已经适配了原生鸿蒙,而且像是账号统一、文档同步和多段协同编辑等等都已经完美适配了。而华为生态里的经典功能之一,跨设备协作,比如把手机里的图片甩到平板上面继续编辑,也都被 WPS 玩明白了。但在大会上,余总也表示 TOP 5000 款应用中,已经有 1500 多款上架成为了鸿蒙原生应用。虽说已经能满足 99.9% 的用户使用时长,但还是会有边边角角照顾不到,所以华为也想了个办法,为开发者们准备了“ 样板间 ” 。简单来讲,样板间就是为你提供好了各种不同类型应用的模板,比如新闻、金融和政务等等,直接照着来就行。比如人民网就用上了新闻样板间,其中有 80% 的代码都是复用的,甚至还能加入新功能,这开发速度一上去,应用的交付效率可不就起来了吗?余承东说, HarmonyOS NEXT 在第四个季度就要商用了,也就是顺利的话可能 Mate70 首发就能用到。留给开发者们的时间不多了,加油干吧!>/ Harmony Intelligence华子啊,你还是保守了……隔壁果果都直接叫 Apple Intelligence 了,托尼一开始以为你们也直接叫 Huawei Intelligence 呢……但有一说一,确实是 Harmony Intelligence 更好听。说回正事儿,我认为 Harmony Intelligence 是这次纯血鸿蒙能明显区别于现在Android的部分。咱也知道,国内原生版Google AI 指定用不上,所以以后国产Android手机拥有系统层级的 AI 就挺难的。那么这个鸿蒙原生智能都可以做些什么呢?最基础的, AI 图像生成,可以基于照片生成不同风格的画面,还可以一键设置到华为全家桶上面,各种设备的自适应其实也有 AI 的功劳。但真正格局打开的,还是华子对特殊人群的关心,比如 AI 声音修复。有些特殊人群的发音比较模糊,而 AI 就可以修复声音,让声音变得更加清晰。如果你对声音修复没概念,可以去回忆一下《 流浪地球 2 》李雪健老师的声音,其实他的声音是后期修复的。还有对于视力障碍人群,小艺现在可以把看到的画面读出来,现场举了个例子,根据语音问题来判断冰箱里的食材新不新鲜。别说视障人群了,这个功能我也想拥有……总之,华子对无障碍方面的探索确实领先,这波格局打开了。说到小艺,就像前两天果子的 Siri 得到史诗级升级,小艺也同样如此,直接跟底部导航条合二为一,托尼感觉类似一个无处不在的超级助手。小艺的用法很无脑,比如你想创建日程,直接把信息拖拽到底部导航条就完事儿,小艺会自动识别内容。更无脑的方法,就是当你收到一张表格图片的时候,你只要直接把图片甩给小艺,它就会自动转换成表格……差友们,这才叫真正的智能助手啊,你一句话都不用说,它就知道你要干啥……小艺现在也支持多模态融合,比如你收到一条消息,上面有一个地址,你不用导航手动搜索地址,直接问小艺 “ 去这里要多久 ” 就可以,根本不用说出地址。该说不说,要是实装的 HarmonyOS NEXT 真能有这样的效果,那托尼可太期待了。除此之外, HarmonyOS 对隐私的管理也更加严格了。比如直接禁止开放应用列表和通话记录等 9 种不合理权限,从源头上降低隐私泄露风险。对于这种行为,我只能说干得漂亮。除了这些, HarmonyOS NEXT 还有各种大大小小的新功能,华子确实是把这步给迈出去了。要是你没看够,等我们明天在现场体验完 HarmonyOS NEXT ,立马写个文章与大家见面,差友们别急嗷。另外, Mate60 、 Mate X5 和 MatePad Pro 13.2 三款机型今天就支持开发者和先锋用户更新 Beta 版本。而更多机型的更新,将会和秋季的 Mate70 系列共同到来。>/ 盘古大模型 5.0说完了 HarmonyOS NEXT ,这个盘古大模型对于普通用户来讲就比较陌生了。其实去年它刚亮相的时候差评也给大家介绍过,它就是华为自己的大模型,人们可以在它的基础上二次开发面向行业的应用。我们前面提到的 HarmonyOS Next 上的小艺,就是用了盘古大模型的能力。可它实在太低调了,蛰伏一年时间,盘古已经从 3.0 进化到了 5.0 。升级后的 5.0 更牛逼了,给大家举一些发布会上演示的例子吧。第一个例子,可以用大模型生成不同天气和角度的视频来训练自动驾驶……大家都知道训练自动驾驶需要海量的数据,各种 Conner Case ( 极端案例 )必须见过才知道怎么应对,所以这个应用可算是戳中了智驾开发者的心~你也可以通过大模型来帮助自己设计汽车,现场还直接展示了大模型生成的 3D 打印模型。虽然很方便,但是怎么说呢,就是这个 B 柱的位置感觉不是很方便上车的样子……但这不重要,重点是盘古大模型可以很快生成 3D 汽车模型,而且支持导出并二次编辑。嘛,能改就是好同志。年初 OpenAI 和 Figure 合作的机器人不断刷屏,现在搭载盘古大模型的国产机器人“ 夸父” 也来了。有一说一,敢现场让机器人演示对话、拿取物品和互动还是挺自信的。夸父取水. gif虽然感觉这个机器人的反应稍微有点慢,不过在开发者大会上就能有这样程度的展示,也已经很不错了,托尼也很期待这位机器人大哥之后的反应可以更迅速。另一个很实用的功能,则是通过盘古大模型 5.0 实现 AI 同声传译,现场也直接演示了一下,老外讲英语大概四五秒之后,同声传译就开始了。有一说一,这个语气、流畅度和精准度真挺不错的,如果优化一下速度,那跟老外交流就再也不是问题了。如果到这里,你还认为这些应用这些都是学别人,有模仿嫌疑,那接下来可是实打实的原创了。华为分别请北京铁道所、宝钢和深圳市气象台等各种行业人士上台,就为了告诉大家盘古大模型可以提高故障识别准确率、降本增效、提升预报准确度。怎么说呢,深圳市气象台预测上个月的 “ 龙舟水 ” 天气时,比欧洲中期天气预报中心的预报还要准……最离谱的,是盘古大模型居然可以 “ 寻医问药 ” ,通过语言和药物分子大模型来优化药剂。难道这就是传说中的赛博老中医吗……现场还举了些别的例子,托尼就不一一展开了,我觉得未来也许大家会在潜移默化中有越来越多它的影子。>/ 终这次的开发者大会信息量还是相当大的,不仅有咱们用户关心的 HarmonyOS NEXT ,还有面向企业的盘古大模型和云服务。 PC版: 手机版:

封面图片

GoogleCEO CEO最新访谈:AI将无处不在 会改变我们所做的一切

GoogleCEO CEO最新访谈:AI将无处不在 会改变我们所做的一切 上周五,特斯拉CEO埃隆·马斯克曾在“欧洲科技创新展览会”上表示,将来有一天,AI将取代所有的工作。一天后,皮查伊在接受采访时也表达了类似的观点,强调了AI无处不在的影响。皮查伊称,AI将很大程度上改变我们所做的一切,并有很多潜力让事情变得更好。当然,它也有会有一些陷阱,需要我们小心,并确保我们解决它。以下为采访内容摘要:为什么要使用GoogleAI?问:AI在过去一年的发展非常疯狂,当前有如此多的AI工具,许多人感觉到,如果他们不使用AI,如果他们不懂AI,他们就落伍了。那么,人们为什么要使用GoogleAI?皮查伊:使用AI的原因有很多种,它会让你的体验变得更好,它会帮你总结一些内容,帮你节省时间。例如,你可以输入一些复杂的问题,找到附近4英里以内仍在营业的健身房,这就是为你提出的一个问题进行总结,会让你的生活变得更轻松。这也是我们将AI整合到产品中的主要方式,AI将走进我们生活的方方面面。当我们了解AI在哪些方面对我们有益,哪些方面有陷阱,逐渐熟悉这项新技术之后,人们将会逐渐使用它。GoogleGemini为何能脱颖而出?问:你也知道,Google有不少竞争对手,比如微软的Copilot、OpenAI的ChatGPT,是什么让GoogleAI比竞争对手的产品更好呢?皮查伊:主要是与Google搜索和其他产品的整合。例如,它可以总结你的Gmail邮件,你可以轻松地发送一封电子邮件。它还与包括YouTube在内的Google其他产品非常好地整合在一起。它是多模式的,所以随着时间的推移,你还将能够使用语音。还有一个优势可以让我们的AI脱颖而出。如果你想让AI帮助策划一次旅行,当然其他AI也可以做到,但结果可能是不现实的。多年来,Google建立了对世界的广泛理解。我们的Gemini可以做的是,它是以我们多年来建立起来的对世界的理解为基础的。因此,当我们说从A地到B地时,它更有可能给出正确的答案,并植根于现实。AI意识与未来展望问:包括Gemini在内的一些AI,感觉有时几乎没有意识。你认为还需要很长时间才会有某种形式的AI意识吗?皮查伊:这是一个深奥的话题,人们还没有完全理解。但我认为,真正的AI意识和AI看起来有意识,这两者之间存在着区别。我想说说后者,我认为在接下来的几年里,我们会有一些AI,让你看起来像是有意识的,你可能无法区分。但这不同于它实际上是有意识的。这是一个非常深刻的哲学话题。问:对于那些使用这些AI的人,无论是在工作中还是在日常生活中,你认为AI在未来5年至10年会是什么样子?皮查伊:我认为,会有一些AI,你可以和它们对话,寻求它们的帮助。如果你在Google文档(Google Docs )中输入一些东西,它会纠正你的拼写和语法。你可以认为这是理所当然的,但在你生活中的几乎所有事情上,AI都会这样做。例如我们的Astra项目, 它是一个多模AI,可以看到你所看到的。你可以和它交谈,可以要求它对世界进行推理。不要忘记,现在还刚刚开始,事情会进展得很快。问:对于那些不接受AI,也不开始使用AI的人,你认为他们的未来会是什么样子?皮查伊:你可以尝试这些东西,使用任何你喜欢的聊天机器人,并学习与它们互动。使用它,人们可以以各种方式表达自己。如果你能理解这项技术,我认为,这是一个重要的改变,且速度远远快于之前的技术。因此,当我们逐渐熟悉这项技术,知道如何使用它,就会如虎添翼。Google Assistant与Gemini的整合问:Gemini已经问世,在使用你们的Pixel设备时,会被提示从Google Assistant改为Gemini,那么Google Assisstant会消失吗?皮查伊:这件事应该这么想:随着时间的的推移,你将拥有Gemini支持的Google Assistant(Google助手),它们会成为基于同一事物的东西。在过渡期间,Gemini可以做Google Assistant能做的一切。它就在那里,唾手可得。问:Gemini已经走进Pixel设备上,你认为人们主要会用它做什么?我相信,你们已经有了这些数据。皮查伊:人们向它征求意见。我认为,人们使用它最常见的方式是他们希望有人与他们进行头脑风暴。我自己也在使用它,比如母亲节应该做些什么。有时你只是想非常快地理解某事,比如问Gemini,它是否含有食物面筋。在Astra项目下,这变得很容易。你可以让Gemini看着食物,它就会为你回答。我认为,人们在不同类型的需求中广泛使用它,人们对这项技术也越来越熟悉,用起来也越来越舒服。所以,它充满了可能性。例如,人们可能想要去一个地方,这一周应该做些什么。我们会让这些事情变得更容易,我们会帮助你策划,这些是我们为Gemini带来的一些新功能,将来还可以做得更多。AI的未来问:你对未来的AI有什么希望?皮查伊:我认为,我们希望它作为一项技术,能够注入我们的生活,让我们生活变得更好。通过Google Assistant,我们已经略窥一斑。当前,我们正在使用同样的AI技术,让汽车实现自动驾驶,或者使用AI来更好地发现可以靶向的药物。我们要以一种深刻的方式来思考它,就像今天你不会想着电一样,因为它已经无处不在。AI将覆盖到我们所做的一切,并且有潜力让事情变得更好。当然,它也有会有一些陷阱,需要我们小心,并确保我们解决它。 ... PC版: 手机版:

封面图片

ChatGPT上身机器人 但离我们要用上可能还远

ChatGPT上身机器人 但离我们要用上可能还远 看他们放出来的视频 demo ,这个大概一米七的机器人,不仅能听懂人话,做起事儿来也相当麻溜。问站它在那里都能看到啥,还没反应几秒,就能说出答案:苹果、水杯等等,连工作人员站在一旁,手搭在桌子上的细节都能准确讲出来。随后,问它能不能递些吃的东西过来,这次都没怎么反应,就把苹果拿给了工作人员。这还不算最厉害的,这个机器人的手指也是相当灵活了,让它捡桌子上的纸团时,它丝毫没把纸团搞变形,力度起到好处,感觉下一步就能揉面包饺子了……整理起桌面来,也是有条不紊的,不过有时候反应的时间确实有点久。而且视频里的这些操作,全都是机器人的 “ 自主意识 ” ,没加速,远程操作也是不存在的。照工程师的说法,它现在就跟刚会说话的幼儿差不多,能讲出看到了什么,也能做些简单的行动计划,短期内发生了啥也能记起来……不知道大伙看到这个视频反应是啥样,至少差评君工作群里都是直呼 “ 牛 X ” 的程度,甚至有同事已经开始担心起智械危机了。要知道,这距离 OpenAI 宣布和 Figure 合作,才过去两个星期。而除了 OpenAI 之外,微软、英伟达和亚马逊创始人杰夫 · 贝佐斯也都入了 Figure 的伙。另外,世超发现 Figure 也算是一个非典型机器人公司,包括波士顿动力在内,一般机器人公司的创始人都是学术圈大佬。而 Figure 创始人的 Adcock ,却是个驰骋商海的富哥们儿,在办 Figure 之前,手里有个招聘公司 Vettery ,还是一家起降飞机企业 Archer Aviation 的大股东。就在前年,他说为了造福全人类,准备一门心思搞人形机器人,就把招聘公司卖了,又退出了 Archer Aviation ,拿到的钱准备全砸在 Figure 上。人才的话,也基本靠挖,波士顿动力、特斯拉、Google这些大厂都被他挖了个遍。有了人才好办事,到第二年年初, Figure 就做出了五个机器人原型,简单走走、搬重物都不在话下。直到今天,和 OpenAI 合作搞出了 Figure 01 一鸣惊人。网上全都是一水儿的好评,有人说 “ AGI 即将到来 ” ,也有人拉踩了一波隔壁的波士顿动力,说他家的机器人只会跳舞。世超看到这个视频,也很兴奋,麻溜找了找搞人形机器人的朋友聊了聊,他们的评价也出奇的一致,觉得 Figure 01 牛 x ,但大家,似乎没夸对地方。首先, Figure 01 的出现,并没有让波士顿动力机器人跌落神坛。因为衡量人形机器人厉不厉害有两个标准,一个是 “ 脑子 ” ,另外一个是 “ 身体 ” 。波士顿动力在 “ 身体 ” 上依旧是业内公认最强。Figure 01 则没展示很多大幅度、高强度的动作,身体协不协调根本看不出来。而 Figure 01 的牛当然不在于身体,而是在于它告诉大家借助大模型的魔力,人形机器人是可以自主做计划、执行任务、有记忆、听懂人话的。要知道在此之前,人形机器人一直都是偏科的体育生,身体不错但是文化课挂科。如果,咱是说如果脑子 + 身体都一级棒。那这段时间爆火的 “ 具身智能 ” 概念成真。具身智能,说白了就是让人形机器人像人类一样,能够与真实的世界进行交互。学界还给它划分了五个阶段,像是计算功能智能、计算感知智能、认知智能、内生智能和自主智能。去年的 ITF World 2023 半导体大会上,那个爱穿皮衣的男人就公开给具身智能站台,说它就是 AI 的下一个浪潮。而现在的 Figure 01 ,则在第二阶段和第三阶段中间。但即便如此,世超觉得距离人形机器人飞入寻常百姓家,估计也还有不少距离。一方面无论是 “ 脑子 ” 还是 “ 身体 ” ,都还有难点没突破。比如这 “ 脑子 ” 的训练数据,是咱们和现实世界物理交互的数据,目前已经稀缺,和 ChatGPT 的文本数据相比,真就九牛一毛了。在身体这块儿,连完全模仿人类的五只手指都还做不到。另一方面,人形机器人的商业化路径还没有共识。通用机器人不是在一个成熟的技术里找产品,而是边突破技术边界边找到产品化的机会,要知道,即便火如大模型,目前最成功的产品也只是聊天机器人而已。不过,技术不是线性发展的,如果突破点出现,后面人形机器人的发展肯定也是井喷式的。这条路,也永远都不缺探路者,这两年,做人形机器人的企业是越来越多了,大厂里像是特斯拉的擎天柱,国内也有小米 CyberOne 、智元机器人,逐际动力等等。所以世超的预测,也很可能被打脸。当然世超也很希望被打脸,对了,如让人形机器人写稿的话,它应该不会拖搞吧。 ... PC版: 手机版:

封面图片

AI 新知: 像大脑一样学习的多模态(极简版起源故事)

AI 新知: 像大脑一样学习的多模态(极简版起源故事) 近日,微软放出了多模态大语言模型的重要论文《Language Is Not All You Need 》。预示着今年AI 的下一个重大突破。 那么,什么是多模态学习, 有没有一种人人皆可理解的方式,让更多人参与着技术民主化的浪潮呢? 答案是乐观和肯定的。 以下内容来自Jeff Dean 去年在TED 做的分享,面向所有人。无需担心技术理解力,更依赖你对大脑本身的好奇心。 原始链接: Jeff Dean 二十多年前加入谷歌,领导着谷歌的人工智能研究与健康部门。 核心内容摘要如下: (这是我的几点解读,供非专业人士参考) 神经网络的机器学习突破是来自科学界对大脑的运作规律的理解(它是自下而上的) 算力是重要且有效的,深度学习突破了识别猫咪、机器翻译到 AlphaGO 等单一任务 AI的单一任务导向的训练是极为低效的,可以请想象成我们从小失去听觉、嗅觉、味觉(去观看电影的感受) 多模态的思想,是进一步模拟大脑运作,就像生物拥有多种感觉来整合认知世界 像大脑一样多个区域进行超高效率的协作,是学习真正的「奥义」;AI的多模态即对大脑深度的模仿。 部分讲稿如下(适当删减,以便于文字阅读): 1/ 人工智能可以做什么? 在过去的十年间,AI 在帮助计算机识别物体、 理解语言和谈话方面 取得的巨大进步。 以往的天方夜谭 现在一一成为现实。计算机视觉来说, 在过去的十年中,电脑快速地发展出了‘看’的能力 。这在计算机运用上 具有变革性的影响。 还有一些了不起的实际应用。 可以通过机器学习预测洪水、翻译一百多种语言、预测和诊断疾病。 2/ 让我们来看看构成当代人工智能系统 基础的两个关键元素。 首先是神经网络,它是解决这些难题的一项重大突破。 第二个是运算能力。 驱动神经网络运作实际需要大量的运算能力, 在过去的十五年, 我们做到了使其减半,那也是整个人工智能得以发展至此的原因之一。Jeff Dean 认为我们做错了几件事~ 3/ AI 小历史。 数十年前几乎从计算机科学最早出现, 人们就想建造可以识别语言及理解谈话的电脑。最初的方法一般是人们手动写下完成难题所需的算法, 但成效一般。 过去的十五年间, 一个方法出其不意地 一次性解决了所有难题: 神经网络。 神经网络并非一个新想法。 背后的理念出现于1960和70年代。 神经网络如同其字面意思一样, 是一连串互相连接的神经元。 它们大致上效仿了人体真正神经元的特性。 4/ 神经网络如何计算? 这种系统中的一个独立神经元, 拥有一组输入信息,每组输入信息有对应的比重,神经元的信息输出就等于那些输入信息乘以它们对应的比重。 其实挺简单的, 无数神经元协同运作,就可以学习复杂的东西。 我们如何在神经网络中学习的? 其实,在学习过程中, 比重在不断被微调, 增强一些东西的影响,削弱其他的影响。 5/ Jeff Dean对神经网络的兴趣, 始于1990年本科阶段时学到的一门相关课程。 那时,神经网络在精细问题的解决上取得了惊人的成果, 但还达不到完成真实世界中重要工作的程度。 他觉得我们可能只是需要更强的运算能力。 明尼苏达大学当时有一个32位处理器。Jeff Dean想:“如果有更强的运算能力, 我们真能用神经网络干点大事。” 所以决定以神经网络的并行训练 作为毕业论文的课题,理念是将电脑或电脑系统中 所有的处理器 运用到同一件任务上,用来训练神经网络。 32位处理器,哇, 我们肯定能用它做点大事。 但我错了。 6/ Jeff Dean 意识到如果想用神经网络做些引人注目的事情, 所需的算力大概是 90年代算力的一百万倍。但从大概2005年开始,多亏了摩尔定律, 我们真的开始拥有算力了,世界上一些大学里的研究员们开始成功用神经网络完成各种任务。和其他几个在谷歌的同事听闻了这些成功事例, 于是决定启动一个项目,训练大型神经网络。 7/ 用油管视频里随机截取的一千万帧照片对其进行训练。 这个系统发展出了能够识别所有不同种类物体的能力,然后因为是油管的关系, 所以它发展出了识别猫的能力。油管上全是猫。 但让它如此引人注目的是从未有人告诉过这个系统猫到底是什么。 仅仅依靠数据的形态规律, 它就能自己琢磨出来猫究竟是什么。 8/ 在那个时候, 我们还对如何打造一个更适合神经网络运算所需的计算机硬件感兴趣。 神经网络运算有两个特性。 第一个是它们对精准度要求很低。 几个有效位就够了, 不需要六七个那么多。 第二个是所有算法都普遍由多个 不同的矩阵和向量的运算组成。 它会非常适用于神经网络运算, 虽然你无法用它做太多别的事,这是我们制作的第一个成品,TPU v1。 “TPU”是张量处理器的意思。 多年来,这一技术运用于谷歌搜索、翻译、以及AlphaGo围棋比赛, 所以李世石和柯洁可能没意识到,他们其实是在和TPU架构比赛。 9/ 我们仍然做错了很多事, 讲三件我们做错的事情, 以及如何修正他们。 第一个是,现如今的大部分神经网络 只被训练进行单一种类的任务。 你训练它去做一件你很关心的事情, 但这是一项非常繁重的工作。 你需要搜索数据组, 选择这个问题所需的网络架构, 接着随机分配起始比重, 然后为调整比重进行大量运算。 到最后,如果你幸运的话,可以得到一个非常适用于你关心的问题的模型。 但如果你一直这样做, 到最后会得到几千个独立的模型,每个可能都很有用,但都只针对某个单一类型的问题。 10/ 想一想人类是怎样学习的。 想象我们沉浸于钻研园艺, 尝试垂直水培园艺。 无需为此重新学习一遍,我已经掌握的有关植物的知识。 知道怎么把植物放进洞里,怎么浇水,以及植物需要光照, 我只需要整合这些知识用以学习新的技术。 (大脑整合了不同维度的知识和模型) 11/ 电脑也可以这样运作,但目前还未实现。为了避免每次学习新东西时忘记之前的知识,我们可以训练一个多任务处理模型,该模型的每个部分都有自己的专长,能够完成成千上万种不同的任务。假设我们有一个能完成一千种任务的模型,当第一千零一种任务出现时,我们可以整合已有的和新任务相关的知识,更快地完成这项新任务。就像你面临新的问题时,能够快速识别已知并能够帮助解决这些新问题的知识一样。 12/ 第二个问题是, 大部分现今的模型只能应对一种形态的数据, 图片、文字或语音, 但无法做到一网打尽。 但想一想人类如何在这世上生活。 你不断地动用你所有的感官去学习,去做出反应, 去搞清楚现在应该做什么。 这样显然更加合理, 我们也可以用同样的方式建造模型。 13/ 我们可以建造一个可以接收 所有不同种类数据的模型, 文字,图像,语音, 然后把它们融合在一起, 这样无论这个模型看到文字“豹子”, 看到豹子的视频,还是听到有人说出“豹子”这个词 它都会触发同样的反应: 一个豹子的概念 可以应对很多种不同的数据输入项, 甚至是非人工的输入项, 例如基因序列, 3D点云数据,当然也包括 图片、文字和影像。 14/ 第三个问题是现有人工智能模型过于稠密,这导致我们在执行某项任务时必须完全激活整个模型。与之相反,人脑的不同区块专注于不同的工作。我们可以制造一种激活反应较稀松的模型,训练时,模型可以学习哪个区块适用于哪个领域。此类模型高效,因为我们只使用完成任务所需的区块。解决这三个问题后,我们可以训练几个通用模型,能够应对成千上万件事情,并整合不同数据形态。我们已经制造了一种符合以上条件的模型,叫做“Pathways”。 15/ 我们的理念是这个模型可以完成成千上万种不同类型的任务, 然后我们可以逐步增加新的任务, 它也可以同时处理各种形态的数据, 然后逐步学习新技能, 并按需为不同任务启动不同区块。 我们对此感到非常兴奋, 我们认为这将是人工智能 系统建造迈出的重要一步。 16/ 浅谈一下什么是可信赖的AI。我们要确保强大的人工智能系统造福所有人,但也要考虑公平性、可解释性、私密性和安全性。为训练这些模型完成成千上万种任务,我们需要大量数据,并确保数据的采集代表不同的社群和情况。数据担忧只是可靠人工智能这个议题的一部分。2018年,谷歌发表了开发此类科技时应注意的人工智能守则。 17/ 这帮助指导了我们在研究领域和产品中使用人工智能。这对于思考复杂问题和在社会中应用人工智能非常有帮助和重要。我们不断更新这些准则,它们是现在研究的热点领域。从只能识别数据中的模式到通用智能系统,它们赋予我们解决人类面临的重大问题的能力。例如,我们可以诊断更多疾病,设计出更好的药品,优化教育系统,解决全球变暖等复杂问题。这些系统需要来自世界各地的多学科专家共同协作。 18/ 将人工智能和你所在的领域相结合, 从而推动产业的进程。 我看到了许多计算机科学的优势, 以及在过去的几十年中计算机科学 如何帮助几百万人更好地理解世界。 今天的人工智能拥有帮助数十亿人的潜力。 我们真的生活在一个振奋人心的时代。 谢谢。 Invalid media:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人