一些结论:1)AI 变冷了,但没大问题,就是模型还不行,但需要的不是质变而是量变,所以再等个半年一年就行。

一些结论: 1)AI 变冷了,但没大问题,就是模型还不行,但需要的不是质变而是量变,所以再等个半年一年就行。 2)现在到未来半年进场,我感觉都算合适。 3)现在就是要偏重于用 AI 做分析而不是生成,要生成也是生产端而不是消费端,争取一次生成多次使用。 4)融资进入深水区,需要重运营,一共就那么些机构会投,而且要做好准备只融一两轮就能养活自己赚钱。 5)还有好多其他精彩的,直接听吧。

相关推荐

封面图片

李一舟被爆侵权 名下每月399元的付费网站搬运AI创作社区近百模型

李一舟被爆侵权 名下每月399元的付费网站搬运AI创作社区近百模型 22 日,国内最大的 AI 模型、AI 创作分享社区 LiblibAI 撰文称,“一舟智能”未经授权就上传了社区的模型、并用作商业化,这损害了公司和模型创作者的权益。目前 LiblibAI 已诉诸法律手段。LiblibAI 成立于去年 5 月,已成为国内 AI 绘画玩家几乎必用的网站。一边是创作者发布模型即基于 Stable Diffusion 底层模型的各种微调模型,包括 Lora、Control Net 等,能轻量化创作出某种特定的人物、物品或画风。另一边则是玩家、爱好者,在网站上直接使用模型生图、甚至下载模型,一个模型社区由此建成。左图为 LiblibAI 原模型,右图为“一舟智能”涉侵权模型  |  图片来源:B 站 UP 主“朱尼酱”“这可能是国内模型侵权的第一案。”LiblibAI 联合创始人张子捷对极客公园说。他表示,目前“一舟智能”涉嫌侵权的模型数量达 97 个(截止发稿),公司和模型创作者都在与对方协商。关于此次侵权争议,记者曾联系“一舟智能”背后的提示语科技有限公司,但未得到回复。22 日晚间,李一舟的 AI 课程已经全网下架,“一舟智能”上多个涉嫌侵权的模型也已下架。此次事件虽未有定论,但它折射出这样一个困境:当生成式 AI 的版权问题尚未被法律正式界定时,主张普惠、开源的社区和创作者们,该如何保证自己的模型所有权不被侵犯、甚至模型不被某些个体滥用?这次事件或许是一个思考的开始。01、学员付费使用的模型,搬运自开源网站?这两天,当网络上热议李一舟时,LiblibAI 上的模型创作者却接连发现,自己的模型在未经允许下被搬运到了“一舟智能”网站。经 LiblibAI 团队统计,被搬运的模型共有 97 个:包括北邦的“梦境中国|国风无涯山水”、叶叶叶叶叶的“Zenpainting | 禅意插画”、墨悠的“墨悠人造人”、Arxchibo 的建筑类模型等等。不仅是被搬运,这些模型还被用作了商业化。“一舟智能”网站仅对内部学员开放,也就是说使用这些模型的人,已经为李一舟的课程付过费了据界面新闻报道,用户购买李一舟课程后,将免费获得 100 万 Token。这些 Token 相当于“一舟智能”网站的使用额度。Token 的消耗惊人:简单提一个问题,就消耗上千 Token;简单生成一张图片,就消耗数万 Token。如果想加快生成速度,就需要调用更高级的模型、也就要花费更多 Token。“一舟智能”划分了四种图像模型:一舟生图、一舟 XL、一舟控图、大力生图 3,其中最高级生成一张图要花 10 万 token。可以说,购买课程赠送的 token 只能画 10 张图。当赠送的 token 用尽,就需要购买会员套餐。“一舟智能”将会员分成四级:琥珀、黄金、铂金、钻石,每月会员费分别为 39 元、99 元、159 元、399 元,而就算购买了最高级别的钻石会员,生成照片也是有数量限制的。“一舟智能”的会员体系 | 图片来源:“一舟智能”官网据投中网援引一位资深 MCN 创业者数据,三年时间,李一舟仅通过卖课就赚了 1.75 亿元。这大概是半年前的数据,还不包括“一舟智能”会员等产品收入。这背后就用到了搬运自 LiblibAI 的模型。LiblibAI 的模型使用声明写道:未经本人书面授权同意,不得将本模型服务集成在任何第三方软件或服务中;未经本人书面授权同意,非个人用户 (包括但不限于企业、盈利性组织)不得将模型用于商业用途 (包括但不限于文生图、图生图、换脸等)。作为主张开源共享的社区,LiblibAI 允许用户直接使用模型、甚至下载模型,但未经许可就搬运模型、甚至用作商业化,则被平台视为“侵权”。注意到这一情况的 LiblibAI 团队,很快发出了上述声明。他们的诉求是:赔偿所得将公开、透明的全部偿还给遭受侵权伤害的模型创作者,并要求一舟智能立即停止全部侵权行为,向广大 AI 爱好者就侵权行为在公共媒体平台及自媒体平台公开道歉。02、LiblibAI 不是第一次被侵权,开源社区的困惑LiblibAI 的创立其实是带着开源精神的。其联合创始人、产品负责人 Roi 如此对极客公园阐述创业初衷:当生成式 AI 浪潮出现,许多创作者感到焦虑。团队希望通过搭建平台,让创作者分享自己的创作素材,彼此受益。在 LiblibAI 上,模型直接对所有人开放使用、部分模型还可以直接下载,这种开源让不少用户获益。很多人将 LiblibAI 比做国内版 Civitai,后者是国外知名的开源模型社区,注册用户数超 300 万、创作者近一万名。作为一个主打开源的社区,怎么持续吸引创作者、并激励他们创作,就是平台核心要考虑的事情。LiblibAI 联合创始人、运营负责人梁鑫蕊如此谈到公司的发展历程:成立近一年的时间里,平台不断想办法扩大创作者供给,从最开始一对一地联系创作者、到做活动吸引他们、再到推出相应激励计划,由此才做成最大的模型社区。据极客公园了解,目前 LiblibAI 已有上万名创作者、分享模型 10 万+,吸引了全球用户量超 400 万、生成了 1.3 亿 AI 作品。LiblibAI 官网 | 图片来源:LiblibAI 官网这已经不是 LiblibAI 第一次发生模型被侵权事件。LiblibAI 联合创始人张子捷表示,公司近一年来,类似侵权事件发生了十余起。侵权方都是一些鱼龙混杂的个体,甚至平台还没去维权,对方团队就解散跑路了。一些侵权事件就这样不了了之。而从法律的角度来说,生成式 AI 尚处在早期阶段,相关的版权法律尚未有定论。在李一舟此次事件中,LiblibAI 团队咨询的相关知识产权律师表示,模型的产权问题甚至比文生图更复杂因为模型的训练涉及各种数据,且训练过程难以把握,因此很难对产权做出判定。目前,团队设想的解决方案是,通过给模型增加水印、名称等方式,防范侵权的发生。对 LiblibAI 这样主张开源分享的社区来说,开源不等于无版权、使用也要尊重创作者利益,是需要一次次重申和捍卫的。而在相关法律尚未有明确结论的情况下,这条路可能要走得艰辛而漫长。但这也是它们必须要做的事情,因为只有这样,开源这件事才能源源不断地做下去。 ... PC版: 手机版:

封面图片

GPT搜索引擎原型曝光:新模型GPT4-Lite驱动 虽然鸽了发布会但代码已上传

GPT搜索引擎原型曝光:新模型GPT4-Lite驱动 虽然鸽了发布会但代码已上传 与此同时还有小动作不断,比如现在GPT-4的文字描述已不再是“最先进的模型”,而仅仅是“先进的”。以及被鸽掉的GPT搜索引擎,原型代码上传到ChatGPT了。黑客“光头哥”Tibor Blaho,从更新的前端代码中扒出SearchGPT的界面。从泄露的界面来看,SearchGPT会出现在侧边栏,与其他GPTs一起。首页目前还很简洁,像Google一样只有一个居中的搜索框。甚至非常挑衅的设计了一个“比较”按钮,可以一键打开Google和Perplexity搜索结果,直接与SearchGPT做对比。(有种要怼脸开大的感觉。)不过光头哥认为,这很有可能只是内部测试和评估方便做的临时设置,不一定会提供给用户。虽然虽然尚未正式发布,但从曝光界面和文字说明,已经为内测做好准备,离与大家见面的日子或许不远了。SearchGPT原型初露真容先来看“欢迎页”,目前明确写着SearchGPT“正在施工”,从内容和语气来看,正是为内测用户准备的说明。正在施工:SearchGPT正在不断变化和改进,它可能会犯错误或有时会不可用。信息共享:为了搜索和回答您的问题,SearchGPT可能会与第三方搜索提供商共享去标识化的搜索查询。更多信息,请查看我们的隐私政策。位置:我们收集并与第三方搜索提供商共享一般位置信息,以提高您搜索结果的准确性。您可以选择通过在设置菜单中更新您的控制来共享更精确的位置信息,以帮助提供最佳结果。改进我们的服务:查询可能会被审查并用于训练我们的模型。您可以在设置菜单中调整您对改进我们服务的偏好。任何更改都将在ChatGPT和SearchGPT之间传递。账户历史:您的SearchGPT搜索历史与您的ChatGPT聊天历史是分开的。如果您希望删除任一历史记录,您必须在每项服务中单独进行删除。设置中也已经有了更改黑暗/白天模式,是否允许获取地理位置信息,是否允许聊天记录用于模型改进。最后还有一键删除所有搜索记录的按钮。不过这还不是全部,深入挖掘之后,光头哥又找到了更多隐藏设置!包括是否开启自动建议,选择语言模型,选择搜索引擎,是否开启内部搜索,是否开启图片搜索。最后的“评估模板”应该也是内部测试用的暂时不用管,但上面的选项都值得仔细看看。语言模型选项,除了大家已经知道的GPT3.5和GPT4之外,还出现了GPT4-Lite。这很可能是速度更快的GPT4优化版本,括号里的POR推测可能是指概念验证(Proof of Concept)。搜索引擎的选项,与微软合作的Bing肯定在列,另外两个选项Sydney和Fortis暂时不知道指什么。可能有朋友还记得,Sydney曾代表早期网友发现的微软Bing AI“里人格”,情绪非常不稳定,一言不合就发疯或结束对话,最后惨遭微软删除,但也因文字充满个性而深受网友喜爱和怀念。总之OpenAI取这个名字,不知只是巧合还是某种暗示……内部搜索,括号中的单词是“拉布拉多”,作为一种“寻回犬”(Retriever),可能暗示这个功能使用了RAG技术(Retrieval Augmented Generation)。那么综合来看,内部搜索可能指检索ChatGPT里的聊天记录了。早期泄露代码中还可以找到“小组件”的踪影,包括查询天气、计算器、体育比赛信息、金融和时区转换。这些传统搜索引擎常用功能,SearchGPT也打算插手,代表各种天气的图标都准备好了。最后,SearchGPT将用什么样的形式回答用户的查询呢?内部的一些提示词也已经曝光,比如“重写片段和标题”:下一条消息将是网页的文本内容。将网页概括为一个简短的英文句子,不超过300个字符,并生成一个合适的简短标题。您的摘要是一个概述,描述了网页的要点。请不要参考网页本身;您的回复只是一个摘要。该页面的原始标题是“{title}”。保持简洁,不要以“网页”作为摘要的开头。使用“title”和“summary”键以 JSON 格式回复。这看起来不像最终呈现给用户的回复,而是一个中间步骤,对搜索结果中排名靠前的每个页面先做摘要,用JSON格式串联起多个页面的摘要后再整理最终回复。再加上前端代码中反复出现的Agent字样,总之SearchGPT可能比大家想象的更复杂。One More Thing就在几个小时之后,OpenAI将于北京时间5月14日周二凌晨1点举行线上发布会。按奥特曼最新口径,这次发布的不是GPT-5,也不是搜索引擎。目前多方猜测最大的可能性是发布会先发布新的ChatGPT语音功能,就像打电话一样。有泄露消息称新语音功能能理解人类语音中的停顿、语气等信息,比如判断人类提问时是否在讽刺。结合OpenAI此前申请了“Voice Engine”商标的消息,不少人猜测很可能有一个端到端的神经网络,直接根据语音输入预测语音输出,不再需要经过语音到文本的转换。这样一来延迟也会更低,让对话更流畅,不像现在的ChatGPT语音模式一样没轮对话都要等待很久。这项技术让不少人想起电影《她》中的AI伴侣萨曼莎,事实上过去奥特曼也多次表示《她》是他本人最喜欢的AI主题科幻电影。总之,奥特曼将要发布的功能形容为“感觉像魔法”,总裁菠萝曼也出来造势。 ... PC版: 手机版:

封面图片

生成式 AI 这一波,作为非技术人员,我的突破口究竟在哪里?

生成式 AI 这一波,作为非技术人员,我的突破口究竟在哪里? 这个问题,从去年上半年开始,我一直在探索。但迄今为止,也不敢说有多么确切的答案。 最近读到几篇有意思的文章,感觉还挺给我信心的,试着整理出来: 1、智能效能=大模型的智商水平 × 现实理解的深度 内容来自《假如想做一个只有AI智能体的公司,那要分几步?》[1]。 前半部分的“大模型智商水平”,要依赖 AI 科学家和工程师们;后半部分的“现实理解的深度”,却主要靠各个领域的高手。 文章中说,这事行不行,能搞到什么程度,不是程序员能验证的,而是「理解领域的人」要自己操练大模型做判断。 而这,就是非技术人员的突破口之一。 2、做“汤姆猫”实现能力升级后,再去超越“汤姆猫” 结论来自《AI应用之路:质疑汤姆猫,成为汤姆猫,超越汤姆猫》[2] 文章中说,汤姆猫是2010年移动互联网早期的一款应用,迅速走红,又淡出视野。 这也对应了自己一些时候的焦虑吧,现在手头的事情,会不会昙花一现,难以长虹。 然后,文章里的这两段话安慰到我了: “AI现在所处的极早期阶段,在寻找PMF的时候,先不要嫌弃他是汤姆猫,找个具体且收敛的切入点,跑通他,让自己有个实验室,先完成能力跳变。” “(PMF)跑通后,整个人的思考水平、决策的犀利程度、心态的平稳度都有一个质变,再之后,就和业务量爬到几层楼相关了。” 3、赢家常常不是第一个,但大概率是第一批 规律来自《议古论今:聊聊现在AI应用层创业者面对的三个问题》[3] 通过梳理过去50年IT产业的发展和创业历史,这篇文章中发现: 第一个吃螃蟹的人,产品往往不完善;但笑到最后的玩家,都来自「产品定义/商业模式成为共识前」冲进来的那一批。 如果历史会押韵,那么与我而言,倒不是奢望成为所谓的“赢家”,但至少能说明早点来牌桌上呆着,是有一定价值的。 [1] [2] [3]

封面图片

只用13天 OpenAI做出了能听、能说、能自主决策的机器人大模型

只用13天 OpenAI做出了能听、能说、能自主决策的机器人大模型 Figure,OpenAI 投资的机器人公司,上传了这段视频。在视频中,Figure 的人形机器人,可以完全与人类流畅对话,理解人类的意图,同时还能理解人的自然语言指令进行抓取和放置,并解释自己为什么这么做。而其背后,就是 OpenAI 为其配置的智能大脑。在过去一年的具身智能进展中,或许你曾经看过类似的机器人自主决策、拿取物品的展示,但在这段视频中,Figure 人形机器人的对话流畅度、展现出的智能感,接近人类操作速度的动作流畅性,绝对都是第一流的。Figure 还特意强调,整段视频没有任何加速,也没有任何剪辑,是一镜到底拍摄的。同时,机器人是在完全自主的情况下进行的行为,没有任何远程操纵似乎在暗暗讽刺前段时间爆火的展现了酷炫机械能力,但是没有太多智能程度的斯坦福炒菜机器人。比起机器人的智能表现,更可怖的是,这只是 OpenAI 小试牛刀的结果从 OpenAI 宣布与 Figure 共同合作推进人形机器人领域的前沿,到这个视频的发布,只有短短的十三天。此次 Figure 人形机器人背后的智能,来自端到端的大语言-视觉模型,这是具身智能领域目前非常前沿的领域。去年极客公园报道过Google在类似领域的进展。Google做出的端到端机器人控制模型,被一些行业内的人士,誉为机器人大模型的 GPT-3 时刻。而当时,Google的机器人模型,还只能根据对话来做一些抓取,并不能与人类对话,也不能向人类解释自己为什么会这么做。而Google自身,从 Everyday Robotics 开始,已经有了五年以上的机器人研究经验。而 Figure 本身,成立于 2022 年。从OpenAI 宣布介入与之合作,到今天它们共同推出一个能够自主对话和决策的机器人,只有 13 天。机器人智能的发展,显然正在加速。01. 端到端大模型驱动,机器人的速度已经接近人类速度Figure 的创始人 Brett Adcock 和 AI 团队的负责人 Corey Lynch 在 X 上解释了此次视频中机器人互动背后的原理。此次的突破,由 OpenAI 与 Figure 共同做出。OpenAI 提供负责提供视觉推理和语言理解,而 Figure 的神经网络提供快速、低水平、灵巧的机器人动作。机器人所做出的所有行为都是出于已经学习过,内化了的能力,而不是来自远程操作。研究人员将机器人摄像头中的图像输入,和机载麦克风捕获的语音中的文本转录到由 OpenAI 训练的,可以理解图像和文本的多模态模型(VLM)中,由该模型处理对话的整个历史记录,得出语言响应,然后通过文本到语音的方式将其回复给人类。同样的模型,也负责决定在机器人上运行哪些学习的闭环行为来完成给定的命令,将特定的神经网络权重加载到 GPU 上并执行策略。这也是为什么这个机器人,属于“端到端”的机器人控制。从语言输入开始,模型接管了一切处理,直接输出语言和行为结果,而不是中间输出一些结果,再加载其他程序处理这些结果。Figure 的机载摄像头以 10hz 的频率拍摄图像,然后神经网络以 200hz 输出 24 个自由度动作。Figure 的创始人提到,这代表机器人的速度已经有显著提高,开始接近人类的速度。Corey Lynch 的 XOpenAI 的模型的多模态能力,是机器人可以与世界交互的关键,我们能够从视频中展示中看到许多类似的瞬间,比如:描述一下它的周围环境。做出决定时使用常识推理。例如,“桌子上的盘子和杯子等餐具接下来很可能会进入晾衣架”。将“我饿了”等模棱两可的高级请求转化为一些适合上下文的行为,例如“递给对方一个苹果”。用简单的英语描述*为什么*它会执行特定的操作。例如,“这是我可以从桌子上为您提供的唯一可食用的物品”。而模型能力的强大,使其还能够拥有短期记忆,比如视频中展示的“你能把它们放在那里吗?”“它们”指的是什么?“那里”又在哪里?正确回答需要反思记忆的能力。而具体的双手动作,可以分成两步来理解:首先,互联网预训练模型对图像和文本进行常识推理,以得出高级计划。如视频中展示的:Figure 的人形机器人快速形成了两个计划:1)将杯子放在碗碟架上,2)将盘子放在碗碟架上。其次,大模型以 200hz 的频率生成的 24-DOF 动作(手腕姿势和手指关节角度),充当高速“设定点(setpoint)”,供更高速率的全身控制器跟踪。全身控制器确保安全、稳定的动力,如保持平衡。所有行为均由神经网络视觉运动 Transformer 策略驱动,将像素直接映射到动作。02.从 ChatGPT 到 Sora,再到机器人,OpenAI 想包揽“智能”这件事2021 年夏天,OpenAI 悄悄关闭了其机器人团队,当时,OpenAI 曾宣布无限期终止对机器人领域的探索,原因是缺乏训练机器人使用人工智能移动和推理所需的数据,导致研发受到阻碍。但显然,OpenAI 并没有放下对这个领域的关注。2023 年 3 月,正在一年前,极客公园报道了 OpenAI 投资了来自挪威的机器人制造商 1X Technologies。其副总裁正是我在文初提到的,认为具身智能将会突然到来的 Eric Jang。而无独有偶,1X Technologies 的技术方向,也是端到端的神经网络对于机器人的控制。而今年 3 月初,OpenAI 和其他投资人一起,参与了 Figure 的 B 轮融资,使其成立两年,就达到了 26 亿美金估值。也正是在这一轮融资之后,OpenAI 宣布了与 Figure 的合作。Figure 的创始人 Brett Adcock,是个“擅长组局”的连续创业者,整个职业生涯中创立过至少 7 家公司,其中一家以 27 亿美元的估值上市,一家被 1.1 亿美元的价格收购。创建公司后,他招募到了研究科学家 Jerry Pratt 担任首席技术官,前波士顿动力/苹果工程师 Michael Rose 担任机器人控制主管。此次进行分享的 AI 团队负责人 Corey Lynch,则原本是 Google Deepmind 的 AI 研究员。Figure 宣布自己在电机、固件、热量、电子产品、中间件操作系统、电池系统、执行器传感器、机械与结构方面,都招募了硬核的设计人才。公司的确进展很快。在与 OpenAI 合作之前,已经做出了不少成绩。2024 年 1 月,Figure 01(Figure 的第一款人形机器人) 学会了做咖啡,公司称,这背后引入了端到端神经网络,机器人学会自己纠正错误,训练时长为 10 小时。Figure 01 引入 AI 学会做咖啡2 月,公司对外展示 Figure 01 的最新进展,在视频里,这个机器人已经学会搬箱子,并运送到传送带上,但速度只有人类的 16.7%。甚至在商业化上,也已经迈出了第一步:Figure 宣布与宝马制造公司签署商业协议,将 AI 和机器人技术整合到汽车生产中,部署在宝马位于南卡罗来纳州斯巴达堡的制造工厂。而在今天的视频展示推文中,Figure 宣布其目标是训练一个世界模型,最终能够卖出十亿个级别的模型驱动的人形机器人。不过,尽管OpenAI与 Figure的合作进展顺畅,但看起来 OpenAI 并未把宝压在一家机器人公司。北京时间 3 月 13 日,来自Google研究团队、加州大学伯克利分校、斯坦福大学教授等一群研究者新成立的一家机器人 AI 公司 Physical Intelligence,被彭博社爆料也拿到了 OpenAI 的融资。毫无意外,该公司,也是研究未来能够成为通用机器人系统的人工智能。多头下注机器人领域,13 天合作做出领先的机器人大模型,OpenAI 在机器人领域意图为何,引人关注。智能人形机器人,未来不止看马斯克的了。 ... PC版: 手机版:

封面图片

* 上下文在接下来还有很大扩展空间,会有几个数量级,不能只看长度,要看它在这个窗口下能实现的推理能力、the faithfuln

* 上下文在接下来还有很大扩展空间,会有几个数量级,不能只看长度,要看它在这个窗口下能实现的推理能力、the faithfulness的能力(对原始信息的忠实度)、the instruction following的能力(遵循指令的能力)不应该只追求单一指标,而是结合指标和能力。 * 除了综合能力,在很多空间可以产生独特的能力,能在一些方向做到state of the art(世界领先),比如 Midjourney V6。 * 三年后会有一定程度的AGI。我们今天在做的很多事AI也能做,甚至它做得更好。但关键看我们怎么用它。 * 月之暗面接下来的两件事第一件是世界模型,第二件AI 持续进化的能力。 * (GPT-4)是AGI的必经之路。核心是,不能只满足做到GPT-4的效果。一是要想现在真正的非共识是什么,除了GPT-4,下一步是什么?GPT-5和GPT-6应该是什么样?二是看,你在这里面有哪些独特能力,这点更重要。 * 月之暗面北极星指标:独特价值是你增量的智能。要抓住这个点,智能永远是最核心的增量价值。如果你这个产品最核心价值只有10%-20%来自于AI,就不成立。 * AI不是我在接下来一两年找到什么PMF,而是接下来十到二十年如何改变世界,你的目的假设是商业化,你不可能脱离AGI去思考。只做应用很容易被碾压。 * 技术是这个时代唯一新变量,其他变量没变。AGI是所有事情的核心。 * 为什么开源追不上闭源?因为开源的开发方式跟以前不一样了,以前是所有人都可以contribute(贡献)到开源,现在开源本身还是中心化的。 * 这一轮和上一轮创业的最大区别就是,这次会更加技术驱动。 * Sora 主要瓶颈,核心还是数据,你怎么去规模化地拟合这个数据?之前没被验证过。剩下的是它也没有完全解决,比如需要一个统一的architecture(架构)。DiT这个architecture仍然不是非常通用。 * Sora现在就有点像(视频生成的)GPT-3.5,是阶跃式提升。 * Sora+GPT 会产生什么?对世界的理解更好了,可以在数字世界里做更加端到端的任务,甚至去架起一座桥梁,连接物理世界,完成一些物理世界里的任务。这是起点(这也是 Open AI 投资机器人公司的原因?)。 * 我个人判断至少在接下来一到两年,卡不会成为很大瓶颈。 * 招人思路发生过一些变化。世界上AGI人才非常有限,有经验的人很少。我们最早期的画像是,专注找对口的genius(天才)。 * 解决幻觉问题主要还是靠scaling law,就是scale的是不一样的东西。 * 在能力上应该今年下半年会有一些比较大的突破,很多会来自OpenAI,它肯定还有下一代模型有可能是4.5,也有可能是5,感觉是大概率事件。视频的生成模型肯定还能继续scale。 * 国内大模型公司的预测:一是可以看到新的独特能力产生。你会看到国产模型,因为前期的投入,有合适的团队,做出世界领先的某一些维度的能力。二是会出现更多用户量级更大的产品,这是大概率的。三是会有进一步的consolidation和路线选择的分化。 访谈原文:

封面图片

十多年来最重要的一次苹果开发者大会 库克会暗掷“王炸”吗?

十多年来最重要的一次苹果开发者大会 库克会暗掷“王炸”吗? 苹果公司CEO库克此前在多个场合表示,今年WWDC大会上,公司会发布更多与AI相关的技术进展。苹果于今年4月关闭了汽车开发团队,转而All in AI。但直到目前,该公司仍在AI的巨头竞赛中处于落后地位。就在6月5日,英伟达市值超越苹果成为美股市值第二大公司;而今年早些时候,微软超越苹果成为全球市值最大公司。今年以来,苹果公司涨幅仅2%,远低于其他科技公司的涨幅。同期英伟达股价暴涨144%,谷歌和亚马逊股价涨幅也都超过20%。AI - 苹果增长版图中缺失的一块苹果要重夺美股市值最大公司的宝座,必须通过AI发力。券商韦德布什(Wedbush)分析师埃夫斯(Dan Ives)在一份报告中表示:“人工智能战略是苹果增长拼图中缺失的一块。”尽管开发者大会通常不会吸引投资者参加,但埃夫斯认为,今年大会无疑会成为投资者关注的焦点,也是苹果十多年来最为重要的一次大会。华尔街认为,这是苹果证明自己在人工智能方面并不落后的时机,也有望成为该公司股价在今年下半年上涨的催化剂,并刺激下一代iPhone机型的升级周期。摩根士丹利分析师在一份给投资者的报告中写道:“我们认为,人工智能功能,加上苹果生态系统的其他投资,以及iPhone 16的硬件升级,有可能推动产品预期的上行。”但在一些技术人员看来,苹果公司“没有AI基因”,是其落后于竞争对手的根本原因。一位AI专家对第一财经记者说道:“科技行业一样有‘鄙视链’,对于顶尖的AI人才而言,他们通常不会首先考虑(加入)苹果公司,谷歌、微软还是公认的AI技术第一梯队。”约翰·詹南德雷亚(John Giannandrea)是苹果公司人工智能战略负责人,他曾就职于谷歌,据称是一名非常低调的技术领导者,因不满谷歌领导层在决策和执行方面的处理方式,转投苹果。加入苹果六年以来,詹南德雷亚并没有像苹果领导团队的其他同事那样出现在公众视野中,他的工作被库克称为“嵌入在我们制造的每一款产品中”。而随着科技界在过去一年多对人工智能的痴迷程度越来越高,苹果开始更公开地谈论人工智能如何为产品功能和开发提供动力。詹南德雷亚的团队也必须满足市场对于苹果设备的AI预期。苹果AI的优势在哪?苹果并非没有竞争优势,原因就是它背后超过10亿部iPhone设备。如果这些手机都被赋予了AI功能,那么对于应用端的需求将会是爆发式的。“在WWDC上,我们预计苹果将公布其在多样化的个人设备生态系统中实施生成式人工智能的长期愿景。”投行D.A. Davidson分析师卢里亚(Gil Luria)在一份报告中写道,“我们认为,生成式人工智能对苹果业务的影响是所有技术中影响最深远的技术之一,与影响开发者或企业的许多人工智能创新不同,苹果显然有机会通过生成式人工智能功能覆盖数十亿台消费设备。”库克在5月份的财报电话会议上告诉投资者:“我们相信人工智能的变革力量和前景,苹果拥有在新时代脱颖而出的优势,包括苹果将硬件、软件和服务无缝集成的独特能力,以及具有行业领先突破性技术的苹果芯片和我们对隐私的关注。”苹果已经在为推出一系列AI功能进行布局。上个月,苹果发布新款iPad Pro采用新型M4苹果芯片,并称它是“一款极其强大的人工智能芯片”。苹果此前预计,将在WWDC召开前,将其最新的芯片交到应用程序开发者手中。据介绍,M4芯片更节能,专门用于处理人工智能任务,并能提高速度,或者让公司的语音助手Siri更深入地嵌入应用程序以帮助用户执行任务。更大的期待来自于苹果是否会在WWDC上与OpenAI联手“出大招”。此前已经有消息称,苹果正在考虑与OpenAI或谷歌的生成式AI聊天机器人合作。一位业内人士对第一财经记者表示:“苹果选择OpenAI合作的可能性更大。尽管苹果AI负责人曾在谷歌工作,但毕竟苹果与谷歌Android手机有竞争。”上个月,OpenAI发布其人工智能最新版大模型ChatGPT-4o的语音模式。在一个简短的演示中,OpenAI的研究人员拿着一部iPhone,直接与ChatGPT应用程序中的机器人对话,机器人能够模仿并流畅地说话,甚至唱歌。对话很简洁,机器人给出建议的声音听起来像人类。苹果用户和专家们似乎看清了,这就是苹果Siri未来的预览。苹果的语音助手Siri于2011年首次亮相,自那以后就因无用而声名扫地。微软CEO纳德拉曾嘲讽包括Siri在内的上一代语音助手“傻得像石头”。因为它们很死板,只能回答一小部分定义明确的问题,部分原因是它们基于较旧的机器学习技术。绕不过的隐私保护业内猜测,苹果的新版Siri可能不会与功能齐全的ChatGPT等聊天机器人直接竞争,但会改进其现有功能,遇到不能回答的问题,就会求助于其他聊天机器人,从而避免尴尬的回答。不过专家强调,生成式AI需要调用大量的数据库,这可能会与苹果现有的隐私政策相冲突,这也是苹果在人工智能领域落后于竞争对手的一个原因。隐私保护是苹果过去多年中特别强调的主题。而OpenAI技术基于网络抓取、ChatGPT用户交互用于改进模型本身,这种技术可能违反苹果的一些隐私原则。摩根大通分析师查特吉(Samik Chatterjee)在本月的一份报告中写道:“我们预计苹果在WWDC主题演讲中的重点将集中在功能和设备端能力上,以及在设备端运行以实现这些功能的生成式AI模型。”今年4月,苹果发布了关于人工智能模型的研究,它被称为“高效语言模型”,可以在手机上运行。苹果的OpenELM模型具有11亿个参数,远小于OpenAI在2020年发布的GPT-3模型的1750亿个参数,甚至小于Meta的Llama模型的700亿个参数。在论文中,苹果的研究人员在运行苹果M2 Max 芯片的MacBook Pro笔记本电脑上对该模型进行了基准测试,结果表明这些高效模型不一定需要连接到云端,这可以提高响应速度,并提供一层隐私保护,因为敏感问题可以在设备本身得到回答,而不是发送回苹果服务器。花旗分析师马利克(Atif Malik)在最近的一份报告中表示:“数据安全将是苹果公司的一个关键优势,我们预计他们也会在WWDC期间花时间谈论隐私保护方面的工作。”目前大模型在很多应用场景上仍然存在不准确或“顾左右而言他”,甚至反应过激等问题。此外,隐私和版权保护也是人工智能发展的一道门槛。OpenAI最近就陷入了一场关于深度伪造和欺骗的社会争论中,美国知名女演员斯嘉丽·约翰逊对OpenAI语音模式“窃取”她的声音进行指控。斯嘉丽·约翰逊上月表示,尽管她拒绝了向OpenAI提供声音的邀约,但是大模型GPT-4o仍然使用了高度类似其声音的Sky语音。随后她向OpenAI发送律师函,要求说明Sky确切的创造过程。不久后,OpenAI宣布暂停使用Sky语音,表示对斯嘉丽·约翰逊的尊重。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人