Meta的新型AI模型可通过观看视频进行学习 未来还将加入声音数据维度

Meta的新型AI模型可通过观看视频进行学习 未来还将加入声音数据维度 Meta公司 FAIR(基础人工智能研究)小组负责人Yann LeCun提出,如果人工智能模型能在视频片段中使用相同的遮蔽技术,它们就能更快地学习。LeCun 说:"我们的目标是打造先进的机器智能,使其能够像人类一样学习。形成周围世界的内部模型,以便高效地学习、适应和制定计划,为完成复杂任务服务。"LeCun 理论的具体体现是一种名为视频联合嵌入预测架构(V-JEPA)的研究模型。它通过处理无标记的视频来进行学习,并推测出在黑屏的几秒钟内,屏幕的某一部分可能发生了什么。需要注意的是,V-JEPA 并不是一个生成模型。Meta 的研究人员说,V-JEPA 在使用视频遮蔽进行预训练后,"擅长检测和理解物体之间高度细致的互动"。这项研究可能会对 Meta 和更广泛的人工智能生态系统产生重大影响。Meta公司之前在开发增强现实眼镜时曾谈到过"世界模型"。这种眼镜将使用这样一个模型作为人工智能助手的大脑,除其他外,它还能预测向用户展示哪些数字内容,以帮助用户完成工作并获得更多乐趣。该模型从一开始就对眼镜外的世界具有视听理解能力,但随后可以通过设备的摄像头和麦克风快速了解用户世界的独特特征。V-JEPA 还可能改变人工智能模型的训练方式。目前的基础模型预训练方法需要大量的时间和计算能力(这对生态环境有影响)。换句话说,目前开发基础模型是富人的专利。有了更高效的训练方法,这种情况就会改变。这符合Meta 的战略,即以开源方式发布其大部分研究成果,而不是像 OpenAI 和其他公司那样将其作为有价值的知识产权加以保护。如果训练成本降低,规模较小的开发者也许就能训练出规模更大、能力更强的模型。LeCun 认为,目前的模型通过视觉和听觉进行学习,这正在减缓向人工通用智能(通常需要比人类更聪明)发展的速度。在 V-JEPA 之后,Meta 的下一步计划是在视频中加入音频,这将为模型提供一个全新的学习数据维度,这就像一个孩子在观看静音电视时将声音调大一样。孩子们不仅能看到物体的移动,还能听到人们谈论物体的声音。Meta 公司表示,它将以知识共享(Creative Commons)非商业许可的方式发布 V-JEPA 模型,这样研究人员就可以对其进行实验,或许还能扩展其功能。 ... PC版: 手机版:

相关推荐

封面图片

Meta 开源多感官人工智能模型

Meta 开源多感官人工智能模型 宣布了一个新的开源人工智能模型,该模型将多个数据流链接在一起,包括文本、音频、视觉数据、温度和运动读数。 该模型目前还只是一个研究项目,没有直接的消费者或实际应用,但它指向了生成式人工智能系统的未来,可以创造身临其境的多感官体验,并表明Meta在OpenAI和谷歌等竞争对手变得越来越隐秘的时候,仍在继续分享人工智能研究。 标签: #Meta #AI 频道: @GodlyNews1 投稿: @Godlynewsbot

封面图片

大模型有望迎新突破 OpenAI、Meta将推出拥有“推理”功能的AI

大模型有望迎新突破 OpenAI、Meta将推出拥有“推理”功能的AI 本周,OpenAI和Meta的高管表示,两家公司正准备推出其大型语言模型的下一个版本,这些模型为生成式人工智能应用提供动力。Meta表示,将在未来几周内开始推出Llama 3;而OpenAI则表示,它的下一个型号,预计将被称为GPT-5,将“很快推出”。推理功能Meta人工智能研究副总裁Joelle Pineau表示,“我们正在努力弄清楚如何让这些模型不仅能说话,而且能真正进行推理和规划……拥有记忆。”OpenAI首席运营官Brad Lightcap在接受采访时表示,下一代GPT将在解决推理等“难题”方面取得进展,“我们将开始看到人工智能能够以更精密的方式处理更复杂的任务,我认为,我们才刚刚开始触及这些模型推理能力的表层。”Lightcap补充道,如今的人工智能系统“非常擅长一次性的小任务”,但其能力仍然“相当有限”。为AGI铺路伴随着科技公司间越来越“卷”技术,进步的步伐正在加快,它们竞相创造更复杂的生成式人工智能这种模型可以创造出与人类无异的文字、图像、代码和视频,其质量也在不断提高。今年,Google、Anthropic和Cohere等公司陆续发布了一波新的大语言模型。推理和规划功能便是通往“通用人工智能(AGI)”的必经之路。AGI拥有人类水平的认知,它允许聊天机器人和虚拟助手完成相关任务的序列,并预测其行为的后果。Meta首席人工智能科学家Yann LeCun周二(4月9日)在伦敦的一次活动上表示,目前的人工智能系统“在没有思考和计划的情况下,是一个接一个地生成单词”,他们很难处理复杂的问题或长时间记住信息,因此他们仍然会“犯愚蠢的错误”。他表示,增加推理能力意味着人工智能模型将“搜索可能的答案”、“计划行动的顺序”,并建立一个“关于其行动将产生何种影响的心理模型”。LeCun补充道,这正是目前模型的重要缺失部分,而这些能力将使机器达到下一个智能水平。OpenAI的Lightcap则表示,OpenAI很快就会对下一个版本的GPT“有更多话要说”。Lightcap称,“我认为随着时间的推移,我们将看到这些模型走向更长、更复杂的任务,这就要求他们提高推理能力。” ... PC版: 手机版:

封面图片

Meta 已经在训练 Llama 3 更强大的继任者

Meta 已经在训练 Llama 3 更强大的继任者 Meta 公司首席人工智能科学家杨立昆在麻省理工学院的 Imagination in Action 会议上透露,4月18日发布的开源 Llama 3 人工智能模型仅仅只是开始。该公司正在酝酿一项更加雄心勃勃的计划,可以重新定义人工智能格局的新模型。他在会上讨论了 Meta 正在进行的人工智能工作。他表示,Meta 正在积极研究更大的模型,目前正在训练的最雄心勃勃的模型拥有超过 4000 亿个参数。虽然这款强大产品的发布时间表仍不确定,但杨立昆的声明强调了 Meta 致力于突破人工智能界限的承诺。 、

封面图片

OpenAI 和 Meta 准备推出具有“推理”能力的新人工智能模型

OpenAI 和 Meta 准备推出具有“推理”能力的新人工智能模型 OpenAI 和 Meta 即将发布新的人工智能模型,他们表示这些模型将具备推理和规划的能力,这是在机器中实现超人认知的关键步骤。本周,OpenAI 和 Meta 的高管表示,他们正准备推出其大型语言模型的下一个版本。Meta 表示将在未来几周内开始推出 Llama 3,而微软支持的 OpenAI 表示,其下一个模型 GPT-5 将“很快”推出。Meta 人工智能研究副总裁乔尔•皮诺表示:“我们正在努力研究如何让这些模型不仅能说话,还能真正推理、规划……拥有记忆”。OpenAI 首席运营官布拉德•莱特卡普在接受记者采访时表示,下一代 GPT 将在解决推理等“难题”方面取得进展。他说:“我们将开始看到人工智能能够以更复杂的方式完成更复杂的任务。”“我认为,我们才刚刚开始触及这些模型推理能力的表面。” ()

封面图片

Meta人工智能主管杨立昆:大型语言模型不会达到人类智能水平

Meta人工智能主管杨立昆:大型语言模型不会达到人类智能水平 Meta 的人工智能主管表示,为 ChatGPT 等生成式人工智能产品提供动力的大型语言模型永远无法实现像人类一样的推理和计划能力,他专注于一种激进的替代方法,即在机器中创造“超级智能”。该公司首席人工智能科学家杨立昆表示,LLM“对逻辑的理解非常有限……不理解物理世界,没有持久的记忆,不能按照任何合理的定义进行推理,也不能进行层次化的规划”。杨立昆说,LLMs的这种进化是肤浅和有限的,只有当人类工程师介入并根据这些信息进行训练时,模型才会学习,而不是像人类那样自然地得出结论。“在大多数人看来,这当然是推理,但主要是利用从大量训练数据中积累的知识。(LLM)尽管有局限性,但非常有用。” ( )

封面图片

Meta确认其Llama 3开源大语言模型将于下个月推出

Meta确认其Llama 3开源大语言模型将于下个月推出 Meta 公司全球事务总裁尼克-克莱格(Nick Clegg)说:"我们希望在下个月内,甚至更短的时间内,开始推出我们新的下一代基础模型套件 Llama 3。"他的描述听起来像是要发布该产品的几个不同迭代或版本。"今年内,我们将发布一系列具有不同功能、不同通用性的模型,很快就会开始发布。"Meta 首席产品官 Chris Cox 补充说,计划用 Llama 3 支持 Meta 的多个产品。一年多前,OpenAI 推出了 ChatGPT,并将人工智能生成式问答变成了日常的主流体验,这让 Meta 和Google等其他大型科技公司措手不及。Meta 公司在人工智能方面基本上采取了非常谨慎的态度,但这并没有得到公众的认可,以前版本的 Llama 被批评为能力过于有限。(Llama 2于 2023 年 7 月公开发布)。第一版 Llama 并未对外发布,但仍在网上泄露)。与前几代产品相比,Llama 3 的功能更强大,不仅能更准确地回答问题,还能回答更广泛的问题,其中可能包括更具争议性的话题。该公司希望这将使产品受到用户的欢迎。"随着时间的推移,我们的目标是让由 Llama 驱动的 Meta AI 成为世界上最有用的助手,"人工智能研究副总裁 Joelle Pineau 说。"要达到这个目标,还有相当多的工作要做。"该公司没有谈及《Llama 3》中使用的参数的大小,也没有提供它将如何工作的任何演示。预计它将拥有约 1400 亿个参数,而最大的 Llama 2 型号只有 700 亿个参数。最值得注意的是,Meta 的 Llama 系列是作为开源产品构建的,代表了一种不同的哲学方法,即人工智能作为一种更广泛的技术应如何发展。与专有模式相比,Meta 希望通过这种方式获得更多开发者的青睐。但 Meta 似乎也在谨慎行事,尤其是在文本生成之外的其他生成式人工智能方面。皮诺说,公司尚未发布图像生成工具 Emu。考克斯说:"延迟、安全性和易用性都非常重要,只有这样才能生成令你自豪的图像,并代表你的创意背景。"具有讽刺意味的是,或者可以说是意料之中的,即使在 Meta 公司努力推出 Llama 3 的同时,公司内部也有一些对生成式人工智能持怀疑态度的重要人士。兼任 Meta 首席人工智能科学家的著名人工智能学者 Yann LeCun 对生成式人工智能的整体局限性进行了抨击,并表示他将赌注押在生成式人工智能之后。他预测这将是联合嵌入式预测架构(JEPA),这是一种训练模型和产生结果的不同方法,Meta 公司一直在使用这种方法在图像生成领域构建更准确的预测性人工智能。"人工智能的未来是 JEPA。它不是生成式人工智能,"他说。"我们得给克里斯的产品部门改个名字"。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人