Meta的新型AI模型可通过观看视频进行学习 未来还将加入声音数据维度

Meta的新型AI模型可通过观看视频进行学习 未来还将加入声音数据维度 Meta公司 FAIR(基础人工智能研究)小组负责人Yann LeCun提出,如果人工智能模型能在视频片段中使用相同的遮蔽技术,它们就能更快地学习。LeCun 说:"我们的目标是打造先进的机器智能,使其能够像人类一样学习。形成周围世界的内部模型,以便高效地学习、适应和制定计划,为完成复杂任务服务。"LeCun 理论的具体体现是一种名为视频联合嵌入预测架构(V-JEPA)的研究模型。它通过处理无标记的视频来进行学习,并推测出在黑屏的几秒钟内,屏幕的某一部分可能发生了什么。需要注意的是,V-JEPA 并不是一个生成模型。Meta 的研究人员说,V-JEPA 在使用视频遮蔽进行预训练后,"擅长检测和理解物体之间高度细致的互动"。这项研究可能会对 Meta 和更广泛的人工智能生态系统产生重大影响。Meta公司之前在开发增强现实眼镜时曾谈到过"世界模型"。这种眼镜将使用这样一个模型作为人工智能助手的大脑,除其他外,它还能预测向用户展示哪些数字内容,以帮助用户完成工作并获得更多乐趣。该模型从一开始就对眼镜外的世界具有视听理解能力,但随后可以通过设备的摄像头和麦克风快速了解用户世界的独特特征。V-JEPA 还可能改变人工智能模型的训练方式。目前的基础模型预训练方法需要大量的时间和计算能力(这对生态环境有影响)。换句话说,目前开发基础模型是富人的专利。有了更高效的训练方法,这种情况就会改变。这符合Meta 的战略,即以开源方式发布其大部分研究成果,而不是像 OpenAI 和其他公司那样将其作为有价值的知识产权加以保护。如果训练成本降低,规模较小的开发者也许就能训练出规模更大、能力更强的模型。LeCun 认为,目前的模型通过视觉和听觉进行学习,这正在减缓向人工通用智能(通常需要比人类更聪明)发展的速度。在 V-JEPA 之后,Meta 的下一步计划是在视频中加入音频,这将为模型提供一个全新的学习数据维度,这就像一个孩子在观看静音电视时将声音调大一样。孩子们不仅能看到物体的移动,还能听到人们谈论物体的声音。Meta 公司表示,它将以知识共享(Creative Commons)非商业许可的方式发布 V-JEPA 模型,这样研究人员就可以对其进行实验,或许还能扩展其功能。 ... PC版: 手机版:

相关推荐

封面图片

Meta 开源多感官人工智能模型

Meta 开源多感官人工智能模型 宣布了一个新的开源人工智能模型,该模型将多个数据流链接在一起,包括文本、音频、视觉数据、温度和运动读数。 该模型目前还只是一个研究项目,没有直接的消费者或实际应用,但它指向了生成式人工智能系统的未来,可以创造身临其境的多感官体验,并表明Meta在OpenAI和谷歌等竞争对手变得越来越隐秘的时候,仍在继续分享人工智能研究。 标签: #Meta #AI 频道: @GodlyNews1 投稿: @Godlynewsbot

封面图片

大模型有望迎新突破 OpenAI、Meta将推出拥有“推理”功能的AI

大模型有望迎新突破 OpenAI、Meta将推出拥有“推理”功能的AI 本周,OpenAI和Meta的高管表示,两家公司正准备推出其大型语言模型的下一个版本,这些模型为生成式人工智能应用提供动力。Meta表示,将在未来几周内开始推出Llama 3;而OpenAI则表示,它的下一个型号,预计将被称为GPT-5,将“很快推出”。推理功能Meta人工智能研究副总裁Joelle Pineau表示,“我们正在努力弄清楚如何让这些模型不仅能说话,而且能真正进行推理和规划……拥有记忆。”OpenAI首席运营官Brad Lightcap在接受采访时表示,下一代GPT将在解决推理等“难题”方面取得进展,“我们将开始看到人工智能能够以更精密的方式处理更复杂的任务,我认为,我们才刚刚开始触及这些模型推理能力的表层。”Lightcap补充道,如今的人工智能系统“非常擅长一次性的小任务”,但其能力仍然“相当有限”。为AGI铺路伴随着科技公司间越来越“卷”技术,进步的步伐正在加快,它们竞相创造更复杂的生成式人工智能这种模型可以创造出与人类无异的文字、图像、代码和视频,其质量也在不断提高。今年,Google、Anthropic和Cohere等公司陆续发布了一波新的大语言模型。推理和规划功能便是通往“通用人工智能(AGI)”的必经之路。AGI拥有人类水平的认知,它允许聊天机器人和虚拟助手完成相关任务的序列,并预测其行为的后果。Meta首席人工智能科学家Yann LeCun周二(4月9日)在伦敦的一次活动上表示,目前的人工智能系统“在没有思考和计划的情况下,是一个接一个地生成单词”,他们很难处理复杂的问题或长时间记住信息,因此他们仍然会“犯愚蠢的错误”。他表示,增加推理能力意味着人工智能模型将“搜索可能的答案”、“计划行动的顺序”,并建立一个“关于其行动将产生何种影响的心理模型”。LeCun补充道,这正是目前模型的重要缺失部分,而这些能力将使机器达到下一个智能水平。OpenAI的Lightcap则表示,OpenAI很快就会对下一个版本的GPT“有更多话要说”。Lightcap称,“我认为随着时间的推移,我们将看到这些模型走向更长、更复杂的任务,这就要求他们提高推理能力。” ... PC版: 手机版:

封面图片

Meta因使用个人数据训练AI模型收到欧盟11起投诉

Meta因使用个人数据训练AI模型收到欧盟11起投诉 NOYB已经就涉嫌违反欧盟《通用数据保护条例》(GDPR)对Meta和其他大型科技公司提出了几项投诉,该条例可能会对违规行为处以高达公司全球总营业额4%的罚款。对此,Meta引用了使用用户数据来训练和开发其生成式人工智能模型和其他人工智能工具的合法利益,这些模型和工具可以与第三方共享。NOYB创始人Max Schrems在一份声明中表示,欧洲最高法院已于2021年就这一问题作出了裁决。他表示:“欧洲法院(CJEU)已经明确表示,在广告方面,Meta没有‘合法利益’凌驾于用户的数据保护权利之上。”“然而,该公司正试图用同样的理由来训练未定义的‘人工智能技术’。Meta似乎又一次公然无视欧盟法院的判决,”Schrems表示,并补充道,用户选择不参与的程序非常复杂。“把责任推给用户是完全荒谬的。法律要求Meta获得选择参与的同意,而不是提供一个隐藏的、误导性的选择退出表格,”Schrems补充道,“如果Meta想使用你的数据,他们必须征得你的许可。相反,他们让用户请求被排除在外。”由于Meta即将进行的修改,NOYB要求奥地利、比利时、法国、德国、希腊、意大利、爱尔兰、荷兰、挪威、波兰和西班牙的数据保护当局启动紧急程序。 ... PC版: 手机版:

封面图片

Meta人工智能主管杨立昆:大型语言模型不会达到人类智能水平

Meta人工智能主管杨立昆:大型语言模型不会达到人类智能水平 Meta 的人工智能主管表示,为 ChatGPT 等生成式人工智能产品提供动力的大型语言模型永远无法实现像人类一样的推理和计划能力,他专注于一种激进的替代方法,即在机器中创造“超级智能”。该公司首席人工智能科学家杨立昆表示,LLM“对逻辑的理解非常有限……不理解物理世界,没有持久的记忆,不能按照任何合理的定义进行推理,也不能进行层次化的规划”。杨立昆说,LLMs的这种进化是肤浅和有限的,只有当人类工程师介入并根据这些信息进行训练时,模型才会学习,而不是像人类那样自然地得出结论。“在大多数人看来,这当然是推理,但主要是利用从大量训练数据中积累的知识。(LLM)尽管有局限性,但非常有用。” ( )

封面图片

Meta 已经在训练 Llama 3 更强大的继任者

Meta 已经在训练 Llama 3 更强大的继任者 Meta 公司首席人工智能科学家杨立昆在麻省理工学院的 Imagination in Action 会议上透露,4月18日发布的开源 Llama 3 人工智能模型仅仅只是开始。该公司正在酝酿一项更加雄心勃勃的计划,可以重新定义人工智能格局的新模型。他在会上讨论了 Meta 正在进行的人工智能工作。他表示,Meta 正在积极研究更大的模型,目前正在训练的最雄心勃勃的模型拥有超过 4000 亿个参数。虽然这款强大产品的发布时间表仍不确定,但杨立昆的声明强调了 Meta 致力于突破人工智能界限的承诺。 、

封面图片

:一种新的生成式交互环境模型,能通过无监督学习,用未标注的互联网视频数据训练而成。

:一种新的生成式交互环境模型,能通过无监督学习,用未标注的互联网视频数据训练而成。 Genie具有11B参数,能将文本、合成图像、照片甚至手绘草图转换为可交互的虚拟世界。这一模型打破了传统世界模型需要特定领域数据和动作标签的局限,通过学习潜动作空间,实现了对生成环境的逐帧控制。 研究表明,Genie不仅能够创造多样的互动体验,还能够训练未来的通用智能体,通过对未见过的视频进行模仿学习,预示着人工智能领域迈向开放式学习和创造无限数据的新时代。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人