谷歌的 1000 种语言的人工智能模型迈出关键一步

谷歌的1000种语言的人工智能模型迈出关键一步去年11月，谷歌宣布其计划创建一个支持世界上1000种最常用语言的语言模型，同时还披露了其通用语音模型（USM）。周一，谷歌披露了USM的更多信息，称其是创建该语言模型迈出的“关键性的第一步”。谷歌将USM描述为“一个最先进的语音模型系列”，它有20亿个参数，经过了1200万小时的语音和超过300种语言的280亿个句子的训练。USM已经被YouTube用来生成封闭式字幕，支持超过100种语言，并将作为基础来建立一个更加广泛的系统。来源，来自：雷锋频道：@kejiqu群组：@kejiquchat投稿：@kejiqubot

在Telegram中查看

相关推荐

Google离建立其1000种语言的人工智能模型又近了一步

Google离建立其1000种语言的人工智能模型又近了一步在周一发布的更新中，Google分享了有关通用语音模型（USM）的更多信息，Google称这一系统是实现其目标的"关键第一步"。去年11月，该公司宣布其计划创建一个支持全球1000种最常用语言的语言模型，同时还披露了其USM模型。Google将USM描述为"一个最先进的语音模型系列"，它有20亿个参数，在1200万小时的语音和超过300种语言的280亿个句子中进行训练。YouTube已经使用USM来生成封闭式字幕，它还支持自动语音识别（ASR），这可以自动检测和翻译语言，包括英语、中文普通话、阿姆哈拉语、宿务语、阿萨姆语等等。现在，GoogleUSM支持超过100种语言，并将作为"基础"来建立一个更加广泛的系统。与此同时，Meta公司正在开发一个类似的人工智能翻译工具，但目前仍处于早期阶段。您可以在Google发布的研究论文中阅读更多关于USM和它如何工作的信息：https://arxiv.org/abs/2303.01037该技术的一个目标可能是在增强现实的眼镜内，就像Google去年在I/O活动中展示的概念一样，能够检测并提供实时翻译，不过，这项技术似乎还有点遥远，Google在I/O大会期间对阿拉伯语的错误表述证明了它是多么容易出错。...PC版：https://www.cnbeta.com.tw/articles/soft/1348091.htm手机版：https://m.cnbeta.com.tw/view/1348091.htm

Google计划建立巨型人工智能语言模型支持全球1000种最常用的语言

Google计划建立巨型人工智能语言模型支持全球1000种最常用的语言语言和人工智能可以说一直是Google产品的核心，但最近机器学习的进步--特别是强大的、多功能的"大型语言模型"或LLM的开发--使这些领域得到了新的重视。Google已经开始将这些语言模型整合到Google搜索等产品中。但语言模型有许多缺陷，包括倾向于转述有害的社会偏见，如种族主义和仇外心理，以及无法以人类的敏感性来解析语言。在自己的研究人员发表了概述这些问题的论文后，Google自己也臭名昭著地解雇了他们。不过，这些模型能够完成许多任务，从语言生成（如OpenAI的GPT-3）到翻译（见Meta的"不遗漏语言"工作）。Google的"1000种语言计划"并不专注于任何特定的功能，而是要创建一个具有世界上各种语言的巨大知识广度的单一系统。Google人工智能研究副总裁ZoubinGhahramani说，该公司认为，创建一个如此规模的模型将使其更容易将各种人工智能功能带到在线空间和人工智能训练数据集中表现不佳的语言（也被称为"低资源语言"）。"语言就像生物体，它们是相互演化而来的，它们有某些相似之处。通过让一个单一的模型接触并训练许多不同的语言，我们在低资源语言上得到更好的表现，"Ghahramani说。"我们达到1000种语言的方法不是通过建立1000种不同的模型。语言就像生物体，它们是相互进化的，它们有某些相似之处。而且，当我们将一种新语言的数据纳入我们的1000种语言模型，并获得将[它所学到的东西]从一种高资源语言转化为低资源语言的能力时，我们可以在我们所谓的零点学习中找到一些相当惊人的进展。"过去的研究显示了这种方法的有效性，而Google计划中的模型的规模可以提供比过去的工作更多的收益。这种大规模的项目已经成为科技公司主导人工智能研究雄心的典型，并利用了这些公司在获得大量计算能力和训练数据方面的独特优势。一个类似的项目是Facebook母公司Meta正在尝试建立一个"通用语音翻译器"。Google表示，为了支持1000种语言模型的工作，它将资助收集低资源语言的数据，包括音频记录和书面文本。该公司表示，它没有直接计划在哪里应用这个模型的功能--只是预计它将在Google的产品中具有一系列用途，从Google翻译到YouTube字幕等等。"同样的语言模型可以将机器人的命令变成代码；它可以解决数学问题；它也可以进行翻译。关于大型语言模型和一般的语言研究，真正有趣的事情之一是它们可以做很多很多不同的任务，"Ghahramani说。"语言模型真正有趣的地方在于它们正在成为大量知识的储存库，通过以不同的方式探测它们，你可以获得不同的有用功能。"Google在一个新的人工智能产品展示会上宣布了1000种语言模型。该公司还分享了关于文本到视频模型的新研究，一个名为Wordcraft的人工智能写作助手原型，以及对其人工智能测试厨房应用程序的更新，该应用程序允许用户有限地访问正在开发的人工智能模型，如其文本到图像模型Imagen。...PC版：https://www.cnbeta.com.tw/articles/soft/1331651.htm手机版：https://m.cnbeta.com.tw/view/1331651.htm

Nvidia人工智能聊天机器人现已支持谷歌Gemma模型、语音查询等

Nvidia人工智能聊天机器人现已支持谷歌Gemma模型、语音查询等Nvidia正在更新其实验性的ChatRTX聊天机器人，为RTXGPU设备提供更多AI模型。聊天机器人在WindowsPC上本地运行，已支持Mistral或Llama2来查询用户输入的个人文档，但现在支持的AI模型越来越多，包括谷歌的Gemma、ChatGLM3，甚至OpenAI的CLIP模型，以便更容易搜索用户文档。ChatRTX可从Nvidia网站下载（大小约36GB），现已支持基于通用语言模型框架的开放式双语（英语和中文）大模型ChatGLM3。OpenAI的CLIP也已添加。此外，Nvidia正在更新ChatRTX以支持语音查询。Nvidia集成了人工智能语音识别系统Whisper，允许用户使用语音搜索数据。关注频道@TestFlightCN频道投稿@TNSubmbot

人工智能公司正在转向“小型”语言模型以获利

人工智能公司正在转向“小型”语言模型以获利投入数十亿美元构建所谓的大型语言模型以推动生成式人工智能产品的人工智能公司，现在正寄望于一种新的收入增长方式：小型语言模型。苹果、微软、Meta和谷歌最近都发布了新的人工智能模型，这些模型的“参数”较少，但功能仍然强大。通常来说，参数的数量越多，人工智能软件的性能就越好，能处理的任务也就越复杂和微妙。本周公布的OpenAI的最新模型GPT-4o和谷歌的Gemini1.5Pro，据估计都拥有超过1万亿个参数。而Meta正在训练其开源Llama模型的4000亿参数版本。除了努力说服一些企业客户支付运行生成式人工智能产品所需的大额费用外，对数据和版权责任的担忧也阻碍了其广泛应用。这促使像Meta和谷歌这样的科技集团推出只有几十亿参数的小型语言模型，作为更经济、更节能、可定制的替代方案，这些模型在训练和运行时所需的电力更少，同时还能保护敏感数据。——

Roblox借助LLM语言模型发布实时人工智能聊天翻译器

Roblox借助LLM语言模型发布实时人工智能聊天翻译器Roblox首席技术官丹-斯特曼（DanSturman）说，该翻译器的目标是让Roblox用户更容易理解对方在说什么，从而让他们在相互交流时感觉更舒适。翻译器会自动翻译聊天内容，但用户可以点击图标查看原始信息。"我们知道，当用户用自己的语言与他人交谈或互动时，参与度就会提高，"Sturman说。"我们借鉴了这一理念，并通过自动翻译消除了语言障碍。"Roblox首先建立了一个基于转换器的大型语言模型(LLM)，该模型通过公开数据和内部数据进行训练。它将LLM置于一个专家混合（MoE）架构中，这是一个运行多个翻译应用程序的环境，每个应用程序都是一种语言的专家。Sturman说，考虑到他们项目的规模，他的团队认为建立自己的模型比修改现成的LLM更容易。斯图尔曼说，Roblox会监控聊天内容（出于信任和安全考虑），如果翻译不尽完美，可以得到反馈。他补充说，增加聊天翻译人工智能"不会改变我们的隐私和安全流程，违禁词语仍会被屏蔽"。Roblox在过去几年中一直在努力吸引较为年长的用户，并一直在使用生成式人工智能模型来增强用户体验。去年，它为开发者推出了一款人工智能聊天机器人助手，还能自动将图像资产（如建筑物上的文字）翻译成用户的默认语言。斯图尔曼希望翻译模式最终能超越单纯的文本聊天翻译。"未来，我们可以使用人工智能将不合规的[违禁]词语翻译成合规词语，或者将其用于语音聊天的实时语音翻译，还有很多可能性。"其他公司也在开发人工智能翻译模型。Meta发布了语音到文本和文本到文本的翻译器SeamlessM4T，可处理近100种语言。Google的通用语音模型也能翻译约100种语言，并已部署在YouTube上翻译字幕。...PC版：https://www.cnbeta.com.tw/articles/soft/1416349.htm手机版：https://m.cnbeta.com.tw/view/1416349.htm

人工智能军备竞赛白热化：谷歌最新AI大语言模型数据量扩充5倍

人工智能军备竞赛白热化：谷歌最新AI大语言模型数据量扩充5倍令牌指的是单词串，这是训练大语言模型的重要基础，因为这可以教给模型如何预测字符串中可能出现的下一个单词。之前版本的PaLM发布于2022年，当时使用的令牌为7800亿个。虽然谷歌很希望展示其人工智能技术的实力，以及嵌入搜索、电子邮件、字处理和电子表格后的效果，但该公司却不愿发布其训练数据的规模和其他细节。微软支持的OpenAI也对其最新的GPT-4大语言模型的细节信息保密。这些公司表示，之所以不披露这些信息，是出于商业竞争考虑。谷歌和OpenAI都在努力吸引想要用聊天机器人代替传统搜索引擎，从而直接获取答案的用户。但随着人工智能军备竞赛日趋白热化，相关研究人员也呼吁企业加大透明度。自从发布PaLM2之后，谷歌一直表示新的模型比之前的大语言模型更小，这就意味着该公司的技术效率得以提升，但却可以完成更加复杂的任务。内部文件显示，PaLM2基于3400亿个参数训练——这项指标可以说明该模型的复杂程度。最初的PaLM则基于5400亿个参数训练。目前，谷歌尚未对此置评。谷歌在一篇关于PaLM2的博文中表示，该模型使用了一种名为“计算机优化扩张”的新技术。这就让大语言“更高效、整体性能更好，包括加快推理速度、减少参数调用和降低服务成本。”在宣布PaLM2时，谷歌证实了此前的媒体报道，计该模型针对100种语言进行训练，可以执行更广泛的任务。它已经被用于25项功能和产品，包括该公司的实验性聊天机器人Bard。按照从小到大的规模划分，该模型共有4种，分别是壁虎（Gecko）、水獭（Otter）、野牛（Bison）和独角兽（Unicorn）。根据公开披露的信息，PaLM2比现有的任何模型都更加强大。Facebook在2月份宣布的的LLaMA大语言模型采用1.4万亿个令牌。OpenAI上一次披露GPT-3的训练规模时表示，它当时基于3000亿个令牌。OpenAI今年3月发布GPT-4时表示，它在许多专业测试中展示出“与人类媲美的表现”。LAMDA是谷歌两年前推出的一个对话型大语言模型，在今年2月还与Bard一同对外宣传。该模型基于1.5万亿个令牌训练。随着新的人工智能应用快速进入主流，围绕底层技术的争议也越来越激烈。谷歌高级研究科学家艾尔·迈赫迪·艾尔·麦哈麦迪（ElMahdiElMhamdi）于今年2月辞职，主要原因就是人工智能技术缺乏透明度。本周二，OpenAICEO山姆·阿尔特曼（SamAltman）出席美国国会针对隐私和技术举行的听证会，他也认为需要设立一套新的制度来应对人工智能的潜在问题。“对于一种全新的技术，我们需要一套全新的框架。”阿尔特曼说，“当然，像我们这样的公司应当为我们推出的工具承担许多责任。”...PC版：https://www.cnbeta.com.tw/articles/soft/1360049.htm手机版：https://m.cnbeta.com.tw/view/1360049.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人