Google离建立其1000种语言的人工智能模型又近了一步

Google离建立其1000种语言的人工智能模型又近了一步在周一发布的更新中，Google分享了有关通用语音模型（USM）的更多信息，Google称这一系统是实现其目标的"关键第一步"。去年11月，该公司宣布其计划创建一个支持全球1000种最常用语言的语言模型，同时还披露了其USM模型。Google将USM描述为"一个最先进的语音模型系列"，它有20亿个参数，在1200万小时的语音和超过300种语言的280亿个句子中进行训练。YouTube已经使用USM来生成封闭式字幕，它还支持自动语音识别（ASR），这可以自动检测和翻译语言，包括英语、中文普通话、阿姆哈拉语、宿务语、阿萨姆语等等。现在，GoogleUSM支持超过100种语言，并将作为"基础"来建立一个更加广泛的系统。与此同时，Meta公司正在开发一个类似的人工智能翻译工具，但目前仍处于早期阶段。您可以在Google发布的研究论文中阅读更多关于USM和它如何工作的信息：https://arxiv.org/abs/2303.01037该技术的一个目标可能是在增强现实的眼镜内，就像Google去年在I/O活动中展示的概念一样，能够检测并提供实时翻译，不过，这项技术似乎还有点遥远，Google在I/O大会期间对阿拉伯语的错误表述证明了它是多么容易出错。...PC版：https://www.cnbeta.com.tw/articles/soft/1348091.htm手机版：https://m.cnbeta.com.tw/view/1348091.htm

在Telegram中查看

相关推荐

Google计划建立巨型人工智能语言模型支持全球1000种最常用的语言

Google计划建立巨型人工智能语言模型支持全球1000种最常用的语言语言和人工智能可以说一直是Google产品的核心，但最近机器学习的进步--特别是强大的、多功能的"大型语言模型"或LLM的开发--使这些领域得到了新的重视。Google已经开始将这些语言模型整合到Google搜索等产品中。但语言模型有许多缺陷，包括倾向于转述有害的社会偏见，如种族主义和仇外心理，以及无法以人类的敏感性来解析语言。在自己的研究人员发表了概述这些问题的论文后，Google自己也臭名昭著地解雇了他们。不过，这些模型能够完成许多任务，从语言生成（如OpenAI的GPT-3）到翻译（见Meta的"不遗漏语言"工作）。Google的"1000种语言计划"并不专注于任何特定的功能，而是要创建一个具有世界上各种语言的巨大知识广度的单一系统。Google人工智能研究副总裁ZoubinGhahramani说，该公司认为，创建一个如此规模的模型将使其更容易将各种人工智能功能带到在线空间和人工智能训练数据集中表现不佳的语言（也被称为"低资源语言"）。"语言就像生物体，它们是相互演化而来的，它们有某些相似之处。通过让一个单一的模型接触并训练许多不同的语言，我们在低资源语言上得到更好的表现，"Ghahramani说。"我们达到1000种语言的方法不是通过建立1000种不同的模型。语言就像生物体，它们是相互进化的，它们有某些相似之处。而且，当我们将一种新语言的数据纳入我们的1000种语言模型，并获得将[它所学到的东西]从一种高资源语言转化为低资源语言的能力时，我们可以在我们所谓的零点学习中找到一些相当惊人的进展。"过去的研究显示了这种方法的有效性，而Google计划中的模型的规模可以提供比过去的工作更多的收益。这种大规模的项目已经成为科技公司主导人工智能研究雄心的典型，并利用了这些公司在获得大量计算能力和训练数据方面的独特优势。一个类似的项目是Facebook母公司Meta正在尝试建立一个"通用语音翻译器"。Google表示，为了支持1000种语言模型的工作，它将资助收集低资源语言的数据，包括音频记录和书面文本。该公司表示，它没有直接计划在哪里应用这个模型的功能--只是预计它将在Google的产品中具有一系列用途，从Google翻译到YouTube字幕等等。"同样的语言模型可以将机器人的命令变成代码；它可以解决数学问题；它也可以进行翻译。关于大型语言模型和一般的语言研究，真正有趣的事情之一是它们可以做很多很多不同的任务，"Ghahramani说。"语言模型真正有趣的地方在于它们正在成为大量知识的储存库，通过以不同的方式探测它们，你可以获得不同的有用功能。"Google在一个新的人工智能产品展示会上宣布了1000种语言模型。该公司还分享了关于文本到视频模型的新研究，一个名为Wordcraft的人工智能写作助手原型，以及对其人工智能测试厨房应用程序的更新，该应用程序允许用户有限地访问正在开发的人工智能模型，如其文本到图像模型Imagen。...PC版：https://www.cnbeta.com.tw/articles/soft/1331651.htm手机版：https://m.cnbeta.com.tw/view/1331651.htm

谷歌的 1000 种语言的人工智能模型迈出关键一步

谷歌的1000种语言的人工智能模型迈出关键一步去年11月，谷歌宣布其计划创建一个支持世界上1000种最常用语言的语言模型，同时还披露了其通用语音模型（USM）。周一，谷歌披露了USM的更多信息，称其是创建该语言模型迈出的“关键性的第一步”。谷歌将USM描述为“一个最先进的语音模型系列”，它有20亿个参数，经过了1200万小时的语音和超过300种语言的280亿个句子的训练。USM已经被YouTube用来生成封闭式字幕，支持超过100种语言，并将作为基础来建立一个更加广泛的系统。来源，来自：雷锋频道：@kejiqu群组：@kejiquchat投稿：@kejiqubot

Roblox借助LLM语言模型发布实时人工智能聊天翻译器

Roblox借助LLM语言模型发布实时人工智能聊天翻译器Roblox首席技术官丹-斯特曼（DanSturman）说，该翻译器的目标是让Roblox用户更容易理解对方在说什么，从而让他们在相互交流时感觉更舒适。翻译器会自动翻译聊天内容，但用户可以点击图标查看原始信息。"我们知道，当用户用自己的语言与他人交谈或互动时，参与度就会提高，"Sturman说。"我们借鉴了这一理念，并通过自动翻译消除了语言障碍。"Roblox首先建立了一个基于转换器的大型语言模型(LLM)，该模型通过公开数据和内部数据进行训练。它将LLM置于一个专家混合（MoE）架构中，这是一个运行多个翻译应用程序的环境，每个应用程序都是一种语言的专家。Sturman说，考虑到他们项目的规模，他的团队认为建立自己的模型比修改现成的LLM更容易。斯图尔曼说，Roblox会监控聊天内容（出于信任和安全考虑），如果翻译不尽完美，可以得到反馈。他补充说，增加聊天翻译人工智能"不会改变我们的隐私和安全流程，违禁词语仍会被屏蔽"。Roblox在过去几年中一直在努力吸引较为年长的用户，并一直在使用生成式人工智能模型来增强用户体验。去年，它为开发者推出了一款人工智能聊天机器人助手，还能自动将图像资产（如建筑物上的文字）翻译成用户的默认语言。斯图尔曼希望翻译模式最终能超越单纯的文本聊天翻译。"未来，我们可以使用人工智能将不合规的[违禁]词语翻译成合规词语，或者将其用于语音聊天的实时语音翻译，还有很多可能性。"其他公司也在开发人工智能翻译模型。Meta发布了语音到文本和文本到文本的翻译器SeamlessM4T，可处理近100种语言。Google的通用语音模型也能翻译约100种语言，并已部署在YouTube上翻译字幕。...PC版：https://www.cnbeta.com.tw/articles/soft/1416349.htm手机版：https://m.cnbeta.com.tw/view/1416349.htm

Google研究团队宣布AudioPaLM：一个能说能听的大型语言模型

Google研究团队宣布AudioPaLM：一个能说能听的大型语言模型除了文本生成外，还开发了像CLIP（对比性语言图像预训练）这样的模型，用于图像生成，使得可以根据图像的内容生成文本。为了在音频生成和理解方面取得进展，Google的研究团队推出了AudioPaLM，这是一个大型语言模型，可以处理语音理解和生成任务。AudioPaLM结合了两个现有模型的优势，即PaLM-2模型和AudioLM模型，以产生一个统一的多模态架构，能够处理和生成文本和语音。这使得AudioPaLM可以处理各种应用，从语音识别到语音转文字。虽然AudioLM在保持诸如说话者身份和语气信息方面表现出色，而以文本为基础的语言模型PaLM-2则专注于特定于文本的语言知识。通过结合这两个模型，AudioPaLM利用了PaLM-2的语言专业知识和AudioLM的附加语言信息保存能力，从而更全面地理解和生成文本和语音。AudioPaLM使用一个联合词汇表，可以使用有限数量的离散标记表示语音和文本。将这个联合词汇表与标记化的任务描述相结合，可以在各种声音和基于文本的任务上训练单个解码器模型。传统上需要单独模型来处理的语音识别、文本转语音合成和语音到语音翻译等任务现在可以统一到一个架构和训练过程中。经过评估，AudioPaLM在语音翻译方面的表现明显优于现有系统。它展示了对语言组合执行零样本语音到文本翻译的能力，也就是说，它可以准确地将从未遇到过的语言的语音翻译成文本，为更广泛的语言支持开辟了可能性。AudioPaLM还可以基于简短的口语提示在语言之间进行声音转换，并能捕捉并重现不同语言中的独特声音，实现语音转换和适应。团队提到的AudioPaLM主要贡献包括：AudioPaLM利用了文本预训练模型PaLM和PaLM-2的功能。在自动语音翻译和语音到语音翻译基准测试中取得了最先进的结果，并在自动语音识别基准测试中具有竞争力的表现。该模型通过语音转换来进行声音转换，超越了现有方法在语音质量和声音保留方面的表现。AudioPaLM通过使用未见过的语言组合进行自动语音翻译，展示了零样本功能。总而言之，AudioPaLM是一个统一的大型语言模型，通过利用基于文本的语言模型的能力和整合音频提示技术，可以同时处理语音和文本，成为LLM列表中强有力的补充。AudioPaLMHuggingFace页面：https://huggingface.co/papers/2306.12925...PC版：https://www.cnbeta.com.tw/articles/soft/1367209.htm手机版：https://m.cnbeta.com.tw/view/1367209.htm

人工智能公司正在转向“小型”语言模型以获利

人工智能公司正在转向“小型”语言模型以获利投入数十亿美元构建所谓的大型语言模型以推动生成式人工智能产品的人工智能公司，现在正寄望于一种新的收入增长方式：小型语言模型。苹果、微软、Meta和谷歌最近都发布了新的人工智能模型，这些模型的“参数”较少，但功能仍然强大。通常来说，参数的数量越多，人工智能软件的性能就越好，能处理的任务也就越复杂和微妙。本周公布的OpenAI的最新模型GPT-4o和谷歌的Gemini1.5Pro，据估计都拥有超过1万亿个参数。而Meta正在训练其开源Llama模型的4000亿参数版本。除了努力说服一些企业客户支付运行生成式人工智能产品所需的大额费用外，对数据和版权责任的担忧也阻碍了其广泛应用。这促使像Meta和谷歌这样的科技集团推出只有几十亿参数的小型语言模型，作为更经济、更节能、可定制的替代方案，这些模型在训练和运行时所需的电力更少，同时还能保护敏感数据。——

Google Translate新增支持110种语言，覆盖6.14亿人口

GoogleTranslate新增支持110种语言，覆盖6.14亿人口Google宣布其翻译服务新增支持110种语言，并使用PaLM2AI模型进行翻译。这些语言包括阿法尔语、粤语、马恩岛语、Nko语、旁遮普语（沙姆奇）、塔马齐格特语（阿马齐格）和TokPisin等。新增语言覆盖6.14亿人口，占全球人口的约8%。Google表示这些语言有些拥有超过一亿的使用者，而有些则几乎没有活跃使用者，人们正在努力保护这些语言。Google在新增语言时考虑了区域变体、方言和不同的拼写标准。此次新增是Google计划通过AI支持1000种语言的一部分，该计划于2022年宣布。同年，Google新增了支持超过三亿人使用的24种语言。目前，GoogleTranslate共支持243种语言。相比之下，Apple的翻译应用仅支持20多种语言。关注频道@ZaiHuaPd频道爆料@ZaiHuabot

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人