OpenAI展示语音生成“武器库”：太强大以至于无法推广

OpenAI展示语音生成“武器库”：太强大以至于无法推广 OpenAI称，公司在2022年底就启动了Voice Engine的研发工作，并将它用作一些其他功能的预设语音。由于合成语音可能会被滥用，公司只在小范围内与开发人员分享了该模型，未来可能不会广泛推出这一功能。新闻稿写道，儿童教育技术公司Age of Learning正在使用这个模型来生成一些预先编写好的内容，并且还结合GPT-4 创建实时的响应来与学生互动。在案例中，OpenAI放出了一段英语男声和西班牙语女声的样本音频，并用两段音频各生成了讲解知识的语音。另外，数字人视频生成初创公司HeyGen也采用了这项技术。HeyGen可以根据内容创建定制的数字人化身，而Voice Engine可以将样本的声音转换成多种其他语言，来帮助产品营销到销售演示。新闻稿提到，在转换语言时，Voice Engine会保留原始说话者的母语口音，例如样本中的人使用的是法语，那么生成的英语将带有法国口音。本周早些时候，有消息称HeyGen正在进行新一轮融资，投前估值达到4.4亿美元。除此以外，OpenAI还展示了生成较小语系和孤立语系声音的能力，以帮助落后地区的社区卫生工作者；同时还与神经科学研究所探索AI在临床环境中的应用，比如帮助语言障碍者等用途。“太强大了导致无法推广”OpenAI写道，“我们认识到，生成声音的功能存在严重风险，这一点在大选年尤为突出。我们正在与来自政府、媒体、娱乐、教育等领域的国际合作伙伴合作，以确保我们在建设过程中吸收他们的反馈。 ”OpenAI产品负责人Jeff Harris告诉媒体，“如果你能正确地设置音频，基本上就能生成人类口径的声音，这是一种相当令人印象深刻的技术。”但Harris提到，准确模仿人类语音的能力确实存在安全隐患。今年1月，美国就出现“AI拜登”事件，由AI生成的“假拜登”在电话中用逼真的声音鼓励可能支持民主党的5000位选民在新罕布什尔州初选中不要投票。本月早些时候，拜登呼吁国会通过立法来监管AI，包括禁止“AI语音模仿”等。在测试计划中，OpenAI要求其合作伙伴遵守其制定的使用政策：在使用语音样本之前要征得声音主人的同意，并明确告诉听众声音是AI生成的。该公司还在安装一种听不见的音频水印，以区分音频是否是由其工具创建的。OpenAI写道，“无论我们最终是否会广泛部署这项技术，让全球各地的人们了解这个发展方向都是非常重要的。” ... PC版：手机版：

在Telegram中查看

相关推荐

OpenAI公布其语音生成模型：

OpenAI公布其语音生成模型：根据文本输入和一个15秒的音频样本，就能生成接近原始说话者声音的自然听起来的语音。 Voice Engine最初于2022年底开发，并已经提供给包括Heygen在内的少数公司进行测试性使用。主要功能 1、自然听起来的语音生成：利用单个15秒的音频样本，Voice Engine能够创造出既情感丰富又真实的语音，显著提升合成语音的自然度和真实感。 2、支持多种用途：从教育援助、内容翻译、提高偏远地区服务质量，到支持非语言人士和帮助患者恢复声音，Voice Engine的应用场景广泛，跨越多个行业。 3、语言和口音的保留：在内容翻译时，Voice Engine能够保留原始发言者的本地口音，使得翻译后的语音不仅流利还能保持原声音的特色。 4、多语种支持：能够生成多种语言的语音输出，适应全球化需求，特别是对于需要将内容本地化到不同语言市场的企业和内容创作者来说，这一特点尤为重要。

OpenAI公布其语音生成模型：Voice Engine

OpenAI公布其语音生成模型：Voice Engine 根据文本输入和一个15秒的音频样本，就能生成接近原始说话者声音的自然听起来的语音。主要功能 1、自然听起来的语音生成：利用单个15秒的音频样本，Voice Engine能够创造出既情感丰富又真实的语音，显著提升合成语音的自然度和真实感。 2、支持多种用途：从教育援助、内容翻译、提高偏远地区服务质量，到支持非语言人士和帮助患者恢复声音，Voice Engine的应用场景广泛，跨越多个行业。 3、语言和口音的保留：在内容翻译时，Voice Engine能够保留原始发言者的本地口音，使得翻译后的语音不仅流利还能保持原声音的特色。 4、多语种支持：能够生成多种语言的语音输出，适应全球化需求，特别是对于需要将内容本地化到不同语言市场的企业和内容创作者来说，这一特点尤为重要。

OpenAI 的语音克隆人工智能模型只需要15秒的样本即可工作

OpenAI 的语音克隆人工智能模型只需要15秒的样本即可工作人工智能公司 OpenAI 正在提供对其开发的文本转语音生成平台 Voice Engine 的有限访问权限，该平台可以根据某人15秒的声音片段创建合成声音。人工智能生成的语音可以根据命令以与说话者相同的语言或其他多种语言读出文本提示。OpenAI 在其博客文章中表示：“这些小规模部署有助于我们了解方法、保障措施，并思考如何在各个行业中很好地利用 Voice Engine。”拥有访问权限的公司包括教育科技公司 Age of Learning、视觉叙事平台 HeyGen、一线健康软件制造商 Dimagi、人工智能通信应用创建者 Livox 和健康系统 Lifespan。、

3 月 30 日凌晨，OpenAI 在官网首次展示了全新自定义音频模型 “Voice Engine”。用户只需要提供 15 秒左

3 月 30 日凌晨，OpenAI 在官网首次展示了全新自定义音频模型 “Voice Engine”。用户只需要提供 15 秒左右的参考声音，通过 Voice Engine 就能生成几乎和原音一模一样的全新音频，在清晰度、语音连贯、音色、自然度等方面比市面上多数产品都强很多。除了能合成音频之外，OpenAI 还展示了 Voice Engine 很多其他际商业用途，例如，一位失去声音表达能力的女孩，在 Voice Engine 帮助下能像以前一样正常发音说话。来源：财经慢报频道

OpenAI展示新音频工具可朗读文本并模仿声音

OpenAI展示新音频工具可朗读文本并模仿声音 OpenAI的发言人说该公司在收到政策制定者、行业专家、教育工作者和创意人士等利益相关方的反馈后决定缩减发布规模。据早前的新闻发布会介绍，该公司原本计划通过申请流程向多达100家开发商发布该工具。其他AI技术已经在某些情境下被用来伪造声音。今年1月，一通自称乔·拜登（Joe Biden）总统打来的以假乱真的电话呼吁新罕布什尔州居民不要在初选中投票，这一事件在全球关键选举前加剧了对AI的恐惧。与OpenAI过去生成音频的功能不同，语音引擎可以创建听起来像具体个人的声音，并完整呈现特有的语调和语气。该软件只需要一段15秒的录音，即可重现一个人的声音。“只要音频设置得当，基本就能得出人类水准的声音。”OpenAI产品负责人杰夫·哈里斯（Jeff Harris）说，“这种技术质量非常了不起。”但哈里斯也表示，“准确模仿人类语音的能力显然存在很多安全上的不确定性。”非营利性医疗系统Lifespan旗下的Norman Prince Neurosciences Institute是OpenAI目前的开发合作伙伴之一，该机构正在利用此项技术帮助患者恢复声音。例如，据OpenAI的博客文章，该工具被用于恢复一位因脑瘤失去清晰说话能力的年轻患者的声音，方法是复制她此前为一个学校项目录制的发言。OpenAI的自定义语音模型还可将生成的音频翻译成不同语言。这对于音频行业公司非常有用，比如Spotify Technology SA。Spotify已经在自己的试点计划中利用该技术来翻译莱克斯·弗里德曼（Lex Fridman）等热门主持人的播客节目。OpenAI还宣传了该技术的其他有益应用，例如为儿童教育内容创建更多样化的声音。在测试计划中，OpenAI要求合作伙伴同意其使用政策，即在使用原始声音前征得声音主人的同意，并告知听众他们听到的是AI生成的声音。该公司还加入了听不见的音频水印，以判断哪些音频由其工具创建。OpenAI表示在决定是否大范围发布该功能前，正在征求外部专家的反馈。该公司在博文中表示：“让全球人民了解这项技术的发展方向至关重要，不论我们最终是否亲自广泛部署它。”OpenAI还写道，希望其软件的试用能“激发增强社会韧性的需求”，以应对更先进的AI技术带来的挑战。例如，该公司呼吁银行逐步停止将语音身份验证作为访问银行账户和敏感信息的安全措施。它还寻求开展公众教育，帮助大家了解欺骗性的AI内容，并开发更多技术来检测音频内容是否由AI生成。 ... PC版：手机版：

OpenAI展示语音克隆人工智能模型只需15秒样本即可工作

OpenAI展示语音克隆人工智能模型只需15秒样本即可工作可以访问的公司包括教育技术公司 Age of Learning、视觉故事平台 HeyGen、前线健康软件制造商 Dimagi、人工智能通信应用开发商 Livox 和健康系统 Lifespan。在 OpenAI 发布的这些样本中，你可以听到Age of Learning利用该技术生成预制画外音内容，以及向学生朗读由 GPT-4 撰写的 "实时、个性化回复"。首先是英文参考音频：下面是人工智能根据该样本生成的三个音频片段：OpenAI 表示，它于 2022 年底开始开发语音引擎，该技术已经为文本到语音 API 和ChatGPT 的朗读功能提供了预设语音。OpenAI 语音引擎产品团队成员杰夫-哈里斯（Jeff Harris）在接受TechCrunch 采访时表示，该模型是在 "授权数据和公开数据的混合 "基础上训练出来的。OpenAI 告诉该刊物，该模型将只向大约 10 名开发者开放。人工智能文本到音频生成是生成式人工智能的一个不断发展的领域。虽然大多数人都专注于乐器或自然声音，但专注于语音生成的人较少，部分原因是 OpenAI 提出的问题。该领域的一些知名公司包括 Podcastle 和 ElevenLabs，它们提供人工智能语音克隆技术和工具。与此同时，美国政府也在努力遏制不道德地使用人工智能语音技术。上个月，美国联邦通信委员会禁止了使用人工智能语音的自动拨叫电话，因为人们收到了由人工智能克隆的乔-拜登总统的声音打来的垃圾电话。据 OpenAI 称，其合作伙伴同意遵守其使用政策，即未经同意不得使用语音生成技术冒充他人或组织。该政策还要求合作伙伴获得原始发言人的 "明确和知情同意"，不建立个人用户创建自己声音的方法，并向听众披露声音是人工智能生成的。OpenAI 还为音频片段添加了水印，以追踪其来源，并积极监控音频的使用情况。OpenAI 提出了几项措施，认为这些措施可以限制类似工具的风险，包括逐步淘汰访问银行账户的语音认证，制定政策保护人工智能中对人声的使用，加强人工智能深度伪造方面的教育，以及开发人工智能内容跟踪系统。了解更多： ... PC版：手机版：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人