OpenAI展示语音生成“武器库”：太强大以至于无法推广

OpenAI展示语音生成“武器库”：太强大以至于无法推广OpenAI称，公司在2022年底就启动了VoiceEngine的研发工作，并将它用作一些其他功能的预设语音。由于合成语音可能会被滥用，公司只在小范围内与开发人员分享了该模型，未来可能不会广泛推出这一功能。新闻稿写道，儿童教育技术公司AgeofLearning正在使用这个模型来生成一些预先编写好的内容，并且还结合GPT-4创建实时的响应来与学生互动。在案例中，OpenAI放出了一段英语男声和西班牙语女声的样本音频，并用两段音频各生成了讲解知识的语音。另外，数字人视频生成初创公司HeyGen也采用了这项技术。HeyGen可以根据内容创建定制的数字人化身，而VoiceEngine可以将样本的声音转换成多种其他语言，来帮助产品营销到销售演示。新闻稿提到，在转换语言时，VoiceEngine会保留原始说话者的母语口音，例如样本中的人使用的是法语，那么生成的英语将带有法国口音。本周早些时候，有消息称HeyGen正在进行新一轮融资，投前估值达到4.4亿美元。除此以外，OpenAI还展示了生成较小语系和孤立语系声音的能力，以帮助落后地区的社区卫生工作者；同时还与神经科学研究所探索AI在临床环境中的应用，比如帮助语言障碍者等用途。“太强大了导致无法推广”OpenAI写道，“我们认识到，生成声音的功能存在严重风险，这一点在大选年尤为突出。我们正在与来自政府、媒体、娱乐、教育等领域的国际合作伙伴合作，以确保我们在建设过程中吸收他们的反馈。”OpenAI产品负责人JeffHarris告诉媒体，“如果你能正确地设置音频，基本上就能生成人类口径的声音，这是一种相当令人印象深刻的技术。”但Harris提到，准确模仿人类语音的能力确实存在安全隐患。今年1月，美国就出现“AI拜登”事件，由AI生成的“假拜登”在电话中用逼真的声音鼓励可能支持民主党的5000位选民在新罕布什尔州初选中不要投票。本月早些时候，拜登呼吁国会通过立法来监管AI，包括禁止“AI语音模仿”等。在测试计划中，OpenAI要求其合作伙伴遵守其制定的使用政策：在使用语音样本之前要征得声音主人的同意，并明确告诉听众声音是AI生成的。该公司还在安装一种听不见的音频水印，以区分音频是否是由其工具创建的。OpenAI写道，“无论我们最终是否会广泛部署这项技术，让全球各地的人们了解这个发展方向都是非常重要的。”...PC版：https://www.cnbeta.com.tw/articles/soft/1425570.htm手机版：https://m.cnbeta.com.tw/view/1425570.htm

在Telegram中查看

相关推荐

OpenAI公布其语音生成模型：Voice Engine

OpenAI公布其语音生成模型：根据文本输入和一个15秒的音频样本，就能生成接近原始说话者声音的自然听起来的语音。VoiceEngine最初于2022年底开发，并已经提供给包括Heygen在内的少数公司进行测试性使用。主要功能1、自然听起来的语音生成：利用单个15秒的音频样本，VoiceEngine能够创造出既情感丰富又真实的语音，显著提升合成语音的自然度和真实感。2、支持多种用途：从教育援助、内容翻译、提高偏远地区服务质量，到支持非语言人士和帮助患者恢复声音，VoiceEngine的应用场景广泛，跨越多个行业。3、语言和口音的保留：在内容翻译时，VoiceEngine能够保留原始发言者的本地口音，使得翻译后的语音不仅流利还能保持原声音的特色。4、多语种支持：能够生成多种语言的语音输出，适应全球化需求，特别是对于需要将内容本地化到不同语言市场的企业和内容创作者来说，这一特点尤为重要。

OpenAI 发布"语音引擎"模型

OpenAI发布"语音引擎"模型VoiceEngine模型使用文本输入和单个15秒音频样本来生成与原始说话者非常相似的自然语音，小样本即可创建情感丰富且逼真的声音。该模型于2022年底首次开发，正在支持ChatGPT语音朗读和文本转语音API，已被HeyGen等企业用户采用。由于合成语音的滥用风险，VoiceEngine每段音频都有用于跟踪的隐水印，并且OpenAI暂不打算广泛部署和允许个人声音克隆，直到公众意识到深度伪造的挑战。线索：@ZaiHuabot投稿：@TNSubmbot频道：@TestFlightCN

OpenAI展示新音频工具可朗读文本并模仿声音

OpenAI展示新音频工具可朗读文本并模仿声音OpenAI的发言人说该公司在收到政策制定者、行业专家、教育工作者和创意人士等利益相关方的反馈后决定缩减发布规模。据早前的新闻发布会介绍，该公司原本计划通过申请流程向多达100家开发商发布该工具。其他AI技术已经在某些情境下被用来伪造声音。今年1月，一通自称乔·拜登（JoeBiden）总统打来的以假乱真的电话呼吁新罕布什尔州居民不要在初选中投票，这一事件在全球关键选举前加剧了对AI的恐惧。与OpenAI过去生成音频的功能不同，语音引擎可以创建听起来像具体个人的声音，并完整呈现特有的语调和语气。该软件只需要一段15秒的录音，即可重现一个人的声音。“只要音频设置得当，基本就能得出人类水准的声音。”OpenAI产品负责人杰夫·哈里斯（JeffHarris）说，“这种技术质量非常了不起。”但哈里斯也表示，“准确模仿人类语音的能力显然存在很多安全上的不确定性。”非营利性医疗系统Lifespan旗下的NormanPrinceNeurosciencesInstitute是OpenAI目前的开发合作伙伴之一，该机构正在利用此项技术帮助患者恢复声音。例如，据OpenAI的博客文章，该工具被用于恢复一位因脑瘤失去清晰说话能力的年轻患者的声音，方法是复制她此前为一个学校项目录制的发言。OpenAI的自定义语音模型还可将生成的音频翻译成不同语言。这对于音频行业公司非常有用，比如SpotifyTechnologySA。Spotify已经在自己的试点计划中利用该技术来翻译莱克斯·弗里德曼（LexFridman）等热门主持人的播客节目。OpenAI还宣传了该技术的其他有益应用，例如为儿童教育内容创建更多样化的声音。在测试计划中，OpenAI要求合作伙伴同意其使用政策，即在使用原始声音前征得声音主人的同意，并告知听众他们听到的是AI生成的声音。该公司还加入了听不见的音频水印，以判断哪些音频由其工具创建。OpenAI表示在决定是否大范围发布该功能前，正在征求外部专家的反馈。该公司在博文中表示：“让全球人民了解这项技术的发展方向至关重要，不论我们最终是否亲自广泛部署它。”OpenAI还写道，希望其软件的试用能“激发增强社会韧性的需求”，以应对更先进的AI技术带来的挑战。例如，该公司呼吁银行逐步停止将语音身份验证作为访问银行账户和敏感信息的安全措施。它还寻求开展公众教育，帮助大家了解欺骗性的AI内容，并开发更多技术来检测音频内容是否由AI生成。...PC版：https://www.cnbeta.com.tw/articles/soft/1425804.htm手机版：https://m.cnbeta.com.tw/view/1425804.htm

penAI公布其语音生成模型：Voice Engine

OpenAI公布其语音生成模型：VoiceEngine根据文本输入和一个15秒的音频样本，就能生成接近原始说话者声音的自然听起来的语音。主要功能1、自然听起来的语音生成：利用单个15秒的音频样本，VoiceEngine能够创造出既情感丰富又真实的语音，显著提升合成语音的自然度和真实感。2、支持多种用途：从教育援助、内容翻译、提高偏远地区服务质量，到支持非语言人士和帮助患者恢复声音，VoiceEngine的应用场景广泛，跨越多个行业。3、语言和口音的保留：在内容翻译时，VoiceEngine能够保留原始发言者的本地口音，使得翻译后的语音不仅流利还能保持原声音的特色。4、多语种支持：能够生成多种语言的语音输出，适应全球化需求，特别是对于需要将内容本地化到不同语言市场的企业和内容创作者来说，这一特点尤为重要。

OpenAI推出DALL-E 3 API和新版文本到语音模型

OpenAI推出DALL-E3API和新版文本到语音模型DALL-E3API提供不同的格式和质量选项，分辨率从1024×1024到1792×1024，每张生成图片的价格从0.04美元起。不过，与DALL-E2API相比，它的功能还有些有限--至少目前是这样。与DALL-E2API不同的是，DALL-E3不能用来创建编辑版本的图像，即让模型替换已有图像的某些区域或创建已有图像的变体。OpenAI表示，当生成请求被发送到DALL-E3时，它会"出于安全考虑"和"增加更多细节"而自动重写，这可能会导致不那么精确的结果，具体取决于提示。在其他方面，OpenAI现在提供了一个文本到语音API--AudioAPI，它提供了六种预设语音--Alloy、Echo、Fable、Onyx、Nova和Shimer--供用户选择，还提供了两种生成式AI模型变体。它从今天开始上线，每次输入1000个字符的价格为0.015美元。OpenAI的CEOSamAltman在台上说："这比我们听到的其他任何东西都要自然得多，这可以让应用程序的交互更自然，更易于使用。它还能解锁很多用例，比如语言学习和语音辅助。"与某些语音合成平台和工具不同的是，OpenAI并不提供控制所生成音频的情感影响的方法。在音频API的文档中，该公司指出，"某些因素"可能会影响生成的声音听起来如何，比如朗读文本中的大小写或语法，但OpenAI在这方面的内部测试结果"好坏参半"。OpenAI要求使用人工智能的开发者告知用户音频是由人工智能生成的。在一份相关的公告中，OpenAI推出了其开源自动语音识别模型Whisperlarge-v3的下一个版本，该公司声称该模型在各种语言中的性能都有所提高。该版本已在GitHub上发布，采用许可授权。...PC版：https://www.cnbeta.com.tw/articles/soft/1394933.htm手机版：https://m.cnbeta.com.tw/view/1394933.htm

play.ht：这个项目可以从20秒的音频中快速生成克隆语音，并自动转换为英语。即便你不会说英语，也可以通过语音克隆的方式，立刻

：这个项目可以从20秒的音频中快速生成克隆语音，并自动转换为英语。即便你不会说英语，也可以通过语音克隆的方式，立刻说出一口流利的英语。这里的技术采用了一个名为Parrot的模型，它能从几秒的音频克隆出声音，并基于文本，重新生成一段富有情感的语音。目前该模型只支持英语，不过技术团队已经在开始尝试支持更多语言。克隆声音的数据样本主要分两种：高保真（20分钟）和零样本（20秒），给的音频样本时间越长，其精度就更佳。未来，该工具将被应用到各类数字内容创作（如游戏、媒体、在线教育）等平台。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人