penAI公布其语音生成模型:Voice Engine

OpenAI公布其语音生成模型:VoiceEngine根据文本输入和一个15秒的音频样本,就能生成接近原始说话者声音的自然听起来的语音。主要功能1、自然听起来的语音生成:利用单个15秒的音频样本,VoiceEngine能够创造出既情感丰富又真实的语音,显著提升合成语音的自然度和真实感。2、支持多种用途:从教育援助、内容翻译、提高偏远地区服务质量,到支持非语言人士和帮助患者恢复声音,VoiceEngine的应用场景广泛,跨越多个行业。3、语言和口音的保留:在内容翻译时,VoiceEngine能够保留原始发言者的本地口音,使得翻译后的语音不仅流利还能保持原声音的特色。4、多语种支持:能够生成多种语言的语音输出,适应全球化需求,特别是对于需要将内容本地化到不同语言市场的企业和内容创作者来说,这一特点尤为重要。

相关推荐

封面图片

OpenAI公布其语音生成模型:Voice Engine

OpenAI公布其语音生成模型:根据文本输入和一个15秒的音频样本,就能生成接近原始说话者声音的自然听起来的语音。VoiceEngine最初于2022年底开发,并已经提供给包括Heygen在内的少数公司进行测试性使用。主要功能1、自然听起来的语音生成:利用单个15秒的音频样本,VoiceEngine能够创造出既情感丰富又真实的语音,显著提升合成语音的自然度和真实感。2、支持多种用途:从教育援助、内容翻译、提高偏远地区服务质量,到支持非语言人士和帮助患者恢复声音,VoiceEngine的应用场景广泛,跨越多个行业。3、语言和口音的保留:在内容翻译时,VoiceEngine能够保留原始发言者的本地口音,使得翻译后的语音不仅流利还能保持原声音的特色。4、多语种支持:能够生成多种语言的语音输出,适应全球化需求,特别是对于需要将内容本地化到不同语言市场的企业和内容创作者来说,这一特点尤为重要。

封面图片

OpenAI 首次展示音频模型 Voice Engine 15 秒即可复制原音

OpenAI首次展示音频模型VoiceEngine15秒即可复制原音3月30日凌晨,OpenAI在官网首次展示了全新自定义音频模型“VoiceEngine”。用户只需要提供15秒左右的参考声音,通过VoiceEngine就能生成几乎和原音一模一样的全新音频,在清晰度、语音连贯、音色、自然度等方面比市面上多数产品都强很多。除了能合成音频之外,OpenAI还展示了VoiceEngine很多其他际商业用途,例如,一位失去声音表达能力的女孩,在VoiceEngine帮助下能像以前一样正常发音说话。

封面图片

Seed-TTS,由字节跳动开发的几乎完美接近人类的文本到语音(TTS)模型。该模型能够生成高质量、几乎无法与人类声音区分的语音

Seed-TTS,由字节跳动开发的几乎完美接近人类的文本到语音(TTS)模型。该模型能够生成高质量、几乎无法与人类声音区分的语音。Seed-TTS在语音上下文学习方面表现出色,说话人相似性和自然度的表现都与真实人类语音相匹配目前还没有实际发布产品,只是论文和演示#TTS#AI#文本转语音链接:https://www.appmiu.com/newsflashes/23729.html

封面图片

OpenAI展示语音生成“武器库”:太强大以至于无法推广

OpenAI展示语音生成“武器库”:太强大以至于无法推广OpenAI称,公司在2022年底就启动了VoiceEngine的研发工作,并将它用作一些其他功能的预设语音。由于合成语音可能会被滥用,公司只在小范围内与开发人员分享了该模型,未来可能不会广泛推出这一功能。新闻稿写道,儿童教育技术公司AgeofLearning正在使用这个模型来生成一些预先编写好的内容,并且还结合GPT-4创建实时的响应来与学生互动。在案例中,OpenAI放出了一段英语男声和西班牙语女声的样本音频,并用两段音频各生成了讲解知识的语音。另外,数字人视频生成初创公司HeyGen也采用了这项技术。HeyGen可以根据内容创建定制的数字人化身,而VoiceEngine可以将样本的声音转换成多种其他语言,来帮助产品营销到销售演示。新闻稿提到,在转换语言时,VoiceEngine会保留原始说话者的母语口音,例如样本中的人使用的是法语,那么生成的英语将带有法国口音。本周早些时候,有消息称HeyGen正在进行新一轮融资,投前估值达到4.4亿美元。除此以外,OpenAI还展示了生成较小语系和孤立语系声音的能力,以帮助落后地区的社区卫生工作者;同时还与神经科学研究所探索AI在临床环境中的应用,比如帮助语言障碍者等用途。“太强大了导致无法推广”OpenAI写道,“我们认识到,生成声音的功能存在严重风险,这一点在大选年尤为突出。我们正在与来自政府、媒体、娱乐、教育等领域的国际合作伙伴合作,以确保我们在建设过程中吸收他们的反馈。”OpenAI产品负责人JeffHarris告诉媒体,“如果你能正确地设置音频,基本上就能生成人类口径的声音,这是一种相当令人印象深刻的技术。”但Harris提到,准确模仿人类语音的能力确实存在安全隐患。今年1月,美国就出现“AI拜登”事件,由AI生成的“假拜登”在电话中用逼真的声音鼓励可能支持民主党的5000位选民在新罕布什尔州初选中不要投票。本月早些时候,拜登呼吁国会通过立法来监管AI,包括禁止“AI语音模仿”等。在测试计划中,OpenAI要求其合作伙伴遵守其制定的使用政策:在使用语音样本之前要征得声音主人的同意,并明确告诉听众声音是AI生成的。该公司还在安装一种听不见的音频水印,以区分音频是否是由其工具创建的。OpenAI写道,“无论我们最终是否会广泛部署这项技术,让全球各地的人们了解这个发展方向都是非常重要的。”...PC版:https://www.cnbeta.com.tw/articles/soft/1425570.htm手机版:https://m.cnbeta.com.tw/view/1425570.htm

封面图片

利用生成AI来模拟人类的语音和唇部动作

利用生成AI来模拟人类的语音和唇部动作Metaphysic.ai公司展示了一种新的技术,利用生成AI来模拟人类的语音和唇部动作,创建看起来非常真实的语音和视频内容。这项技术可以将语音内容翻译成多种语言格式并保持唇形一致。而且这个过程是自动的,不需要人工参与。视频展示了他们将一段英语歌曲,转化为法语、西班牙语、中文等语言。来源,来自:雷锋频道:@kejiqu群组:@kejiquchat投稿:@kejiqubot

封面图片

OpenAI推出DALL-E 3 API和新版文本到语音模型

OpenAI推出DALL-E3API和新版文本到语音模型DALL-E3API提供不同的格式和质量选项,分辨率从1024×1024到1792×1024,每张生成图片的价格从0.04美元起。不过,与DALL-E2API相比,它的功能还有些有限--至少目前是这样。与DALL-E2API不同的是,DALL-E3不能用来创建编辑版本的图像,即让模型替换已有图像的某些区域或创建已有图像的变体。OpenAI表示,当生成请求被发送到DALL-E3时,它会"出于安全考虑"和"增加更多细节"而自动重写,这可能会导致不那么精确的结果,具体取决于提示。在其他方面,OpenAI现在提供了一个文本到语音API--AudioAPI,它提供了六种预设语音--Alloy、Echo、Fable、Onyx、Nova和Shimer--供用户选择,还提供了两种生成式AI模型变体。它从今天开始上线,每次输入1000个字符的价格为0.015美元。OpenAI的CEOSamAltman在台上说:"这比我们听到的其他任何东西都要自然得多,这可以让应用程序的交互更自然,更易于使用。它还能解锁很多用例,比如语言学习和语音辅助。"与某些语音合成平台和工具不同的是,OpenAI并不提供控制所生成音频的情感影响的方法。在音频API的文档中,该公司指出,"某些因素"可能会影响生成的声音听起来如何,比如朗读文本中的大小写或语法,但OpenAI在这方面的内部测试结果"好坏参半"。OpenAI要求使用人工智能的开发者告知用户音频是由人工智能生成的。在一份相关的公告中,OpenAI推出了其开源自动语音识别模型Whisperlarge-v3的下一个版本,该公司声称该模型在各种语言中的性能都有所提高。该版本已在GitHub上发布,采用许可授权。...PC版:https://www.cnbeta.com.tw/articles/soft/1394933.htm手机版:https://m.cnbeta.com.tw/view/1394933.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人