play.ht:这个项目可以从20秒的音频中快速生成克隆语音,并自动转换为英语。即便你不会说英语,也可以通过语音克隆的方式,立刻

:这个项目可以从20秒的音频中快速生成克隆语音,并自动转换为英语。即便你不会说英语,也可以通过语音克隆的方式,立刻说出一口流利的英语。这里的技术采用了一个名为Parrot的模型,它能从几秒的音频克隆出声音,并基于文本,重新生成一段富有情感的语音。目前该模型只支持英语,不过技术团队已经在开始尝试支持更多语言。克隆声音的数据样本主要分两种:高保真(20分钟)和零样本(20秒),给的音频样本时间越长,其精度就更佳。未来,该工具将被应用到各类数字内容创作(如游戏、媒体、在线教育)等平台。

相关推荐

封面图片

OpenAI 发布"语音引擎"模型

OpenAI发布"语音引擎"模型VoiceEngine模型使用文本输入和单个15秒音频样本来生成与原始说话者非常相似的自然语音,小样本即可创建情感丰富且逼真的声音。该模型于2022年底首次开发,正在支持ChatGPT语音朗读和文本转语音API,已被HeyGen等企业用户采用。由于合成语音的滥用风险,VoiceEngine每段音频都有用于跟踪的隐水印,并且OpenAI暂不打算广泛部署和允许个人声音克隆,直到公众意识到深度伪造的挑战。线索:@ZaiHuabot投稿:@TNSubmbot频道:@TestFlightCN

封面图片

一款适用于中文语音克隆的工具:GPT-SoVITS

一款适用于中文语音克隆的工具:GPT-SoVITS仅需提供5秒语音样本即可体验达到80%~95%像的声音克隆。若提供1分钟语音样本可以逼近真人的效果,且训练出高质量的TTS模型!目前已获得1.1kStar,看到很多人对其评价为目前最强中文语音克隆工具。值得大家一试,Windows用户可直接开箱使用。https://github.com/RVC-Boss/GPT-SoVITS频道:@kejiqu群组:@kejiquchat

封面图片

OpenAI 的语音克隆人工智能模型只需要15秒的样本即可工作

OpenAI的语音克隆人工智能模型只需要15秒的样本即可工作人工智能公司OpenAI正在提供对其开发的文本转语音生成平台VoiceEngine的有限访问权限,该平台可以根据某人15秒的声音片段创建合成声音。人工智能生成的语音可以根据命令以与说话者相同的语言或其他多种语言读出文本提示。OpenAI在其博客文章中表示:“这些小规模部署有助于我们了解方法、保障措施,并思考如何在各个行业中很好地利用VoiceEngine。”拥有访问权限的公司包括教育科技公司AgeofLearning、视觉叙事平台HeyGen、一线健康软件制造商Dimagi、人工智能通信应用创建者Livox和健康系统Lifespan。——、

封面图片

penAI公布其语音生成模型:Voice Engine

OpenAI公布其语音生成模型:VoiceEngine根据文本输入和一个15秒的音频样本,就能生成接近原始说话者声音的自然听起来的语音。主要功能1、自然听起来的语音生成:利用单个15秒的音频样本,VoiceEngine能够创造出既情感丰富又真实的语音,显著提升合成语音的自然度和真实感。2、支持多种用途:从教育援助、内容翻译、提高偏远地区服务质量,到支持非语言人士和帮助患者恢复声音,VoiceEngine的应用场景广泛,跨越多个行业。3、语言和口音的保留:在内容翻译时,VoiceEngine能够保留原始发言者的本地口音,使得翻译后的语音不仅流利还能保持原声音的特色。4、多语种支持:能够生成多种语言的语音输出,适应全球化需求,特别是对于需要将内容本地化到不同语言市场的企业和内容创作者来说,这一特点尤为重要。

封面图片

OpenAI公布其语音生成模型:Voice Engine

OpenAI公布其语音生成模型:根据文本输入和一个15秒的音频样本,就能生成接近原始说话者声音的自然听起来的语音。VoiceEngine最初于2022年底开发,并已经提供给包括Heygen在内的少数公司进行测试性使用。主要功能1、自然听起来的语音生成:利用单个15秒的音频样本,VoiceEngine能够创造出既情感丰富又真实的语音,显著提升合成语音的自然度和真实感。2、支持多种用途:从教育援助、内容翻译、提高偏远地区服务质量,到支持非语言人士和帮助患者恢复声音,VoiceEngine的应用场景广泛,跨越多个行业。3、语言和口音的保留:在内容翻译时,VoiceEngine能够保留原始发言者的本地口音,使得翻译后的语音不仅流利还能保持原声音的特色。4、多语种支持:能够生成多种语言的语音输出,适应全球化需求,特别是对于需要将内容本地化到不同语言市场的企业和内容创作者来说,这一特点尤为重要。

封面图片

Spotify 测试 AI 新功能:克隆播客主播的声音并将其翻译成其它语言

Spotify测试AI新功能:克隆播客主播的声音并将其翻译成其它语言Spotify正在测试一项新的人工智能功能,该功能名为“语音翻译(VoiceTranslation)”,该功能可以克隆播客主播的声音,并用该声音使用另一种语言读出播客。该工具由Spotify在OpenAI的自动语音识别(ASR)系统Whisper的帮助下开发的,使用了语音转文本生成AI模型来翻译音频文件,并使用语音复制模型来匹配原始说话者的风格。——、

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人