OpenAI公布其语音生成模型:

OpenAI公布其语音生成模型: 根据文本输入和一个15秒的音频样本,就能生成接近原始说话者声音的自然听起来的语音。 Voice Engine最初于2022年底开发,并已经提供给包括Heygen在内的少数公司进行测试性使用。 主要功能 1、自然听起来的语音生成:利用单个15秒的音频样本,Voice Engine能够创造出既情感丰富又真实的语音,显著提升合成语音的自然度和真实感。 2、支持多种用途:从教育援助、内容翻译、提高偏远地区服务质量,到支持非语言人士和帮助患者恢复声音,Voice Engine的应用场景广泛,跨越多个行业。 3、语言和口音的保留:在内容翻译时,Voice Engine能够保留原始发言者的本地口音,使得翻译后的语音不仅流利还能保持原声音的特色。 4、多语种支持:能够生成多种语言的语音输出,适应全球化需求,特别是对于需要将内容本地化到不同语言市场的企业和内容创作者来说,这一特点尤为重要。

相关推荐

封面图片

OpenAI公布其语音生成模型:Voice Engine

OpenAI公布其语音生成模型:Voice Engine 根据文本输入和一个15秒的音频样本,就能生成接近原始说话者声音的自然听起来的语音。 主要功能 1、自然听起来的语音生成:利用单个15秒的音频样本,Voice Engine能够创造出既情感丰富又真实的语音,显著提升合成语音的自然度和真实感。 2、支持多种用途:从教育援助、内容翻译、提高偏远地区服务质量,到支持非语言人士和帮助患者恢复声音,Voice Engine的应用场景广泛,跨越多个行业。 3、语言和口音的保留:在内容翻译时,Voice Engine能够保留原始发言者的本地口音,使得翻译后的语音不仅流利还能保持原声音的特色。 4、多语种支持:能够生成多种语言的语音输出,适应全球化需求,特别是对于需要将内容本地化到不同语言市场的企业和内容创作者来说,这一特点尤为重要。

封面图片

OpenAI展示语音生成“武器库”:太强大以至于无法推广

OpenAI展示语音生成“武器库”:太强大以至于无法推广 OpenAI称,公司在2022年底就启动了Voice Engine的研发工作,并将它用作一些其他功能的预设语音。由于合成语音可能会被滥用,公司只在小范围内与开发人员分享了该模型,未来可能不会广泛推出这一功能。新闻稿写道,儿童教育技术公司Age of Learning正在使用这个模型来生成一些预先编写好的内容,并且还结合GPT-4 创建实时的响应来与学生互动。在案例中,OpenAI放出了一段英语男声和西班牙语女声的样本音频,并用两段音频各生成了讲解知识的语音。另外,数字人视频生成初创公司HeyGen也采用了这项技术。HeyGen可以根据内容创建定制的数字人化身,而Voice Engine可以将样本的声音转换成多种其他语言,来帮助产品营销到销售演示。新闻稿提到,在转换语言时,Voice Engine会保留原始说话者的母语口音,例如样本中的人使用的是法语,那么生成的英语将带有法国口音。本周早些时候,有消息称HeyGen正在进行新一轮融资,投前估值达到4.4亿美元。除此以外,OpenAI还展示了生成较小语系和孤立语系声音的能力,以帮助落后地区的社区卫生工作者;同时还与神经科学研究所探索AI在临床环境中的应用,比如帮助语言障碍者等用途。“太强大了导致无法推广”OpenAI写道,“我们认识到,生成声音的功能存在严重风险,这一点在大选年尤为突出。我们正在与来自政府、媒体、娱乐、教育等领域的国际合作伙伴合作,以确保我们在建设过程中吸收他们的反馈。 ”OpenAI产品负责人Jeff Harris告诉媒体,“如果你能正确地设置音频,基本上就能生成人类口径的声音,这是一种相当令人印象深刻的技术。”但Harris提到,准确模仿人类语音的能力确实存在安全隐患。今年1月,美国就出现“AI拜登”事件,由AI生成的“假拜登”在电话中用逼真的声音鼓励可能支持民主党的5000位选民在新罕布什尔州初选中不要投票。本月早些时候,拜登呼吁国会通过立法来监管AI,包括禁止“AI语音模仿”等。在测试计划中,OpenAI要求其合作伙伴遵守其制定的使用政策:在使用语音样本之前要征得声音主人的同意,并明确告诉听众声音是AI生成的。该公司还在安装一种听不见的音频水印,以区分音频是否是由其工具创建的。OpenAI写道,“无论我们最终是否会广泛部署这项技术,让全球各地的人们了解这个发展方向都是非常重要的。” ... PC版: 手机版:

封面图片

OpenAI 的语音克隆人工智能模型只需要15秒的样本即可工作

OpenAI 的语音克隆人工智能模型只需要15秒的样本即可工作 人工智能公司 OpenAI 正在提供对其开发的文本转语音生成平台 Voice Engine 的有限访问权限,该平台可以根据某人15秒的声音片段创建合成声音。人工智能生成的语音可以根据命令以与说话者相同的语言或其他多种语言读出文本提示。OpenAI 在其博客文章中表示:“这些小规模部署有助于我们了解方法、保障措施,并思考如何在各个行业中很好地利用 Voice Engine。”拥有访问权限的公司包括教育科技公司 Age of Learning、视觉叙事平台 HeyGen、一线健康软件制造商 Dimagi、人工智能通信应用创建者 Livox 和健康系统 Lifespan。 、

封面图片

3 月 30 日凌晨,OpenAI 在官网首次展示了全新自定义音频模型 “Voice Engine”。用户只需要提供 15 秒左

3 月 30 日凌晨,OpenAI 在官网首次展示了全新自定义音频模型 “Voice Engine”。用户只需要提供 15 秒左右的参考声音,通过 Voice Engine 就能生成几乎和原音一模一样的全新音频,在清晰度、语音连贯、音色、自然度等方面比市面上多数产品都强很多。除了能合成音频之外,OpenAI 还展示了 Voice Engine 很多其他际商业用途,例如,一位失去声音表达能力的女孩,在 Voice Engine 帮助下能像以前一样正常发音说话。 来源:财经慢报频道

封面图片

一个AI语音生成平台,可提供高质量的AI语音合成服务。

一个AI语音生成平台,可提供高质量的AI语音合成服务。 具有自然、专业的声音,支持100种语言。用户可以在创作中使用不同风格的声音,包括具有25+种情感表达的声音,还可以使用AI艺术生成器和AI写作功能。 LOVO已经获得50万+专业人士的支持,并拥有全球最大的声音库 AI Voice Generator: Best Text to Speech |

封面图片

OpenAI可能会推出Jarvis一样的个人助理 新商标Voice Engine信息汇总

OpenAI可能会推出Jarvis一样的个人助理 新商标Voice Engine信息汇总 尽管这是商标申请,但是Google前雇员透露的信息以及上个月泄露的OpenAI正在开发的Agent产品都似乎印证着OpenAI要做的事情:开发一个全球最强的个人助理,接管个人设备,以Jarvis那样的形式提供服务!Voice Engine商标内容Voice Engine是OpenAI最近提交一个商标名称,其内容主要包含了语音识别和语音合成相关的内容。这个商标背后可能提供的产品和服务涵盖了广泛的计算机软件和开发工具领域,特别是在语音和自然语言处理技术方面。具体来说,可能提供的产品和服务包括但不限于:自动语音识别和生成软件:用于自动识别和生成语音的软件,可能在虚拟助手、智能家居设备等场景中有广泛应用。基于自然语言提示生成语音和音频输出的软件:这类软件能够根据文本、语音、视觉提示、图像或视频生成语音和音频输出,可用于各种应用,如内容创作、教育、娱乐等。注意,这不是文本转语音,而是根据文本提示生成语音结果!数字语音助手开发工具:提供用于构建数字语音助手的软件和开发工具,有助于开发者创建智能交互应用。虽然是工具,但是显然这是可以用于开发个人助理的工具!响应用户提示生成音频或语音的软件:这类软件能够根据用户的提示生成相应的音频或语音输出,可能用于互动媒体、游戏或其他应用中。这个目前在ChatGPT客户端也有了,就是用语音响应用户输入。机器学习基础的自然语言和语音处理软件:涉及使用机器学习技术进行自然语言和语音的处理、识别和分析的软件。多语言语音识别、翻译和转录软件:支持多语言的语音识别、翻译和转录功能的软件,适用于国际化应用、内容创作等场景。应用程序接口(API)软件和软件开发套件(SDKs):提供可作为API使用的软件,可能支持开发者在各种应用和服务中集成语音和自然语言处理功能。综上所述,VOICE ENGINE™旨在为开发者和创新者提供一系列强大的工具和软件,以便在各种平台和设备上开发和集成先进的语音交互和自然语言处理功能。而这其中最令人关注的应该是下面的2个内容:一个是可以配合Sora视频生成的功能,为视频配音;另一个则是作为个人助理,支持语音交互!为Sora视频配音的语音生成功能传统的语音领域的模型主要方向包括2类:一个是语音合成,即Text to speech(TTS):将文本转成语音。另一个是自动语音识别(Auto Speech Recognition,ASR),即识别语音转成文本。但是,根据这个描述响应用户提示生成音频或语音的软件,这个能力应该是类似视频生成和图片生成那种,基于文本prompt,来生成相应的语音结果。例如,你可以给系统说,生成一段音乐或者一只老虎在野外和狮子战斗的声音。然后模型返回相应的语音结果。这不是一种文本转语音而是语音生成的能力。在最近爆火的OpenAI的Sora演示中(OpenAI最强的视频生成大模型: OpenAI发布全新文本生成视频大模型Sora,可以生成无比逼真的最长60秒的视频,且生成的视频尺寸可以任意指定),所有的视频都没有声音。OpenAI官方说目前他们还没有实现为生成的视频配音的功能。但是未来会支持。这意味着基于文本生成音频应该也是类似的技术了。与Agent传言互相印证:OpenAI的Jarvis产品在前面的商标描述中提到,OpenAI的Voice Engine可以提供响应用户提示生成音频或语音的软件。这几乎就是一个个人数字助理的形态,它不同于语音合成或者语音识别。而是根据用户的输入进行语音的响应。这意味着用户可以通过文本、语音来输入,然后服务直接用语音回复结果。从技术角度来说,传统的语音助理应该是先通过ASR识别用户的语音,然后转成文本,GPT再根据文本生成答案,再由TTS技术合成语音输出。这个分步系统最大的缺点就是时延以及准确性!三个步骤,每个步骤准确率90%,最终的回复准确率可能只有72.9%了!如果这是一个端到端的模型(符合OpenAI当前的技术趋势),那么时延和准确性都值得期待!此外,结合此前的传言说GPT可能要接入个人本地电脑系统,那作为一个个人助手完全是没问题的。同时,Google前雇员Jonathan Chavez在前段时间也发布过一个消息,他说OpenAI在今年会推出一个全球最好的个人助理产品,就像钢铁侠中的Jarvis。Jarvis除了需要有GPT-4那种强大的语言响应能力外,还有个重要的特点是语音的输入和输出。虽然在当前的ChatGPT客户端和网页版中已经实现了语音交互以及文本转语音的能力。但是,它本身是为了支撑ChatGPT的功能存在的,范围局限在ChatGPT的对话过程中。一旦如果像Jonathan Chavez所说是一个前所未有最强大的个人助理,那么意味着它可以帮助我们操作我们的电脑和手机,使用APP等。这个消息和上个月泄露的OpenAI正在做一个强大的AI Agent也有很大的相关性:OpenAI正在开发一个全新的基于大模型的Agent产品。在这个传言中,OpenAI做的事情描述如下:OpenAI正在开发的这个Agent形式的产品,通过有效地接管用户的设备来让复杂任务被自动执行。然后,用户可以请求ChatGPT将数据从文档转移到电子表格中进行分析,或自动填写费用报告并将其输入会计软件。这类请求将触发ChatGPT来执行点击、光标移动、文本输入以及人们在使用不同应用程序时进行的其他操作。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人