OpenAI 的语音克隆人工智能模型只需要15秒的样本即可工作

OpenAI的语音克隆人工智能模型只需要15秒的样本即可工作人工智能公司OpenAI正在提供对其开发的文本转语音生成平台VoiceEngine的有限访问权限，该平台可以根据某人15秒的声音片段创建合成声音。人工智能生成的语音可以根据命令以与说话者相同的语言或其他多种语言读出文本提示。OpenAI在其博客文章中表示：“这些小规模部署有助于我们了解方法、保障措施，并思考如何在各个行业中很好地利用VoiceEngine。”拥有访问权限的公司包括教育科技公司AgeofLearning、视觉叙事平台HeyGen、一线健康软件制造商Dimagi、人工智能通信应用创建者Livox和健康系统Lifespan。——、

在Telegram中查看

相关推荐

#OpenAI的语音克隆#人工智能模型只需要15秒的样本即可工作https://www.bannedbook.org/bnews

OpenAI 推出文本到视频人工智能模型 Sora

OpenAI推出文本到视频人工智能模型Sora根据OpenAI的介绍博文，Sora能够创建"具有多个角色、特定运动类型以及主体和背景准确细节的复杂场景"。该公司还指出，该模型能够理解物体"在物理世界中的存在方式"，还能"准确解释道具并生成表达生动情感的引人注目的角色"。该模型还能根据静态图像生成视频，以及在现有视频中填充缺失的帧或扩展视频。OpenAI的博文中包含的Sora生成的演示包括淘金热时期加利福尼亚州的空中场景、从东京火车内部拍摄的视频等。许多演示都有人工智能的痕迹--比如在一段博物馆的视频中，地板疑似在移动。OpenAI表示，该模型"可能难以准确模拟复杂场景的物理现象"，但总体而言，演示结果令人印象深刻。几年前，像Midjourney这样的文本到图像生成器在模型将文字转化为图像的能力方面处于领先地位。但最近，视频技术开始飞速进步：Runway和Pika等公司都展示了自己令人印象深刻的文字转视频模型，而Google的Lumiere也将成为OpenAI在这一领域的主要竞争对手之一。与Sora类似，Lumiere也为用户提供了文字转换视频的工具，还能让用户通过静态图像创建视频。Sora目前只对"红队"人员开放，他们负责评估模型的潜在危害和风险。OpenAI还向一些视觉艺术家、设计师和电影制片人提供访问权限，以获得反馈意见。它指出，现有模型可能无法准确模拟复杂场景的物理现象，也可能无法正确解释某些因果关系。本月早些时候，OpenAI宣布将在其文本到图像工具DALL-E3中添加水印，但指出这些水印"很容易去除"。与其他人工智能产品一样，OpenAI将不得不面对人工智能逼真视频被误认为是真实视频的后果。...PC版：https://www.cnbeta.com.tw/articles/soft/1418385.htm手机版：https://m.cnbeta.com.tw/view/1418385.htm

语音引擎可凭 15 秒样本复制原声

语音引擎可凭15秒样本复制原声据科技网站TheVerge报道，OpenAI公司3月29日最新推出了一项名为“语音引擎”（VoiceEngine）的人工智能工具，其仅凭一段15秒的声音样本，便能够精准模仿出该人的声音。更多详情→“语音引擎”可从15秒样本复制原声。OpenAI目前并未立即向市场全面推广，而是选择与少数早期测试者谨慎地合作，共同探索“语音引擎”的应用可能和潜在风险。（科技日报）

TikTok 正开发 AI 语音克隆功能，只需 10 秒即可复制你的音色

AssembleDebug发现TikTok正在开发一项新的AI功能，用户可以在几秒钟内让自己的声音出现在“TikTok语音库”中。TheSpAndroid对最新版本的TikTok 应用解包发现，这一功能目前还在开发中，具体发布时间尚无法确认，而且TikTok可能都没有给这一功能命名。用户只需录制一次创建自己的语音包，后续可以借助文本转语音功能在自己的TikTok 视频中使用。“只需10秒钟，即可将您的声音创建为AI版本！您可以在TikTok视频中使用文本转语音功能。”根据TikTok提示，用户需要阅读一段给定的文字并进行录音，但由于目前测试版中还没有实装，这一界面也没有对应的文本，此时就算按下录制按钮也会导致报错，因此目前基本没用。TikTok还采取了多种措施以确保用户的隐私安全问题。当然，用户可以随时将其创建的 AI语音删除，以防被他人盗用或用于他人的内容创作。标签:#TikTok#AI频道:@GodlyNews1投稿:@GodlyNewsBot

OpenAI 发布"语音引擎"模型

OpenAI发布"语音引擎"模型VoiceEngine模型使用文本输入和单个15秒音频样本来生成与原始说话者非常相似的自然语音，小样本即可创建情感丰富且逼真的声音。该模型于2022年底首次开发，正在支持ChatGPT语音朗读和文本转语音API，已被HeyGen等企业用户采用。由于合成语音的滥用风险，VoiceEngine每段音频都有用于跟踪的隐水印，并且OpenAI暂不打算广泛部署和允许个人声音克隆，直到公众意识到深度伪造的挑战。线索：@ZaiHuabot投稿：@TNSubmbot频道：@TestFlightCN

OpenAI推出DALL-E 3 API和新版文本到语音模型

OpenAI推出DALL-E3API和新版文本到语音模型DALL-E3API提供不同的格式和质量选项，分辨率从1024×1024到1792×1024，每张生成图片的价格从0.04美元起。不过，与DALL-E2API相比，它的功能还有些有限--至少目前是这样。与DALL-E2API不同的是，DALL-E3不能用来创建编辑版本的图像，即让模型替换已有图像的某些区域或创建已有图像的变体。OpenAI表示，当生成请求被发送到DALL-E3时，它会"出于安全考虑"和"增加更多细节"而自动重写，这可能会导致不那么精确的结果，具体取决于提示。在其他方面，OpenAI现在提供了一个文本到语音API--AudioAPI，它提供了六种预设语音--Alloy、Echo、Fable、Onyx、Nova和Shimer--供用户选择，还提供了两种生成式AI模型变体。它从今天开始上线，每次输入1000个字符的价格为0.015美元。OpenAI的CEOSamAltman在台上说："这比我们听到的其他任何东西都要自然得多，这可以让应用程序的交互更自然，更易于使用。它还能解锁很多用例，比如语言学习和语音辅助。"与某些语音合成平台和工具不同的是，OpenAI并不提供控制所生成音频的情感影响的方法。在音频API的文档中，该公司指出，"某些因素"可能会影响生成的声音听起来如何，比如朗读文本中的大小写或语法，但OpenAI在这方面的内部测试结果"好坏参半"。OpenAI要求使用人工智能的开发者告知用户音频是由人工智能生成的。在一份相关的公告中，OpenAI推出了其开源自动语音识别模型Whisperlarge-v3的下一个版本，该公司声称该模型在各种语言中的性能都有所提高。该版本已在GitHub上发布，采用许可授权。...PC版：https://www.cnbeta.com.tw/articles/soft/1394933.htm手机版：https://m.cnbeta.com.tw/view/1394933.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人