OpenAI展示新音频工具 可朗读文本并模仿声音

OpenAI展示新音频工具 可朗读文本并模仿声音 OpenAI的发言人说该公司在收到政策制定者、行业专家、教育工作者和创意人士等利益相关方的反馈后决定缩减发布规模。据早前的新闻发布会介绍,该公司原本计划通过申请流程向多达100家开发商发布该工具。其他AI技术已经在某些情境下被用来伪造声音。今年1月,一通自称乔·拜登(Joe Biden)总统打来的以假乱真的电话呼吁新罕布什尔州居民不要在初选中投票,这一事件在全球关键选举前加剧了对AI的恐惧。与OpenAI过去生成音频的功能不同,语音引擎可以创建听起来像具体个人的声音,并完整呈现特有的语调和语气。该软件只需要一段15秒的录音,即可重现一个人的声音。“只要音频设置得当,基本就能得出人类水准的声音。”OpenAI产品负责人杰夫·哈里斯(Jeff Harris)说,“这种技术质量非常了不起。”但哈里斯也表示,“准确模仿人类语音的能力显然存在很多安全上的不确定性。”非营利性医疗系统Lifespan旗下的Norman Prince Neurosciences Institute是OpenAI目前的开发合作伙伴之一,该机构正在利用此项技术帮助患者恢复声音。例如,据OpenAI的博客文章,该工具被用于恢复一位因脑瘤失去清晰说话能力的年轻患者的声音,方法是复制她此前为一个学校项目录制的发言。OpenAI的自定义语音模型还可将生成的音频翻译成不同语言。这对于音频行业公司非常有用,比如Spotify Technology SA。Spotify已经在自己的试点计划中利用该技术来翻译莱克斯·弗里德曼(Lex Fridman)等热门主持人的播客节目。OpenAI还宣传了该技术的其他有益应用,例如为儿童教育内容创建更多样化的声音。在测试计划中,OpenAI要求合作伙伴同意其使用政策,即在使用原始声音前征得声音主人的同意,并告知听众他们听到的是AI生成的声音。该公司还加入了听不见的音频水印,以判断哪些音频由其工具创建。OpenAI表示在决定是否大范围发布该功能前,正在征求外部专家的反馈。该公司在博文中表示:“让全球人民了解这项技术的发展方向至关重要,不论我们最终是否亲自广泛部署它。”OpenAI还写道,希望其软件的试用能“激发增强社会韧性的需求”,以应对更先进的AI技术带来的挑战。例如,该公司呼吁银行逐步停止将语音身份验证作为访问银行账户和敏感信息的安全措施。它还寻求开展公众教育,帮助大家了解欺骗性的AI内容,并开发更多技术来检测音频内容是否由AI生成。 ... PC版: 手机版:

相关推荐

封面图片

OpenAI展示语音生成“武器库”:太强大以至于无法推广

OpenAI展示语音生成“武器库”:太强大以至于无法推广 OpenAI称,公司在2022年底就启动了Voice Engine的研发工作,并将它用作一些其他功能的预设语音。由于合成语音可能会被滥用,公司只在小范围内与开发人员分享了该模型,未来可能不会广泛推出这一功能。新闻稿写道,儿童教育技术公司Age of Learning正在使用这个模型来生成一些预先编写好的内容,并且还结合GPT-4 创建实时的响应来与学生互动。在案例中,OpenAI放出了一段英语男声和西班牙语女声的样本音频,并用两段音频各生成了讲解知识的语音。另外,数字人视频生成初创公司HeyGen也采用了这项技术。HeyGen可以根据内容创建定制的数字人化身,而Voice Engine可以将样本的声音转换成多种其他语言,来帮助产品营销到销售演示。新闻稿提到,在转换语言时,Voice Engine会保留原始说话者的母语口音,例如样本中的人使用的是法语,那么生成的英语将带有法国口音。本周早些时候,有消息称HeyGen正在进行新一轮融资,投前估值达到4.4亿美元。除此以外,OpenAI还展示了生成较小语系和孤立语系声音的能力,以帮助落后地区的社区卫生工作者;同时还与神经科学研究所探索AI在临床环境中的应用,比如帮助语言障碍者等用途。“太强大了导致无法推广”OpenAI写道,“我们认识到,生成声音的功能存在严重风险,这一点在大选年尤为突出。我们正在与来自政府、媒体、娱乐、教育等领域的国际合作伙伴合作,以确保我们在建设过程中吸收他们的反馈。 ”OpenAI产品负责人Jeff Harris告诉媒体,“如果你能正确地设置音频,基本上就能生成人类口径的声音,这是一种相当令人印象深刻的技术。”但Harris提到,准确模仿人类语音的能力确实存在安全隐患。今年1月,美国就出现“AI拜登”事件,由AI生成的“假拜登”在电话中用逼真的声音鼓励可能支持民主党的5000位选民在新罕布什尔州初选中不要投票。本月早些时候,拜登呼吁国会通过立法来监管AI,包括禁止“AI语音模仿”等。在测试计划中,OpenAI要求其合作伙伴遵守其制定的使用政策:在使用语音样本之前要征得声音主人的同意,并明确告诉听众声音是AI生成的。该公司还在安装一种听不见的音频水印,以区分音频是否是由其工具创建的。OpenAI写道,“无论我们最终是否会广泛部署这项技术,让全球各地的人们了解这个发展方向都是非常重要的。” ... PC版: 手机版:

封面图片

OpenAI 悄然关闭其人工智能检测工具

OpenAI 悄然关闭其人工智能检测工具 一月份,人工智能巨头 OpenAI 宣布推出一款工具,AI生成文本分类器,该工具能够用于区分由人类编写或是人工智能生成的文本,用于辅助解决自动化误导性活动和学术欺骗等问题。 半年后,这个工具就死了,因为它无法完成其设计目的。这就上周, OpenAI 悄悄地断开了其 AI 检测工具 AI Classifier,因为该公司表示该工具的准确率较低。 OpenAI写道:“我们正在努力整合反馈,目前正在研究更有效的文本来源技术,并承诺开发和部署机制,使用户能够了解音频或视觉内容是否是人工智能生成的。”

封面图片

OpenAI展示语音克隆人工智能模型 只需15秒样本即可工作

OpenAI展示语音克隆人工智能模型 只需15秒样本即可工作 可以访问的公司包括教育技术公司 Age of Learning、视觉故事平台 HeyGen、前线健康软件制造商 Dimagi、人工智能通信应用开发商 Livox 和健康系统 Lifespan。在 OpenAI 发布的这些样本中,你可以听到Age of Learning利用该技术生成预制画外音内容,以及向学生朗读由 GPT-4 撰写的 "实时、个性化回复"。首先是英文参考音频:下面是人工智能根据该样本生成的三个音频片段:OpenAI 表示,它于 2022 年底开始开发语音引擎,该技术已经为文本到语音 API 和ChatGPT 的朗读功能提供了预设语音。OpenAI 语音引擎产品团队成员杰夫-哈里斯(Jeff Harris)在接受TechCrunch 采访时表示,该模型是在 "授权数据和公开数据的混合 "基础上训练出来的。OpenAI 告诉该刊物,该模型将只向大约 10 名开发者开放。人工智能文本到音频生成是生成式人工智能的一个不断发展的领域。虽然大多数人都专注于乐器或自然声音,但专注于语音生成的人较少,部分原因是 OpenAI 提出的问题。该领域的一些知名公司包括 Podcastle 和 ElevenLabs,它们提供人工智能语音克隆技术和工具。与此同时,美国政府也在努力遏制不道德地使用人工智能语音技术。上个月,美国联邦通信委员会禁止了使用人工智能语音的自动拨叫电话,因为人们收到了由人工智能克隆的乔-拜登总统的声音打来的垃圾电话。据 OpenAI 称,其合作伙伴同意遵守其使用政策,即未经同意不得使用语音生成技术冒充他人或组织。该政策还要求合作伙伴获得原始发言人的 "明确和知情同意",不建立个人用户创建自己声音的方法,并向听众披露声音是人工智能生成的。OpenAI 还为音频片段添加了水印,以追踪其来源,并积极监控音频的使用情况。OpenAI 提出了几项措施,认为这些措施可以限制类似工具的风险,包括逐步淘汰访问银行账户的语音认证,制定政策保护人工智能中对人声的使用,加强人工智能深度伪造方面的教育,以及开发人工智能内容跟踪系统。了解更多: ... PC版: 手机版:

封面图片

准确率仅为26% OpenAI悄然关闭AI文本检测工具

准确率仅为26% OpenAI悄然关闭AI文本检测工具 OpenAI 官方近日更新新闻稿,由于准确率只有 26%,宣布停止 AI 文本检测工具AI Classifier。 该工具主要用于区分文本是由人类撰写还是 AI 生成的,不过在上线之后,OpenAI 发现准确性并不高。IT之家注:OpenAI 并未发布专门的博文表示关闭这项服务,只是更新了原有博文,在文章中宣布了这项调整。 OpenAI 透露,该工具存在严重的准确性问题,无法可靠地识别内容。报告称识别 AI 生成内容的准确性为 26%,且将 9% 人类撰写的文本错误标记为 AI 生成。 OpenAI 表示:“我们正在努力整合反馈,目前正在研究更有效的文本出处技术,并承诺开发和部署机制,使用户能够了解音频或视觉内容是否由 AI 生成”。来源 , 来自:雷锋 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

封面图片

Insanely Fast Whisper-基于OpenAI模型的快速音频转文字工具

Insanely Fast Whisper-基于OpenAI模型的快速音频转文字工具 #AI工具 #GitHub项目 #趣站 #语音转文字 #音频转文字 https://www.ahhhhfs.com/50814/

封面图片

Meta 发布开源 AI 工具 AudioCraft,用户可通过文本提示创作音乐、音频

Meta 发布开源 AI 工具 AudioCraft,用户可通过文本提示创作音乐、音频 Meta 开源了一款生成式 AI 工具 AudioCraft,可帮助用户通过文本提示创作音乐和音频。 根据 Meta 官方介绍,AudioCraft 包含了三个核心组件: 1、MusicGen:使用 Meta 拥有 / 特别授权的音乐进行训练,根据文本提示生成音乐。 2、AudioGen:使用公共音效进行训练生成音频或扩展现有音频,后续还可生成环境音效(如狗叫、汽车鸣笛、木地板上的脚步声)。 3、EnCodec(改进版):基于神经网络的音频压缩解码器,可生成更高质量的音乐并减少人工痕迹,或对音频文件进行无损压缩。 该工具经过开源之后,相关研究人员和从业人员可以使用自己的数据集训练模型。官方宣称 AudioCraft 系列模型能够长期稳定地生成高质量音频,而且易于使用,能够为音乐家和声音设计师“提供灵感”,帮助他们快速集思广益,并“以新的方式迭代他们的作品”。 AudioCraft 项目地址: 、

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人