3月30日凌晨，OpenAI在官网首次展示了全新自定义音频模型“VoiceEngine”。用户只需要提供15秒左右的参考声音，通

3 月 30 日凌晨，OpenAI 在官网首次展示了全新自定义音频模型 “Voice Engine”。用户只需要提供 15 秒左

3月30日凌晨，OpenAI在官网首次展示了全新自定义音频模型“VoiceEngine”。用户只需要提供15秒左右的参考声音，通过VoiceEngine就能生成几乎和原音一模一样的全新音频，在清晰度、语音连贯、音色、自然度等方面比市面上多数产品都强很多。除了能合成音频之外，OpenAI还展示了VoiceEngine很多其他际商业用途，例如，一位失去声音表达能力的女孩，在VoiceEngine帮助下能像以前一样正常发音说话。来源：财经慢报频道

OpenAI 首次展示音频模型 Voice Engine 15 秒即可复制原音

OpenAI首次展示音频模型VoiceEngine15秒即可复制原音3月30日凌晨，OpenAI在官网首次展示了全新自定义音频模型“VoiceEngine”。用户只需要提供15秒左右的参考声音，通过VoiceEngine就能生成几乎和原音一模一样的全新音频，在清晰度、语音连贯、音色、自然度等方面比市面上多数产品都强很多。除了能合成音频之外，OpenAI还展示了VoiceEngine很多其他际商业用途，例如，一位失去声音表达能力的女孩，在VoiceEngine帮助下能像以前一样正常发音说话。

OpenAI 的自定义 GPT 商店现已开张营业。

OpenAI的自定义GPT商店现已开张营业。OpenAI的GPT商店，用户可以在其中分享他们的自定义聊天机器人，在长达数月的延迟后终于于周三推出。该商店为ChatGPT带来了更多潜在的用例，并将OpenAI的生态系统扩展到公司为客户构建的生态系统之外。OpenAI表示，自11月宣布GPTBuilder计划以来，用户已经创建了300多万个机器人（称为GPT）。该公司表示，它计划每周在商店内重点展示有用的GPT。OpenAI还宣布将于今年第一季度启动与GPT创建者的收入共享计划。GPT构建者将根据用户与聊天机器人的互动程度获得报酬，但该公司尚未分享实际情况的具体细节。——、、

OpenAI展示新音频工具可朗读文本并模仿声音

OpenAI展示新音频工具可朗读文本并模仿声音OpenAI的发言人说该公司在收到政策制定者、行业专家、教育工作者和创意人士等利益相关方的反馈后决定缩减发布规模。据早前的新闻发布会介绍，该公司原本计划通过申请流程向多达100家开发商发布该工具。其他AI技术已经在某些情境下被用来伪造声音。今年1月，一通自称乔·拜登（JoeBiden）总统打来的以假乱真的电话呼吁新罕布什尔州居民不要在初选中投票，这一事件在全球关键选举前加剧了对AI的恐惧。与OpenAI过去生成音频的功能不同，语音引擎可以创建听起来像具体个人的声音，并完整呈现特有的语调和语气。该软件只需要一段15秒的录音，即可重现一个人的声音。“只要音频设置得当，基本就能得出人类水准的声音。”OpenAI产品负责人杰夫·哈里斯（JeffHarris）说，“这种技术质量非常了不起。”但哈里斯也表示，“准确模仿人类语音的能力显然存在很多安全上的不确定性。”非营利性医疗系统Lifespan旗下的NormanPrinceNeurosciencesInstitute是OpenAI目前的开发合作伙伴之一，该机构正在利用此项技术帮助患者恢复声音。例如，据OpenAI的博客文章，该工具被用于恢复一位因脑瘤失去清晰说话能力的年轻患者的声音，方法是复制她此前为一个学校项目录制的发言。OpenAI的自定义语音模型还可将生成的音频翻译成不同语言。这对于音频行业公司非常有用，比如SpotifyTechnologySA。Spotify已经在自己的试点计划中利用该技术来翻译莱克斯·弗里德曼（LexFridman）等热门主持人的播客节目。OpenAI还宣传了该技术的其他有益应用，例如为儿童教育内容创建更多样化的声音。在测试计划中，OpenAI要求合作伙伴同意其使用政策，即在使用原始声音前征得声音主人的同意，并告知听众他们听到的是AI生成的声音。该公司还加入了听不见的音频水印，以判断哪些音频由其工具创建。OpenAI表示在决定是否大范围发布该功能前，正在征求外部专家的反馈。该公司在博文中表示：“让全球人民了解这项技术的发展方向至关重要，不论我们最终是否亲自广泛部署它。”OpenAI还写道，希望其软件的试用能“激发增强社会韧性的需求”，以应对更先进的AI技术带来的挑战。例如，该公司呼吁银行逐步停止将语音身份验证作为访问银行账户和敏感信息的安全措施。它还寻求开展公众教育，帮助大家了解欺骗性的AI内容，并开发更多技术来检测音频内容是否由AI生成。...PC版：https://www.cnbeta.com.tw/articles/soft/1425804.htm手机版：https://m.cnbeta.com.tw/view/1425804.htm

openAI开发者大会总结：自定义GPT发布，API升级多模态，成本进一步降低

openAI开发者大会总结：自定义GPT发布，API升级多模态，成本进一步降低自定义GPT：GPT仅需3分钟便能创造一个属于自己的gpt，可以根据上传的内容，专业性的回答相关联内容，可以面向任何人开放，GPT开发者可以像IOS开发者一样，生成各种自定义的GPT，并通过这些GPT赚取利润，openAI未来还将上线GPTs商店，帮助开发者共创价值。API升级多模态：现有的GPT-4API升级为GPT-4Turbo，包含了全新的6项更新，分别是：上下文窗口提高到128k(相当于300页书籍)；更多控制；多模态视觉、DALL-E3和语音API一起开放；GPT-4微调开放；双倍GPTR-4调用速率限制开放。此外全新AssistantsAPI，包含了检索、代码解释器等新功能。成本降低：GPT-4Turbo输入降价到原来的1/3，为1美分每千token，输出降价到原来的1/2，为3美分每千token，同时不再设置上下文长度区分，统一128k，代码解释器按绘画次数收费，每次三美分，检索则根据容量和天数收费。来源：

OpenAI发布最新旗舰生成式AI模型GPT-4o 改进文本、视觉和音频功能

OpenAI发布最新旗舰生成式AI模型GPT-4o改进文本、视觉和音频功能穆拉提在OpenAI办公室举行的主题演讲上说：GPT-4o的理由横跨语音、文本和视觉。OpenAI将发布桌面版ChatGPT和全新的用户界面。穆拉提说："我们知道这些模型越来越复杂，但我们希望交互体验变得更自然、更简单，让你完全不用关注用户界面，而只关注与GPT的协作。这一点非常重要，因为我们正在展望人类与机器之间互动的未来。"GPT-4是OpenAI之前的领先模型，它是图像和文本的结合体，可以分析图像和文本，完成从图像中提取文本甚至描述图像内容等任务。但GPT-4o增加了语音功能。这具体能带来什么？很多方面。GPT-4o极大地改善了ChatGPT的体验--ChatGPT是OpenAI的病毒式人工智能聊天机器人。ChatGPT长期以来一直提供语音模式，使用文本到语音模式转录ChatGPT中的文本。但GPT-4o对此进行了改进，让用户可以更像使用助手一样与ChatGPT互动。例如，用户可以向由GPT-4o支持的ChatGPT提问，并在ChatGPT回答时打断它。OpenAI表示，该模型能提供"实时"响应，甚至能捕捉用户声音中的情感，并生成"一系列不同情感风格"的语音。GPT-4o还改进了ChatGPT的视觉功能。有了照片或桌面屏幕，ChatGPT现在可以快速回答相关问题，从"这个软件代码是怎么回事"到"这个人穿的是什么牌子的衬衫？其他方面，OpenAI将发布桌面版ChatGPT和全新的用户界面。穆拉提说："我们知道这些模型越来越复杂，但我们希望交互体验变得更自然、更简单，让你完全不用关注用户界面，而只关注与[GPT]的协作。"...PC版：https://www.cnbeta.com.tw/articles/soft/1430761.htm手机版：https://m.cnbeta.com.tw/view/1430761.htm

相关推荐