ℹVoice Remaker 最简单的文字转 AI 语音免费工具，支援超多语言，并提供多个中文语音选项#

ℹVoice Remaker 最简单的文字转 AI 语音免费工具，支援超多语言，并提供多个中文语音选项# 随著 AI 不断进步，现在很多 AI 语音听起来已经变得很自然，也因此很多人都会使用 AI 语音生成工具，来将文字转成语音，制作影片或是其...

在Telegram中查看

相关推荐

ℹMacWhisper 透过 AI 来帮你语音转文字的免费工具，基于 OpenAI Whisper#

ℹMacWhisper 透过 AI 来帮你语音转文字的免费工具，基于 OpenAI Whisper# 现今虽然已经有不少语音转文字的免费工具，可以将开会、演讲等录音快速转成逐字稿，但大多都是手机 App 版本，如：雅婷逐字稿，线上工具也有，...

OpenAI可能会推出Jarvis一样的个人助理新商标Voice Engine信息汇总

OpenAI可能会推出Jarvis一样的个人助理新商标Voice Engine信息汇总尽管这是商标申请，但是Google前雇员透露的信息以及上个月泄露的OpenAI正在开发的Agent产品都似乎印证着OpenAI要做的事情：开发一个全球最强的个人助理，接管个人设备，以Jarvis那样的形式提供服务！Voice Engine商标内容Voice Engine是OpenAI最近提交一个商标名称，其内容主要包含了语音识别和语音合成相关的内容。这个商标背后可能提供的产品和服务涵盖了广泛的计算机软件和开发工具领域，特别是在语音和自然语言处理技术方面。具体来说，可能提供的产品和服务包括但不限于：自动语音识别和生成软件：用于自动识别和生成语音的软件，可能在虚拟助手、智能家居设备等场景中有广泛应用。基于自然语言提示生成语音和音频输出的软件：这类软件能够根据文本、语音、视觉提示、图像或视频生成语音和音频输出，可用于各种应用，如内容创作、教育、娱乐等。注意，这不是文本转语音，而是根据文本提示生成语音结果！数字语音助手开发工具：提供用于构建数字语音助手的软件和开发工具，有助于开发者创建智能交互应用。虽然是工具，但是显然这是可以用于开发个人助理的工具！响应用户提示生成音频或语音的软件：这类软件能够根据用户的提示生成相应的音频或语音输出，可能用于互动媒体、游戏或其他应用中。这个目前在ChatGPT客户端也有了，就是用语音响应用户输入。机器学习基础的自然语言和语音处理软件：涉及使用机器学习技术进行自然语言和语音的处理、识别和分析的软件。多语言语音识别、翻译和转录软件：支持多语言的语音识别、翻译和转录功能的软件，适用于国际化应用、内容创作等场景。应用程序接口（API）软件和软件开发套件（SDKs）：提供可作为API使用的软件，可能支持开发者在各种应用和服务中集成语音和自然语言处理功能。综上所述，VOICE ENGINE™旨在为开发者和创新者提供一系列强大的工具和软件，以便在各种平台和设备上开发和集成先进的语音交互和自然语言处理功能。而这其中最令人关注的应该是下面的2个内容：一个是可以配合Sora视频生成的功能，为视频配音；另一个则是作为个人助理，支持语音交互！为Sora视频配音的语音生成功能传统的语音领域的模型主要方向包括2类：一个是语音合成，即Text to speech（TTS）：将文本转成语音。另一个是自动语音识别（Auto Speech Recognition，ASR），即识别语音转成文本。但是，根据这个描述响应用户提示生成音频或语音的软件，这个能力应该是类似视频生成和图片生成那种，基于文本prompt，来生成相应的语音结果。例如，你可以给系统说，生成一段音乐或者一只老虎在野外和狮子战斗的声音。然后模型返回相应的语音结果。这不是一种文本转语音而是语音生成的能力。在最近爆火的OpenAI的Sora演示中（OpenAI最强的视频生成大模型： OpenAI发布全新文本生成视频大模型Sora，可以生成无比逼真的最长60秒的视频，且生成的视频尺寸可以任意指定），所有的视频都没有声音。OpenAI官方说目前他们还没有实现为生成的视频配音的功能。但是未来会支持。这意味着基于文本生成音频应该也是类似的技术了。与Agent传言互相印证：OpenAI的Jarvis产品在前面的商标描述中提到，OpenAI的Voice Engine可以提供响应用户提示生成音频或语音的软件。这几乎就是一个个人数字助理的形态，它不同于语音合成或者语音识别。而是根据用户的输入进行语音的响应。这意味着用户可以通过文本、语音来输入，然后服务直接用语音回复结果。从技术角度来说，传统的语音助理应该是先通过ASR识别用户的语音，然后转成文本，GPT再根据文本生成答案，再由TTS技术合成语音输出。这个分步系统最大的缺点就是时延以及准确性！三个步骤，每个步骤准确率90%，最终的回复准确率可能只有72.9%了！如果这是一个端到端的模型（符合OpenAI当前的技术趋势），那么时延和准确性都值得期待！此外，结合此前的传言说GPT可能要接入个人本地电脑系统，那作为一个个人助手完全是没问题的。同时，Google前雇员Jonathan Chavez在前段时间也发布过一个消息，他说OpenAI在今年会推出一个全球最好的个人助理产品，就像钢铁侠中的Jarvis。Jarvis除了需要有GPT-4那种强大的语言响应能力外，还有个重要的特点是语音的输入和输出。虽然在当前的ChatGPT客户端和网页版中已经实现了语音交互以及文本转语音的能力。但是，它本身是为了支撑ChatGPT的功能存在的，范围局限在ChatGPT的对话过程中。一旦如果像Jonathan Chavez所说是一个前所未有最强大的个人助理，那么意味着它可以帮助我们操作我们的电脑和手机，使用APP等。这个消息和上个月泄露的OpenAI正在做一个强大的AI Agent也有很大的相关性：OpenAI正在开发一个全新的基于大模型的Agent产品。在这个传言中，OpenAI做的事情描述如下：OpenAI正在开发的这个Agent形式的产品，通过有效地接管用户的设备来让复杂任务被自动执行。然后，用户可以请求ChatGPT将数据从文档转移到电子表格中进行分析，或自动填写费用报告并将其输入会计软件。这类请求将触发ChatGPT来执行点击、光标移动、文本输入以及人们在使用不同应用程序时进行的其他操作。 ... PC版：手机版：

YouTube计划通过AI来简化视频的多语言配音。其在VidCon上宣布，将从Google的Area 120孵化器引入Aloud

YouTube计划通过AI来简化视频的多语言配音。其在VidCon上宣布，将从Google的Area 120孵化器引入Aloud团队，这是一家由AI驱动的配音服务公司。根据Aloud网站上的介绍，该工具首先对视频进行转录，生成可供查看和编辑的文字稿，然后进行翻译并生成配音，YouTube还计划在2024年推出让翻译后的音轨听起来像创作者本人声音、更具表达力和唇形同步的功能。这项技术对于越来越多的创作者为他们的视频添加多语言配音来说将非常有用。

GPT-4o：OpenAI变慢了

GPT-4o：OpenAI变慢了虽然Sam Altman在OpenAI线上直播前，已经预告不会发布GPT-5（或GPT-4.5），但外界对OpenAI的期待早已是九牛拉不转了。北京时间5月14日凌晨，OpenAI公布了最新的GPT-4o，o代表Omnimodel（全能模型）。20多分钟的演示直播，展示了远超当前所有语音助手的AI交互体验，与外媒此前透露的消息基本重合。虽然GPT-4o的演示效果仍可称得上“炸裂”，但业内人士普遍认为很难配得上Altman预告中的“魔法”二字。很多人认为，这些功能性的产品，都是“偏离OpenAI使命”的。OpenAI的PR团队似乎也预料到了这种舆论走向。发布会现场以及会后Altman发布的博客中对此解释道：“我们使命的一个关键部分是将非常强大的人工智能工具免费（或以优惠的价格）提供给人们。我非常自豪我们在 ChatGPT 中免费提供了世界上最好的模型，没有广告或类似的东西。当我们创办 OpenAI 时，我们最初的想法是我们要创造人工智能并利用它为世界创造各种利益。相反，现在看起来我们将创造人工智能，然后其他人将使用它来创造各种令人惊奇的事物，让我们所有人都受益。”遥遥领先的GPT-4o“如果我们必须等待 5 秒钟才能得到‘每个’回复，用户体验就会一落千丈。即使合成音频本身听起来很真实，它也会破坏沉浸感，让人感觉毫无生气。”在OpenAI发布会前夕，英伟达Embodied AI负责人Jim Fan在X上预测了OpenAI会发布的语音助手，并提出：几乎所有的语音AI都会经历三个阶段：1. 语音识别或“ASR”：音频->文本1，例如Whisper；2. 计划下一步要说什么的 LLM：text1 -> text2;3. 语音合成或“TTS”：text2 ->音频，例如ElevenLabs或VALL-E。经历 3 个阶段会导致巨大的延迟。GPT-4o在响应速度方面，几乎解决了延迟问题。GPT-4o的响应音频输入的最短时长为232毫秒，平均响应时长320毫秒，几乎与人类相似。没有使用GPT-4o的ChatGPT语音对话功能平均延迟为2.8秒 (GPT-3.5) 和5.4秒（GPT-4)。您目前设备暂不支持播放GPT-4o演示直播GPT-4o不仅通过缩短延迟极大地提升了体验，还在GPT-4的基础上做了很多升级包括：极佳的多模态交互能力，包括语音、视频，以及屏幕共享。可以实时识别和理解人类的表情，文字，以及数学公式。交互语音感情丰富，可以变换语音语调、风格，还可以模仿，甚至“即兴”唱歌。超低延时，且可以在对话中实时打断AI，增加信息或开启新话题。所有ChatGPT用户均可免费使用（有使用上限）。速度是GPT-4 Turbo的2倍，API成本低50%，速率限制高5倍。多模态能力进步了吗？“突破模型的局限性才能有创新。”有业内专家认为，GPT-4o的多模态能力只是“看起来”很好，实际上OpenAI并未展示对于视觉多模态来说真正算是“突破”的功能。这里我们按大模型行业的习惯，对比一下隔壁厂Anthropic的Claude 3。Claude 3的技术文档中提到，“虽然Claude的图像理解能力是尖端的，但需要注意一些局限性”。其中包括：人物识别：Claude不能用于在图像中识别（即姓名）人物，并将拒绝这样做。准确性：Claude在解释200像素以下的低质量、旋转或非常小的图像时，可能会产生幻觉或犯错误。空间推理：克劳德的空间推理能力有限。它可能很难完成需要精确定位或布局的任务，例如读取模拟钟面或描述棋子的确切位置。计数：Claude可以给出图像中物体的近似计数，但可能并不总是精确准确的，特别是对于大量小物体。AI生成的图像：Claude不知道图像是否是人工智能生成的，如果被问到，可能不正确。不要依赖它来检测假图像或合成图像。不适当的内容：Claude不会处理违反我们可接受使用政策的不适当或露骨的图像。医疗保健应用：虽然Claude可以分析一般医学图像，但它不是为解释CT或MRI等复杂诊断扫描而设计的。Claude的输出不应被视为专业医疗建议或诊断的替代品。在GPT-4o网站发布的案例中，有一些与“空间推理”有相关的能力，但仍难算得上突破。此外，从发布会现场演示中GPT-4o输出的内容很容易看出，其模型能力与GPT-4相差并不大。GPT-4o跑分虽然模型可以在对话中增加语气，甚至即兴演唱，但对话内容还是与GPT-4一样缺乏细节和创造力。此外，发布会后OpenAI官网还发布了GPT-4o的一系列应用案例探索。包括：照片转漫画风格；会议记录；图片合成；基于图片的3D内容生成；手写体、草稿生成；风格化的海报，以及连环画生成；艺术字体生成等。而这些能力中，照片转漫画风格、会议记录等，也都是一些看起来很普通的文生图或者是AI大模型功能。能挑战现有的商业模式吗？“我注册5个免费的ChatGPT账号，是不是就不需要每月花20美元订阅ChatGPT Plus呢？”OpenAI公布的GPT-4o使用政策是ChatGPT Plus用户比限制普通用户的流量限制高5倍。GPT-4o对所有人免费，首先挑战的似乎是OpenAI自己的商业模型。第三方市场分析平台Sensor Tower公布的数据显示，过去一个月中，ChatGPT在全球App Store中的下载量为700万，订阅收入1200万美元；全球Google Play市场的下载量为9000万，订阅收入300万美元。目前，ChatGPT Plus在两个应用商店的订阅价格均为19.99美元。由订阅数据推断，ChatGPT Plus过去一个月中，通过应用商店付费的订阅用户数为75万。虽然ChatGPT Plus还有大量的直接付费用户，但从手机端的收入来看，每年进项才不到2亿美元，再翻几倍也很难撑起OpenAI近千亿的估值。由此来看，OpenAI在个人用户充值方面，其实并不需要考虑太多。更何况GPT-4o主打体验好，如果你跟AI聊着聊着就断了，还要换账号重新聊，那你会不会愤然充值呢？“最初的 ChatGPT 暗示了语言界面的可能性；这个新事物给人的感觉有本质上的不同。它快速、智能、有趣、自然且有帮助。”Sam Altman的最新博客中提到了“语言界面的可能性”，这也正是GPT-4o接下来可能要做的：挑战所有GUI（图形交互界面），以及想要在LUI（语音交互界面）上发力的人。结合近期外媒透出的OpenAI与苹果合作的消息，可以猜测GPT-4o可能很快就要对所有AI PC、AI手机的厂商“抛橄榄枝”或是“掀桌子”。不管是哪种语音助手或是AI大模型，对于AIPC、AI手机来说核心价值都是优化体验，而GPT-4o一下把体验优化到了极致。GPT-4o很可能会卷到所有已知的App，甚至是SaaS行业。过去一年多时间里，市场上所有已经开发和正在开发的AI Agent都会面临威胁。某位资源聚合类app产品经理曾对虎嗅表示，“我的操作流程就是产品的核心，如果操作流程被你ChatGPT优化了，那相当于我的App没价值了。”试想，如果订外卖的App，UI变成了一句话“给我订餐”，那打开美团还是打开饿了么，对于用户来说就一样了。厂商的下一步只能是压缩供应链、生态的利润空间，甚至是恶性价格战。从目前的形式来看，其他厂商要在模型能力上打败OpenAI恐怕还需要一段时间。产品要对标OpenAI，可能只有通过做更“便宜”的模型了。对于国内产业的影响“最近忙死了，没顾上关注他们。”一位工业AI大模型创始人告诉虎嗅，近期一直在忙着沟通战略合作、产品发布、客户交流资本交流，完全没有时间关注OpenAI这种发布。OpenAI发布前，虎嗅也询问了多位来自各行各业的国内AI从业者，他们对OpenAI最新发布的预测与看法都很一致：非常期待，但与我无关。一位从业者表示，从国内目前的进度来看，要在短期内追上OpenAI不太现实。所以关心OpenAI发布了什么，最多也就是看看最新的技术方向。目前国内公司在AI大模型研发方面，普遍比较关注工程化和垂直模型，这些比较务实、容易变现的方向。在工程方面，近期蹿红的Deepseek就正在国内大模型行业中掀起... PC版：手机版：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人

相关推荐

ℹMacWhisper 透过 AI 来帮你语音转文字的免费工具，基于 OpenAI Whisper#

OpenAI可能会推出Jarvis一样的个人助理 新商标Voice Engine信息汇总

YouTube计划通过AI来简化视频的多语言配音。其在VidCon上宣布，将从Google的Area 120孵化器引入Aloud

GPT-4o：OpenAI变慢了

OpenAI可能会推出Jarvis一样的个人助理新商标Voice Engine信息汇总