免费GPT-4o来袭音频视觉文本实现“大一统”

免费GPT-4o来袭音频视觉文本实现“大一统” 此前，有传言称 OpenAI 将推出 AI 搜索引擎，旨在与Google明天举办的 I/O 开发者大会一较高下，一度引发了公众的热烈讨论。不过 Sam Altman 随后在 X（原Twitter）上表示，要展示的并非 GPT-5 或搜索引擎，而是一些令人期待的创新成果，他本人对此充满期待，认为其像魔法一样神奇。那么，GPT-4o 是否真的如 Sam Altman 所说，是 OpenAI 带来的“新魔法”呢？1多模态实时语音助手更快更全更有情感登台后，Mira Murati 宣布了 ChatGPT 的桌面版本和新 UI，紧接着就介绍了本场发布会的主角GPT-4o 。在发布会上，Mira Murati 与团队成员 Mark Chen、Barret Zoph一起，重点展示了基于 GPT-4o 的 ChatGPT 在不同任务中的实际表现，尤其展现了其语音能力。若用关键词加以总结，搭载 GPT-4o 的 ChatGPT 可谓是又快、又全、又有情感。与 ChatGPT 对话时，用户不必等 ChatGPT 说完，可以随时插话；模型能够实时响应，不存在尴尬的几秒延迟。在 Mark 表示自己很紧张且捕捉到他急促的呼吸后，ChatGPT 还会提醒需要冷静情绪，识别其呼吸节奏并引导他做深呼吸。模型能够以各种不同的风格生成声音。无论对话时让 ChatGPT 用唱歌的方式、机器人机械音还是戏剧化的语气讲故事，它都能迅速反应并输出。基于 GPT-4o 强大的视觉能力，用户还可以语音让 ChatGPT 分析页面上的数据图表。更强大的是，打开摄像头后写下一道数学题，ChatGPT 还会一步步引导该如何解下一步，其讲解的清晰度与耐心堪比幼教。ChatGPT的“同传能力”也不容小觑，OpenAI 团队还在现场展示了一波英语和意大利语的实时互译，中间实现零延迟。更有意思的是，ChatGPT 在对话中还会使用语气词，甚至是向 OpenAI 团队开玩笑和表达感谢。在“看到”他们写下“我爱 ChatGPT”的文字后，ChatGPT 甚至会在发出撒娇的声音后，再表扬其贴心。ChatGPT 甚至还能和用户“视频聊天”。在演示中，Barret 让 ChatGPT 猜测自己的情绪，在他开始露出笑脸后，ChatGPT 直接语音回复“你看起来很开心，笑容灿烂，还有点激动。”英伟达首席 AI 科学家 Jim Fan 曾讲述过当前实时语音助手（如 Siri ）的困境，即很难创造出沉浸式的使用体验。用户在和 AI 语音助手对话时要经历三个阶段：语音识别（ASR），将音频转换为文本，例如 Whisper；大语言模型（LLM）规划接下来的话语，将第一阶段的文本转换为新的文本；语音合成（TTS），将新文本转换回音频，如 ElevenLabs 或 VALL-E 。如果简单地按顺序执行，就会产生巨大的延迟，特别是当每一步都需要等待几秒时，用户体验就会急剧下降，哪怕合成的音频听起来非常真实，也会让用户格外“出戏”，就更别提沉浸式的使用体验了。以往的 ChatGPT 语音模式也是如此，依赖三个独立模型工作，平均延迟时间为 2.8 秒 (GPT-3.5) 和 5.4 秒 (GPT-4)，语音助手也总会出现信息丢失，既不能判断语调、多个说话者或背景噪音，也不能输出笑声、唱歌或表达情感。而现在，GPT-4o 的音频输入响应时间最短为232毫秒，平均响应时间为320毫秒，与人类在对话中的反应时间极为相似。作为一个全新的单一模型，GPT-4o 能端到端地跨文本、视觉和音频，所有输入和输出都由同一个神经网络处理，直接一步到位，在用户输入后（文本、语音、图像、视频均可）直接生成音频回答。2GPT-4o一款免费的全能 GPT-4Mira Murati 在发布会上表示，GPT-4o 最棒的地方在于，它将 GPT-4 的智能提供给每个人，包括免费用户，将在未来几周内迭代式地在公司产品中推出。GPT-4o 中的字母 o 指 omni，在拉丁语词根中是“全”的意思，是涵盖了文字、语音、图片、视频的多模态模型，接受任何模态的组合作为输入，并能生成任何模态的组合输出。据 OpenAI 官网，GPT-4o 不仅在文本和代码处理的性能上与GPT-4 Turbo持平，而且在 API 调用上速度更快，价格更是降低了50%。文本能力测试。与GPT-4对比多语言考试能力。更重要的是，GPT-4o 的视觉理解能力在相关基准上取得了压倒性的胜利。在音频方面，GPT-4o 的语音识别（ASR）也比 OpenAI 的语音识别模型 Whisper 性能更佳（越低越好）。与 Meta、Google的语音转写模型相比，GPT-4o 同样领先（越高越好）。若落实到实际生活的使用中，GPT-4o 究竟能给普罗大众带来什么变化呢？OpenAI的官网展示了 GPT-4o 在海报创作、三维重建、字体设计、会议总结等等一系列充满可能性的应用。比如，在输入人物图片、海报元素以及想要的风格后，GPT-4o 就能给用户生成一张电影海报。或者，根据输入的诗歌文本，GPT-4o 能生成用手写体写着诗歌、画着画的单行本图片。在输入6张 OpenAI 的 logo图后，GPT-4o 能三维重建出其立体动图。甚至还可以让 GPT-4o 帮忙把 logo 印在杯垫上。“今天，有 1 亿人使用 ChatGPT 来创作、工作、学习，以前这些高级工具只对付费用户可用，但现在，有了 GPT-4o 的效率，我们可以将这些工具带给每个人。”Mira Murati 如是说道。3写在后面发布会之外，OpenAI 研究员 William Fedus 透露，此前在大模型竞技场参与A/B测试并碾压全场的模型“im-also-a-good-gpt2-chatbot”，就是本次登场的 GPT-4o 。截至2024年3月，OpenAI 在不到十年的运营时间内，已经完成了10轮的融资，累计筹集资金超过了140亿美元，其估值在2月的融资交易中已经飙升至800亿美元。伴随着狂飙的市值，OpenAI 的技术版图已经横跨了多个 AI 的关键领域，形成了一个全面而深入的产品矩阵。API 产品线提供了包括 GPT 模型、DALL·E 模型、Whisper 语音识别模型在内的多样化服务，并通过对话、量化、分析、微调等高级功能，为开发者提供技术支持；ChatGPT 为核心的产品线分别推出了个人版和企业版。在音乐生成领域，OpenAI 也有一定的技术积累，比如经过训练的深度神经网络 MuseNet，可预测并生成 MIDI 音乐文件中的后续音符，以及能生成带人声音乐的开源算法 Jukebox。再加上年初春节假期期间毫无征兆推出的 AI 视频生成大模型 Sora，更是让网友们感叹“现实，不存在了。”毋庸置疑，OpenAI 是大模型这场擂台赛中当之无愧的擂主，其技术与产品的迭代更是整个行业的风向标，不少大模型创业者都遇过“OpenAI 不做，没人投；OpenAI 一做，人人投”的融资奇观。但随着 Claude 3 和 Llama 3 的紧追与 GPT Store 上线2个月惨遭“滑铁卢”，不少 AI 行业从业者开始对 OpenAI 祛魅，认为“大模型护城河很浅，一年就赶上了。”现在看来，OpenAI 果然还是 OpenAI。 ... PC版：手机版：

在Telegram中查看

相关推荐

OpenAI发布最新旗舰生成式AI模型GPT-4o 改进文本、视觉和音频功能

OpenAI发布最新旗舰生成式AI模型GPT-4o 改进文本、视觉和音频功能穆拉提在 OpenAI 办公室举行的主题演讲上说：GPT-4o 的理由横跨语音、文本和视觉。OpenAI 将发布桌面版 ChatGPT 和全新的用户界面。穆拉提说："我们知道这些模型越来越复杂，但我们希望交互体验变得更自然、更简单，让你完全不用关注用户界面，而只关注与GPT的协作。这一点非常重要，因为我们正在展望人类与机器之间互动的未来。"GPT-4是OpenAI之前的领先模型，它是图像和文本的结合体，可以分析图像和文本，完成从图像中提取文本甚至描述图像内容等任务。但 GPT-4o 增加了语音功能。这具体能带来什么？很多方面。GPT-4o 极大地改善了 ChatGPT 的体验ChatGPT 是 OpenAI 的病毒式人工智能聊天机器人。ChatGPT 长期以来一直提供语音模式，使用文本到语音模式转录 ChatGPT 中的文本。但 GPT-4o 对此进行了改进，让用户可以更像使用助手一样与 ChatGPT 互动。例如，用户可以向由 GPT-4o 支持的 ChatGPT 提问，并在 ChatGPT 回答时打断它。OpenAI 表示，该模型能提供 "实时 "响应，甚至能捕捉用户声音中的情感，并生成 "一系列不同情感风格 "的语音。GPT-4o 还改进了 ChatGPT 的视觉功能。有了照片或桌面屏幕，ChatGPT 现在可以快速回答相关问题，从 "这个软件代码是怎么回事 "到 "这个人穿的是什么牌子的衬衫？其他方面，OpenAI 将发布桌面版 ChatGPT 和全新的用户界面。穆拉提说："我们知道这些模型越来越复杂，但我们希望交互体验变得更自然、更简单，让你完全不用关注用户界面，而只关注与 [GPT] 的协作。" ... PC版：手机版：

OpenAI 发布替代 GPT-3.5 的 GPT-4o mini

OpenAI 发布替代 GPT-3.5 的 GPT-4o mini OpenAI 发布了 GPT-4o 模型的小型版本 GPT-4o mini，它将取代 GPT-3.5 Turbo 提供给所有 ChatGPT 用户，包括免费和付费用户。GPT-4o mini 类似 GPT-4o，支持多模，能解释图像、文本和音频，能生成图像。GPT-4o mini 支持 128K 上下文令牌，其数据截至 2023 年 10 月，它的 API 费用比 GPT-3.5 Turbo 低 60%，每百万输入令牌 15 美分，每百万输出令牌 60 美分。GPT-4o mini 将使用名为 instruction hierarchy 的新技术，限制了越狱。 via Solidot

GPT-4o与GPT-4的区别

GPT-4o与GPT-4的区别 1. 性能提升：GPT-4o在性能上进行了显著提升，特别是在文本、语音和视觉处理方面。它能够更快地响应用户的输入，提供更自然和流畅的交互体验。 2. 响应速度：GPT-4o在响应速度上进行了优化，能够以更短的延迟时间处理用户的语音输入，平均响应时间为320毫秒，这与人类在对话中的响应时间相似。 3. 多模态交互：GPT-4o支持更高级的多模态交互，能够处理文本、音频和图像的任意组合输入，并生成对应的任意组合输出。这使得GPT-4o在交互性上更加灵活和强大。 4. 安全性：GPT-4o在设计中内置了跨模式的安全性，并通过与外部专家的合作，提高了与模型互动的安全性。 5. 成本和效率：GPT-4o在非英语文本上的性能有显著提高，同时API速度快，速率限制高出5倍，成本降低了50%。 6. 免费提供：与以往的模型不同，GPT-4o将免费提供给所有用户使用，而付费用户可以享受更高的调用额度。 7. 语音交互模式：GPT-4o采用了全新的技术，让聊天机器人的语音交互模式更加自然和逼真，能够根据指令调整说话时的语气，甚至唱歌。 8. 优化和迭代：GPT-4o通过训练时的优化和数据的迭代更新，提升了模型在特定任务和场景下的表现。 9. 风险管理：OpenAI认识到GPT-4o的音频模式存在风险，因此目前公开的是文本和图像输入以及文本输出，未来将围绕技术基础设施、训练后的可用性、发布其他模式所需的安全性开展工作。

今天发布的GPT-4o以及ChatGPT产品的快速总结：#ai# #open#

今天发布的GPT-4o以及ChatGPT产品的快速总结：#ai# #openai# GPT-4o（“o”代表“全能”）它可以接受任意组合的文本、音频和图像作为输入，并生成任意组合的文本、音频和图像输出。它可以在 232 毫秒内响应音频输入，平均为 320 毫秒，这与人类在对话中的响应时间相似。在英文和代码文本方面，它与 GPT-4 Turbo 的性能相当，对非英语文本的文本有显著改进。同时在 API 方面更快速、价格更便宜 50%。与现有模型相比，GPT-4o 在视觉和音频理解方面表现特别出色。与 GPT-4 Turbo 相比，GPT-4o 速度提高了 2 倍，价格减半，限制速率提高了 5 倍。何时可用？ GPT-4o 的文本和图像功能今天开始在 ChatGPT 中推出。将在免费版中提供 GPT-4o，并为 Plus 用户提供高达 5 倍的消息限制。将在未来几周内在 ChatGPT Plus 中推出带有 GPT-4o 的 Voice Mode 的新版本。开发者现在也可以通过 API 访问 GPT-4o 作为文本和视觉模型。公告地址：

今天发布的GPT-4o以及ChatGPT产品的快速总结：

今天发布的GPT-4o以及ChatGPT产品的快速总结： GPT-4o（“o”代表“全能”）它可以接受任意组合的文本、音频和图像作为输入，并生成任意组合的文本、音频和图像输出。它可以在 232 毫秒内响应音频输入，平均为 320 毫秒，这与人类在对话中的响应时间相似。在英文和代码文本方面，它与 GPT-4 Turbo 的性能相当，对非英语文本的文本有显著改进。同时在 API 方面更快速、价格更便宜 50%。与现有模型相比，GPT-4o 在视觉和音频理解方面表现特别出色。与 GPT-4 Turbo 相比，GPT-4o 速度提高了 2 倍，价格减半，限制速率提高了 5 倍。何时可用？ GPT-4o 的文本和图像功能今天开始在 ChatGPT 中推出。将在免费版中提供 GPT-4o，并为 Plus 用户提供高达 5 倍的消息限制。将在未来几周内在 ChatGPT Plus 中推出带有 GPT-4o 的 Voice Mode 的新版本。开发者现在也可以通过 API 访问 GPT-4o 作为文本和视觉模型。 source

OpenAI推出新旗舰模型GPT-4o

OpenAI推出新旗舰模型GPT-4o GPT-4o 是面向未来人机交互范式的全新大模型，具有文本、语音、图像三种模态的理解力，反应极快还带有感情，也很通人性。 GPT-4o面向所有用户、包括免费用户，最快232毫秒响应音频输入，平均响应时间和人类相似；相比GPT-4 Turbo速度快两倍，成本降低50%，API速率限制提高五倍。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人