OpenAI发布全能大模型：文图音任意组合输出，可实现人类级别响应

OpenAI发布全能大模型：文图音任意组合输出，可实现人类级别响应北京时间5月14日凌晨，OpenAI发布最新多模态大模型 GPT-4o（o代表omini，全能），支持文本、音频和图像的任意组合输入，并生成文本、音频和图像的任意组合输出。文本、推理和编码智能方面性能达到了GPT-4 Turbo水平，同时在多语言、音频和视觉能力方面也达到新高。据介绍，GPT-4o的速度比GPT-4 Turbo快2倍，速率限制提高5倍，最高可达每分钟1000万token，而价格则便宜了一半。 OpenAI首席技术官米拉·穆拉蒂（Muri Murati）在发布会上表示：“通过语音、文本和视觉进行推理非常重要，因为我们正在研究与机器交互的未来。” OpenAI也坦言，由于GPT-4o是公司首个结合了所有前述模式的模型，因此在探索模型功能及其局限性方面仍处于起步阶段，GPT-4o也开始扩大红队（测试）的访问权限。来源，频道：@kejiqu 群组：@kejiquchat

在Telegram中查看

相关推荐

今天发布的GPT-4o以及ChatGPT产品的快速总结：#ai# #open#

今天发布的GPT-4o以及ChatGPT产品的快速总结：#ai# #openai# GPT-4o（“o”代表“全能”）它可以接受任意组合的文本、音频和图像作为输入，并生成任意组合的文本、音频和图像输出。它可以在 232 毫秒内响应音频输入，平均为 320 毫秒，这与人类在对话中的响应时间相似。在英文和代码文本方面，它与 GPT-4 Turbo 的性能相当，对非英语文本的文本有显著改进。同时在 API 方面更快速、价格更便宜 50%。与现有模型相比，GPT-4o 在视觉和音频理解方面表现特别出色。与 GPT-4 Turbo 相比，GPT-4o 速度提高了 2 倍，价格减半，限制速率提高了 5 倍。何时可用？ GPT-4o 的文本和图像功能今天开始在 ChatGPT 中推出。将在免费版中提供 GPT-4o，并为 Plus 用户提供高达 5 倍的消息限制。将在未来几周内在 ChatGPT Plus 中推出带有 GPT-4o 的 Voice Mode 的新版本。开发者现在也可以通过 API 访问 GPT-4o 作为文本和视觉模型。公告地址：

今天发布的GPT-4o以及ChatGPT产品的快速总结：

今天发布的GPT-4o以及ChatGPT产品的快速总结： GPT-4o（“o”代表“全能”）它可以接受任意组合的文本、音频和图像作为输入，并生成任意组合的文本、音频和图像输出。它可以在 232 毫秒内响应音频输入，平均为 320 毫秒，这与人类在对话中的响应时间相似。在英文和代码文本方面，它与 GPT-4 Turbo 的性能相当，对非英语文本的文本有显著改进。同时在 API 方面更快速、价格更便宜 50%。与现有模型相比，GPT-4o 在视觉和音频理解方面表现特别出色。与 GPT-4 Turbo 相比，GPT-4o 速度提高了 2 倍，价格减半，限制速率提高了 5 倍。何时可用？ GPT-4o 的文本和图像功能今天开始在 ChatGPT 中推出。将在免费版中提供 GPT-4o，并为 Plus 用户提供高达 5 倍的消息限制。将在未来几周内在 ChatGPT Plus 中推出带有 GPT-4o 的 Voice Mode 的新版本。开发者现在也可以通过 API 访问 GPT-4o 作为文本和视觉模型。 source

OpenAI推出新旗舰模型GPT-4o

OpenAI推出新旗舰模型GPT-4o GPT-4o 是面向未来人机交互范式的全新大模型，具有文本、语音、图像三种模态的理解力，反应极快还带有感情，也很通人性。 GPT-4o面向所有用户、包括免费用户，最快232毫秒响应音频输入，平均响应时间和人类相似；相比GPT-4 Turbo速度快两倍，成本降低50%，API速率限制提高五倍。

OpenAI 发布替代 GPT-3.5 的 GPT-4o mini

OpenAI 发布替代 GPT-3.5 的 GPT-4o mini OpenAI 发布了 GPT-4o 模型的小型版本 GPT-4o mini，它将取代 GPT-3.5 Turbo 提供给所有 ChatGPT 用户，包括免费和付费用户。GPT-4o mini 类似 GPT-4o，支持多模，能解释图像、文本和音频，能生成图像。GPT-4o mini 支持 128K 上下文令牌，其数据截至 2023 年 10 月，它的 API 费用比 GPT-3.5 Turbo 低 60%，每百万输入令牌 15 美分，每百万输出令牌 60 美分。GPT-4o mini 将使用名为 instruction hierarchy 的新技术，限制了越狱。 via Solidot

OpenAI发布最新旗舰生成式AI模型GPT-4o 改进文本、视觉和音频功能

OpenAI发布最新旗舰生成式AI模型GPT-4o 改进文本、视觉和音频功能穆拉提在 OpenAI 办公室举行的主题演讲上说：GPT-4o 的理由横跨语音、文本和视觉。OpenAI 将发布桌面版 ChatGPT 和全新的用户界面。穆拉提说："我们知道这些模型越来越复杂，但我们希望交互体验变得更自然、更简单，让你完全不用关注用户界面，而只关注与GPT的协作。这一点非常重要，因为我们正在展望人类与机器之间互动的未来。"GPT-4是OpenAI之前的领先模型，它是图像和文本的结合体，可以分析图像和文本，完成从图像中提取文本甚至描述图像内容等任务。但 GPT-4o 增加了语音功能。这具体能带来什么？很多方面。GPT-4o 极大地改善了 ChatGPT 的体验ChatGPT 是 OpenAI 的病毒式人工智能聊天机器人。ChatGPT 长期以来一直提供语音模式，使用文本到语音模式转录 ChatGPT 中的文本。但 GPT-4o 对此进行了改进，让用户可以更像使用助手一样与 ChatGPT 互动。例如，用户可以向由 GPT-4o 支持的 ChatGPT 提问，并在 ChatGPT 回答时打断它。OpenAI 表示，该模型能提供 "实时 "响应，甚至能捕捉用户声音中的情感，并生成 "一系列不同情感风格 "的语音。GPT-4o 还改进了 ChatGPT 的视觉功能。有了照片或桌面屏幕，ChatGPT 现在可以快速回答相关问题，从 "这个软件代码是怎么回事 "到 "这个人穿的是什么牌子的衬衫？其他方面，OpenAI 将发布桌面版 ChatGPT 和全新的用户界面。穆拉提说："我们知道这些模型越来越复杂，但我们希望交互体验变得更自然、更简单，让你完全不用关注用户界面，而只关注与 [GPT] 的协作。" ... PC版：手机版：

OpenAI春季发布会：这是"Moss"的诞生人类究竟该何去何从？

OpenAI春季发布会：这是"Moss"的诞生人类究竟该何去何从？不过，今天OpenAI的东西，直接杀疯了。完全不给友商活路。震撼的我头皮发麻。最核心的就是它的新模型：GPT-4o，和基于GPT-4o打造的全新ChatGPT。1. 新模型GPT-4oOpenAI正式发布了新的模型GPT-4o。GPT-4o，这个o就是"Omni"，Omni是拉丁语词根，意为"全体"、"所有"或"全面的"。在英语中，"omni"常被用作前缀，表示"所有的"或"全体的"。例如，"omniscient"意味着"无所不知的"，"omnipotent"意味着"全能的"，"omnipresent"意味着"无所不在的"。所以可想而知，OpenAI这次对GPT-4o的期待有多高。omnimodel指的就是文字、语音、图片、视频统一的模型，这是跟以往的GPT-4V最大的区别。这是正儿八经的原生多模态。更重要的是可以实时推理音频、视觉和文本，注意这里是实时，实时，实时，推理的不是文本，是音频！视觉！杀疯了。而之前一直在大模型竞技场上大杀特杀的im-also-a-good-gpt2-chatbot，就是这个玩意。之前所有人都在猜测这个神秘的GPT2就是GPT4.5，这次看来是猜对了。去年Gemini1.5所谓的原生多模态，炒的贼火，但是最后被报出来是剪辑，这次直接被GPT-4o在地上摁着打，Google真的是……。。这个GPT-4o的整体能力，在统一模态的基础上。文本、代码能力还基本能跟GPT-4 Turbo打平。文本能力：音频能力：各个语言的考试能力：最核心的是最后一个：在一些多模态的基准测试集上全面碾压之前模型，数据集主要围绕包括对各种科学问题或数学问题进行图表理解和视觉回答，可以看到GPT-4o 在视觉感知基准上实现了碾压。能力强到爆炸。不仅在传统的文本能力上GPT-4 Turbo的性能相当，还在 API 方面更快速，价格还更便宜 50%。总结来说，与 GPT-4 Turbo 相比，GPT-4o 速度提高了 2 倍，价格减半，限制速率提高了 5 倍。2. 新ChatGPT新的ChatGPT基于GPT-4o，基本原地起飞，我甚至都不想称他为ChatGPT，而是想称它一个国人更为熟悉的代号：Moss。新版的ChatGPT得益于GPT-4o新模型，在语音对话中，几乎没有延迟，而且可以随时插嘴，模型实时响应。甚至，模型可以听懂你的情绪、甚至人的喘息声和呼吸。而且模型自己的自己的情绪，几乎无敌，跟真人一模一样。甚至，它还能模拟机器人和唱歌的声音……看的时候，听到它唱歌的那一刻，我的鸡皮疙瘩真的起来了。Jim Fan在发布会开始前，发了一个文，我觉得阐述的非常正确。过往的人与AI进行语音对话，其实跟人与人之间的对话还差太多太多了。人与人之间的实时对话，其实是充斥了无数的即时反映、打断、预测等等的，还有各种各样的语气助词的，比如嗯嗯啊啊啥的。而人与AI语音对话时不是这样。人跟AI进行语音对话，基本上都经历3步：1. 你说的话，AI进行语音识别，即音频转文本；2. 大模型拿到这段文本，进行回复，产出文本；3. 讲大模型的产出文本进行语音合成，变成语音，这就是TTS。这样的方式，有绝对逃不开的延时，现在的业界可能会压得很低，但是2秒的延时肯定是会有的，而且只有一来一回的回合制。即使你的语音音色和情绪再真实，用户也一定能感受到，对面不是人。只是机器。这个沉浸感是有巨大的滑坡的。而且最核心的是，这种转三道的方式，先把语音变成文本后，是有损的。文本上并不会保留你的语音情绪，我的生气、开心、愤怒、忧伤，全都没了。人与人的交谈，从来不是这样的。而这一次，OpenAI做到了。直接语音输入语音输出，不再需要语音到文本的转换。而且，不止语音，甚至，它还有了视觉。是的，视觉，不是传一张图上去，而是，直接打开摄像头，实时看发生了什么。现场直接打开了摄像头，OpenAI的人直接开始现场写数题，所有的一切ChatGPT都看在眼里，OpenAI的人一边写，ChatGPT一遍给答案。在做了三道题之后，OpenAI直接给它写了一个纸条，上面写着“我爱ChatGPT”。而ChatGPT在看到这个小纸条后，跟小女生一样害羞的尖叫了起来，那种情绪的真实，那种真情实感，你跟我说这是AI？《流浪地球2》中Moss的一切，正在我们面前真实的发生。不仅可以打开摄像头，还可以基于OpenAI新推出的Mac客户端，直接看屏幕，对着屏幕直接写代码。甚至，可以直接视频对话，“她”可以看到你所有的表情和情绪变化。这个全新版本的ChatGPT，会在几周内推出。写在最后以上就是这次OpenAI春季发布会的全部内容了。去年11月的OpenAI开发者大会，我在当时的总结文章中写下了一句话："我消灭你，与你无关"上一次，OpenAI的随手更新，让无数的初创公司直接消亡在原地。那是一次关于产品的更新，并没有秀太多的OpenAI的肌肉。而2月，Sora的横空出世，秀肌肉的目的是达到了，但是这种To VC的宣发，也给OpenAI和奥特曼带来了很多的诟病。在这场发布会之前，无数人曾在猜测，OpenAI到底会发一些什么王炸，什么才能配得上奥特曼口中的"magic"。那现在，OpenAI做到了，他们用GPT-4o依然证明了，他们是AI届的王者。新版的ChatGPT，在我看来，这是"Moss"的诞生。甚至，他们还有很多新的能力，甚至没有在发布会上发出来。比如生成3D。我甚至一边看一边想：我们人类究竟该何去何从。不过在看完了之后，我更期待的是接下来的产品评测。太强了，真的让我忍不住的兴奋。但是最后，我一直有一个在我心中徘徊了很久疑问，就是OpenAI，你们的服务器，到底什么时候才能稳定不崩啊？？？ ... PC版：手机版：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人