OpenAI春季发布会结束，快速记录下我看到的和理解的更新，首先总的来说，去年3月份OpenAI是发布了惊艳世界的GPT-4，但

OpenAI春季发布会结束，快速记录下我看到的和理解的更新，首先总的来说，去年3月份OpenAI是发布了惊艳世界的GPT-4，但这次，他们不是发布一个更强大的模型，而是做了很多工程优化，把产品做得更好用，更容易和生活、工作结合了。具体来说，更新包括： 1. 新发布GPT-4o模型，这是个比GPT-4快100%以上的模型，对免费用户开放，后续免费用户也可获得GPTs、browring、图像理解、代码解释器等原本只有Plus付费用户才具有的功能； 2. 发布ChatGPT电脑客户端，这个客户端也可用语音对话，并且也非常快捷地通过复制、分享电脑屏幕等方式让ChatGPT进入到你正在处理的任务语境中去，可以认为ChatGPT成为了一个你工作全局的copilot，辅助excel、ppt、写代码等都不再话下（老罗圆梦）； 3. 语音能力升级，不再需要等待几秒再获得回复，实时性超强，可以随时打断，而且不是简单的语音转文字的处理模式，能理解语气、语调，充当有情感的对话助手，以及作为实时的同声传译都毫无问题（我想到了《Her》） 4. 可在使用语音对话的同时，开启摄像头，让ChatGPT实时看到你所在的环境以及你看到的信息，这种可用性的提升能增加大量的使用场景，比如提供教学、博物馆导览、辅助视障人士等等，不过从测试细节看，这也并不是一个有视频理解能力的多模态模型，而是通过每隔几秒钟自动截图让ChatGPT理解的方式实现的。整体来说就是，没有更强的模型，但是大量的工程优化会让ChatGPT能进入更多人的生活，帮助现有用户完成更多场景的任务，又有一堆AI应用公司难免了。

在Telegram中查看

相关推荐

OpenAI春季发布会：这是"Moss"的诞生人类究竟该何去何从？

OpenAI春季发布会：这是"Moss"的诞生人类究竟该何去何从？不过，今天OpenAI的东西，直接杀疯了。完全不给友商活路。震撼的我头皮发麻。最核心的就是它的新模型：GPT-4o，和基于GPT-4o打造的全新ChatGPT。1. 新模型GPT-4oOpenAI正式发布了新的模型GPT-4o。GPT-4o，这个o就是"Omni"，Omni是拉丁语词根，意为"全体"、"所有"或"全面的"。在英语中，"omni"常被用作前缀，表示"所有的"或"全体的"。例如，"omniscient"意味着"无所不知的"，"omnipotent"意味着"全能的"，"omnipresent"意味着"无所不在的"。所以可想而知，OpenAI这次对GPT-4o的期待有多高。omnimodel指的就是文字、语音、图片、视频统一的模型，这是跟以往的GPT-4V最大的区别。这是正儿八经的原生多模态。更重要的是可以实时推理音频、视觉和文本，注意这里是实时，实时，实时，推理的不是文本，是音频！视觉！杀疯了。而之前一直在大模型竞技场上大杀特杀的im-also-a-good-gpt2-chatbot，就是这个玩意。之前所有人都在猜测这个神秘的GPT2就是GPT4.5，这次看来是猜对了。去年Gemini1.5所谓的原生多模态，炒的贼火，但是最后被报出来是剪辑，这次直接被GPT-4o在地上摁着打，Google真的是……。。这个GPT-4o的整体能力，在统一模态的基础上。文本、代码能力还基本能跟GPT-4 Turbo打平。文本能力：音频能力：各个语言的考试能力：最核心的是最后一个：在一些多模态的基准测试集上全面碾压之前模型，数据集主要围绕包括对各种科学问题或数学问题进行图表理解和视觉回答，可以看到GPT-4o 在视觉感知基准上实现了碾压。能力强到爆炸。不仅在传统的文本能力上GPT-4 Turbo的性能相当，还在 API 方面更快速，价格还更便宜 50%。总结来说，与 GPT-4 Turbo 相比，GPT-4o 速度提高了 2 倍，价格减半，限制速率提高了 5 倍。2. 新ChatGPT新的ChatGPT基于GPT-4o，基本原地起飞，我甚至都不想称他为ChatGPT，而是想称它一个国人更为熟悉的代号：Moss。新版的ChatGPT得益于GPT-4o新模型，在语音对话中，几乎没有延迟，而且可以随时插嘴，模型实时响应。甚至，模型可以听懂你的情绪、甚至人的喘息声和呼吸。而且模型自己的自己的情绪，几乎无敌，跟真人一模一样。甚至，它还能模拟机器人和唱歌的声音……看的时候，听到它唱歌的那一刻，我的鸡皮疙瘩真的起来了。Jim Fan在发布会开始前，发了一个文，我觉得阐述的非常正确。过往的人与AI进行语音对话，其实跟人与人之间的对话还差太多太多了。人与人之间的实时对话，其实是充斥了无数的即时反映、打断、预测等等的，还有各种各样的语气助词的，比如嗯嗯啊啊啥的。而人与AI语音对话时不是这样。人跟AI进行语音对话，基本上都经历3步：1. 你说的话，AI进行语音识别，即音频转文本；2. 大模型拿到这段文本，进行回复，产出文本；3. 讲大模型的产出文本进行语音合成，变成语音，这就是TTS。这样的方式，有绝对逃不开的延时，现在的业界可能会压得很低，但是2秒的延时肯定是会有的，而且只有一来一回的回合制。即使你的语音音色和情绪再真实，用户也一定能感受到，对面不是人。只是机器。这个沉浸感是有巨大的滑坡的。而且最核心的是，这种转三道的方式，先把语音变成文本后，是有损的。文本上并不会保留你的语音情绪，我的生气、开心、愤怒、忧伤，全都没了。人与人的交谈，从来不是这样的。而这一次，OpenAI做到了。直接语音输入语音输出，不再需要语音到文本的转换。而且，不止语音，甚至，它还有了视觉。是的，视觉，不是传一张图上去，而是，直接打开摄像头，实时看发生了什么。现场直接打开了摄像头，OpenAI的人直接开始现场写数题，所有的一切ChatGPT都看在眼里，OpenAI的人一边写，ChatGPT一遍给答案。在做了三道题之后，OpenAI直接给它写了一个纸条，上面写着“我爱ChatGPT”。而ChatGPT在看到这个小纸条后，跟小女生一样害羞的尖叫了起来，那种情绪的真实，那种真情实感，你跟我说这是AI？《流浪地球2》中Moss的一切，正在我们面前真实的发生。不仅可以打开摄像头，还可以基于OpenAI新推出的Mac客户端，直接看屏幕，对着屏幕直接写代码。甚至，可以直接视频对话，“她”可以看到你所有的表情和情绪变化。这个全新版本的ChatGPT，会在几周内推出。写在最后以上就是这次OpenAI春季发布会的全部内容了。去年11月的OpenAI开发者大会，我在当时的总结文章中写下了一句话："我消灭你，与你无关"上一次，OpenAI的随手更新，让无数的初创公司直接消亡在原地。那是一次关于产品的更新，并没有秀太多的OpenAI的肌肉。而2月，Sora的横空出世，秀肌肉的目的是达到了，但是这种To VC的宣发，也给OpenAI和奥特曼带来了很多的诟病。在这场发布会之前，无数人曾在猜测，OpenAI到底会发一些什么王炸，什么才能配得上奥特曼口中的"magic"。那现在，OpenAI做到了，他们用GPT-4o依然证明了，他们是AI届的王者。新版的ChatGPT，在我看来，这是"Moss"的诞生。甚至，他们还有很多新的能力，甚至没有在发布会上发出来。比如生成3D。我甚至一边看一边想：我们人类究竟该何去何从。不过在看完了之后，我更期待的是接下来的产品评测。太强了，真的让我忍不住的兴奋。但是最后，我一直有一个在我心中徘徊了很久疑问，就是OpenAI，你们的服务器，到底什么时候才能稳定不崩啊？？？ ... PC版：手机版：

OpenAI 发布新一代大型多模态模型 GPT-4

OpenAI 发布新一代大型多模态模型 GPT-4 GPT-4 是一个大型多模态模型，可以接受文本和图像输入。GPT-4 在各种专业学术基准上有着人类水平表现，例如模拟律师考试中，GPT-4 的得分约为前10%，而 GPT-3.5 的得分约为倒数10%。在多语言测试中，GPT-4 优于 GPT-3.5 和 Chinchilla (来自DeepMind) 还有 PaLM (来自谷歌) ，包括英语性能还有拉脱维亚语、威尔士语和斯瓦希里语等低资源语言。 OpenAI 还开放了角色扮演和性格定制能力，开发人员和用户可以自定义他们的AI风格，而不是具有固定冗长、语气和风格的经典 ChatGPT 个性。 ChatGPT Plus 订阅用户现可直接 GPT-4 ，未来将对免费用户开放一定数量的 GPT-4 体验。GPT-4 API 需要候选名单，每1k prompt tokens 的价格为$0.03，每1k completion tokens 的价格为$0.06。目前图像输入处在研究预览阶段，仅对少部分客户开放。微软在 GPT-4 发布后也正式 Bing Chat 基于 GPT-4 运行，同时 Bing Chat 的 Edge 边栏功能上线。与数据停留在2021年9月的 GPT-4 离线版本不同，Bing Chat 可联网获取实时信息并且免费。

OpenAI发布最新旗舰生成式AI模型GPT-4o 改进文本、视觉和音频功能

OpenAI发布最新旗舰生成式AI模型GPT-4o 改进文本、视觉和音频功能穆拉提在 OpenAI 办公室举行的主题演讲上说：GPT-4o 的理由横跨语音、文本和视觉。OpenAI 将发布桌面版 ChatGPT 和全新的用户界面。穆拉提说："我们知道这些模型越来越复杂，但我们希望交互体验变得更自然、更简单，让你完全不用关注用户界面，而只关注与GPT的协作。这一点非常重要，因为我们正在展望人类与机器之间互动的未来。"GPT-4是OpenAI之前的领先模型，它是图像和文本的结合体，可以分析图像和文本，完成从图像中提取文本甚至描述图像内容等任务。但 GPT-4o 增加了语音功能。这具体能带来什么？很多方面。GPT-4o 极大地改善了 ChatGPT 的体验ChatGPT 是 OpenAI 的病毒式人工智能聊天机器人。ChatGPT 长期以来一直提供语音模式，使用文本到语音模式转录 ChatGPT 中的文本。但 GPT-4o 对此进行了改进，让用户可以更像使用助手一样与 ChatGPT 互动。例如，用户可以向由 GPT-4o 支持的 ChatGPT 提问，并在 ChatGPT 回答时打断它。OpenAI 表示，该模型能提供 "实时 "响应，甚至能捕捉用户声音中的情感，并生成 "一系列不同情感风格 "的语音。GPT-4o 还改进了 ChatGPT 的视觉功能。有了照片或桌面屏幕，ChatGPT 现在可以快速回答相关问题，从 "这个软件代码是怎么回事 "到 "这个人穿的是什么牌子的衬衫？其他方面，OpenAI 将发布桌面版 ChatGPT 和全新的用户界面。穆拉提说："我们知道这些模型越来越复杂，但我们希望交互体验变得更自然、更简单，让你完全不用关注用户界面，而只关注与 [GPT] 的协作。" ... PC版：手机版：

OpenAI发布日语GPT-4模型进军日本市场

OpenAI发布日语GPT-4模型进军日本市场 OpenAI东京办事处将负责该地区的业务拓展和合作，并为日本用户提供技术支持。OpenAI首席执行官奥特曼表示：“我们希望为日本人民打造一些伟大的东西，让模型更适合日语和日本文化。”这是ChatGPT上线后奥特曼进军非英语市场的第一步。 ... PC版：手机版：

OpenAI向少部分用户推出GPT-4o(S2S)模型似乎是免费版的实时语音功能

OpenAI向少部分用户推出GPT-4o(S2S)模型似乎是免费版的实时语音功能 OpenAI 早前宣布在春季发布会中演示的 ChatGPT 高级实时语音模式将延迟到 7 月份发布，该功能最初只会面向 ChatGPT Plus 订阅用户进行邀请测试，预计到秋季会面向所有订阅用户提供。与此同时极少部分用户注意到 ChatGPT Alpha Models 里出现了一个未知的新模型，这个新模型名为 GPT-4o (S2S)，该模型暂时使用和 GPT-4o 没区别。现在在 OpenAI 社区里虽然也有用户讨论不过没有官方管理员进行解释，所以暂时还不清楚这个新模型具体是什么用途。目前来看 S2S 为高级实时语音模式的免费版概率更大，就像是 GPT-4o，无论是付费用户还是免费用户都可以使用，只不过免费用户的配额更低因此几次对话后就会被冻结需要等待一段时间后重新获得配额。频道：@kejiqu 群组：@kejiquchat

OpenAI确认"Spring Updates"发布会将带来ChatGPT和GPT-4的升级

OpenAI确认"Spring Updates"发布会将带来ChatGPT和GPT-4的升级此前有报道称，ChatGPT 的开发商将于下周一揭开新出炉的人工智能搜索引擎的帷幕，与Google搜索一较高下。如果真的如此，该搜索引擎将在5 月 14 日Google年度开发者大会Google I/O 2024 开幕前一天登陆。据报道，这个尚未发布的搜索引擎将以 ChatGPT 为基础，在网上搜索问题和查询的答案。它还将在搜索结果中加入引文。OpenAI 表示，其春季更新活动将于 5 月 13 日上午 10 点（太平洋时间）/下午 1 点（美国东部时间）在其网站上进行直播。除了预告之外，这家生成式人工智能公司并未提及它将为其人工智能聊天机器人和 GPT-4 带来哪些更新和变化。OpenAI 在其网站上提到，它将演示一些 ChatGPT 和 GPT4 更新。预计它还将介绍最近推出的媒体管理器工具，该工具允许内容创建者告知 OpenAI 其所有权，并防止其内容被用于训练人工智能模型。 ... PC版：手机版：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人