昨天抱着试一试的心态，用GPT-4o挑了个瓜。

昨天抱着试一试的心态，用GPT-4o挑了个瓜。因为不放心它单次输出的结果，就一共拍了三张图，问了三次。第三次，我干脆把有个瓜翻过来拍。结果，那个瓜每次都入选。都“交叉验证”这么几轮了，加上8424这个品种本身也很不错，我们就买了下来。回到家里，用刀划开，刀还不到一半，瓜啪一声就自动裂开了。听这响动，就知道瓜不错。于是拿大勺子挖了一块，送到嘴里，又甜又沙，味道真不赖。 GPT-4o厉害的，我再也不担心自己不会挑瓜了。

在Telegram中查看

相关推荐

OpenAI推出新旗舰模型GPT-4o

OpenAI推出新旗舰模型GPT-4o GPT-4o 是面向未来人机交互范式的全新大模型，具有文本、语音、图像三种模态的理解力，反应极快还带有感情，也很通人性。 GPT-4o面向所有用户、包括免费用户，最快232毫秒响应音频输入，平均响应时间和人类相似；相比GPT-4 Turbo速度快两倍，成本降低50%，API速率限制提高五倍。

上手了刷屏一天的GPT-4o 我感觉目前也就那样

上手了刷屏一天的GPT-4o 我感觉目前也就那样他们也没多讲几句废话，整场发布会就二十来分钟，其中，最重磅的无异于GPT-4o 新模型的发布。关于 GPT-4o 起名的缘由， OpenAI 官方是这么解释的：“ o “的全称是“ omni ”，也就是“全能”的意思。之所以说它全能，是因为它能把文本、视觉、音频全打通了。换句话说，你跟 GPT-4o 对话就跟真人似的。最重要的是， GPT-4o 是免费向用户开放的，不开 Plus 会员也能用，只不过 Plus 会员要多一些使用次数。反正跟世超一起蹲守直播的同事们看了，都直呼想要……就连奥特曼也在Twitter上毫不避讳地，把 GPT-4o 跟科幻电影《 Her 》联系起来。（这部电影讲的是人和 AI 语音助理谈恋爱的故事）评论区的网友们也纷纷表示“见证历史” “电影终于要照进现实了”，甚至还用奥特曼的照片，整出来了个“ him ”。玩笑归玩笑，但世超觉得， OpenAI 这次 GPT-4o 的现场演示效果，特别是实时语音和视频交互的能力，确实甩了其他现役大模型好几个车尾灯。不过光这么说，大伙儿对 GPT-4o 的感受可能也不深，咱直接来看演示。像演示人员让 GPT-4o 从一数到十，中途就嫌它语速太慢了，让它说快点儿， GPT-4o 能立马反应过来，后续随时插话它都能瞬间 get 到。就这一个接一个的连续对话实力，说实话世超还没在 AI 身上体验过。给 GPT-4o 一个麦克风和摄像头权限，它能分分钟化身成面试指导官，比方视频里的这个老哥，说自己要去 OpenAI 面试，让 GPT-4o 给点着装建议。它迅速“打量”了下这位老哥，礼貌不失幽默地给出了“抓个头发”的中肯建议。但老哥打算走个不听劝的人设，顺手拿出个帽子，问能不能戴它去面试。GPT-4o 这边反应贼快，识破了老哥明知故问地恶作剧，顺着他的话茬说，也不是不行，最起码能让你在人群中脱颖而出。如果不给世超看演示画面，光听声音我可能会以为，这就是两个朋友之间在开玩笑。当然，以 GPT-4o 的知识储备和多模态能力，它也有相当正儿八经的应用场景。一扭头，就能直接化身成视障人士的眼睛，帮他们识别所在的位置，要是想知道眼前都有啥场景， GPT-4o 也能够绘声绘色地描绘出来，甚至还能一步一步指导视障人士打车。再摇身一变， GPT-4o 还能化身成数学老师，把屏幕的权限开放给它，它能一步步指导你做题，你在题目上写了啥画了啥 GPT-4o 也都能看得一清二楚。有一说一，这跟世超上中学时爸妈请的家教没啥两样……看完官方的案例视频，相信大伙儿跟世超一样，已经被震撼得没边儿了。而为了做到这些， OpenAI 在底层的模型上可是下了不少苦功。之前咱们用 ChatGPT 的语音对话，都是一轮一轮的来。它得先把咱说的话转换成文字输给 GPT-4 ，等 GPT-4 生成文字答案之后，才能再转成语音输出。也就是说，以前和 ChatGPT 语音对个话，它得动用三个模型，一个管音频转文本，一个 GPT-4 管文本转文本，另外还有一个管文本转音频。一整套流程下来，耐心都快给磨没了，而且中间除非咱们手动暂停，否则根本没插话的机会。但 GPT-4o 不一样，它是一个原生的多模态模型，无论文字音频，还是视频啥的，所有的输入和输出都在同一个神经网络里处理。这种打娘胎里自带多模态的特性，让 GPT-4o 能够听懂好赖话，表达自己的情绪，和它对话也能像吃了德芙一样丝滑。不过，上面那些视频终归还是“PPT”，没到手实测一波，世超也不敢轻易下定论这玩意儿是不是真的有这么强。毕竟前段时间， Sora 生成的《气球人》短片才被传出加了大量的人类后期。而在实际用这块， OpenAI 还是一如既往的狗，嘴上说 GPT-4o 都能免费用，但也要分先来后到，而且功能也慢慢开放。现在能用上 GPT-4o 的只有 Plus 账号，而且最重磅的实时视频和语音功能，毛都看不着。但有总归比没有强，世超手边恰好也有个 Plus 账号，而且官方也说了，GPT-4o 生成的速度还会比 GPT-4 快上两倍。所以咱这波，就先提前给差友们试试 GPT-4o 的实力。先让它给咱讲一个童话故事，顺便再画出整个故事的分镜图。GPT-4o 没犹豫几秒，库吃库吃就开始写了。写完中间也没带停顿，直接开始画分镜了。而同样的问题再抛给 GPT-4 ，它一开始就得磨蹭半天在问题上……讲清楚要求后才肯继续写，而且写完之后也不继续画分镜图，还得等世超我再亲自强调一波。不过虽然 GPT-4 比 GPT-4o 墨迹了不少，但从内容来看，我还是会觉得GPT-4 会更丰富一点。再借我司老员工火锅的照片一用，分别让 GPT-4 和 GPT-4o 生成一张像素风的图片。在生成速度上 GPT-4o 完胜，但要抠细节的话两个就半斤八两了。GPT-4 识别出了火锅嘴里叼着的是袋子， GPT-4o 多识别出了一只拖鞋，非要比的话，其实 GPT-4 的金毛更像火锅一些……（左边GPT-4，右边GPT-4o）接着，我又让 GPT-4o 把咱差评的 LOGO 换成 3D 图片，结果它整出来字，翻遍整本新华字典，估计都找不到。但不识汉字也是历代 ChatGPT 的老毛病了，换成英文再要求它，你别说，这次出来的整体效果还可以，就是经不起细看，不少英文拼写都是错的。。整个上手试下来， GPT-4o 给我最大的印象就是快，非常快。但说实话，除了快，世超真没觉得有啥特别的了，与其说 GPT-4o 是 GPT-4 的智商进化版，倒不如说是把 GPT-4 的交互能力单拎出来强化了一波。就像奥特曼在博客里提到的，“达到人类响应时间和表达水平”是 AI 的巨大变化。大模型的终极形态，也应该是让人和 AI 的交流回归到最原始、最简单的形态。在未来，咱们面对一台电脑、一部手机，直接说话交流，就是最主要的交互方式。不过这次 GPT-4o 最厉害的杀手锏：视频交流功能，还没放出来，等到时候咱能体验到了再下结论也不迟。另外，网友们也没干坐着，也在各种研究 GPT-4o 的，结果，却扒出了一些番外的料……也不知道 GPT-4o 的中文语料库是哪儿来的，里面有不少的钓鱼网站的违禁词，像什么“日本 x 片免费视频”这类的。给人老外都整无语了。。像这样的乐子，以后指不定还要冒出来不少。但言归正传， GPT-4o 的出现确实又给 AI 开了个新副本。按照之前 ChatGPT 问世之后，其他友商步步紧逼的尿性。世超盲猜，在 GPT-4o 之后，类似的“Claude-o”“Gemini-o”应该很快就会出现。刚好明天就是Google的 I/O 了，咱们也浅浅期待一手好吧。 ... PC版：手机版：

更像人类的GPT-4o：OpenAI的《Her》时刻

更像人类的GPT-4o：OpenAI的《Her》时刻 GPT-4o在保持GPT-4级别的智能的同时，对文本、视觉和音频功能进行了改进。OpenAI首席技术官（CTO）Mira Murati及其员工Mark Chen和Barret Zoph在现场演示时展示了新的音频对话和视觉理解能力。OpenAI声称，GPT-4o对音频输入的平均反应时间约为320毫秒。根据2009年的一项研究，这与人类在对话中的反应时间相似，而之前的模型通常要延迟2-3秒时间。除了响应速度，GPT-4o似乎很容易捕捉到情绪，并根据用户的要求调整语气和风格，甚至还在回应中加入了音效、笑声和歌声。GPT-4o更像人类GPT-4o在理解人类交流方面迈出了重要的一步，用户可以用一种接近自然的方式与其交谈。它伴随着现实世界中几乎所有的倾向，比如打断、理解语气，甚至意识到自己犯了一个错误。在第一次现场演示中，主持人要求GPT-4o对他的呼吸技巧做出反馈。他对着手机深深地吸了一口气，而ChatGPT则诙谐地回应道：“你不是吸尘器。”它建议使用一种速度较慢的技术，展示其理解和回应人类细微差别的能力。除了具有幽默感，ChatGPT也会改变回应的语气，在传达“思想”的同时用不同的语调来完成。就像人类对话一样，你可以打断它的对话并纠正它，让它做出反应或停止说话。你甚至可以要求它以某种语气、风格或机器人的声音来说话。此外，它甚至还可以提供翻译服务。在现场演示中，舞台上的两名演讲者，一名说英语，一名说意大利语，通过Chat GPT-4o的翻译进行对话。它可以快速将意大利语翻译成英语，然后无缝地将英语回复翻译回意大利语。据悉，Chat GPT-4o在50多种语言的速度和质量上都有所提高。OpenAI表示，这些语言覆盖了世界97%的人口。除了语音理解，Chat GPT-4o还可以理解视觉效果。例如，对于视频中的一道方程题，它可以指导你如何求解。另外，它还可以观看现场自拍，并提供描述，包括你的穿着，以及情绪。在演示中，Chat GPT-4o表示，主持人看起来很开心。在整个演示过程中，Chat GPT-4o工作得很快，在理解方面并不费力，也没有提出询问。与输入查询相比，与Chat GPT-4o的交流更自然。你可以自然地对着手机说话，并得到想要的回应，而不是用谷歌去搜索。电影《Her》中的萨曼莎此时，如果想到了《Her》（一部和AI虚拟人萨曼莎谈恋爱的电影），或者其他与AI相关的未来主义反乌托邦电影，你不是唯一的一个。以如此自然的方式与Chat GPT-4o交谈，本质上就是OpenAI的《Her》时刻。考虑到它将在移动应用程序和桌面应用程序上免费推出，许多人可能很快就会拥有自己的《Her》时刻。虽然并未在直播演示中现身，但OpenAI CEO 萨姆·奥特曼（Sam Altman）对这次演示做了重要的总结，称GPT-4o给人的感觉就像电影中的AI。他说：“新的语音和视频模型GPT-4o是我用过的最好的计算机界面，这感觉就像电影中的AI。而且，对我来说，它真实的仍然有点令人惊讶，达到了人类级别的响应速度和表现。最初的ChatGPT显示出了语言界面的可能性，但GPT-4o这个新事物感觉本质上有所不同，它快速、智能、有趣、自然、实用。”“对我来说，与电脑交谈从来都不是很自然的感觉；但现不同了，它变得自然了。随着将来不断地完善，我真的看到了一个令人兴奋的未来，我们能使用计算机做比以往任何时候都多的事情。”奥特曼还称，在创建OpenAI时，最初的想法是创造AI，并用它来为世界创造各种裨益。但如今，创造AI后，希望让其他人使用它来创造各种令人惊叹的东西，所有人都会从中受益。奥特曼还表示：“OpenAI是一家企业，会找到很多收费的东西，这将帮助我们为数十亿人提供免费的、出色的AI服务。”新的安全风险这场令人印象深刻的语音和视觉演示，可能只是触及了Chat GPT-4o各种可能性的皮毛。尽管其总体性能，以及在各种环境中的日常表现仍有待观察，但很明显，通过现场演示可以看出，Chat GPT-4o已经对谷歌和苹果的未来挑战做好了准备。OpenAI称：“Chat GPT-4o是我们第一个结合了上述所有技术的模型，我们目前只是触及到探索该模型的功能，及其局限性的皮毛。”Murati承认，Chat GPT-4o的实时音频和图像能力在安全方面带来了新的挑战。她表示，OpenAI将继续研究安全性，并在未来几周的迭代部署期间征求测试用户的反馈。OpenAI称：“Chat GPT-4o还与社会心理学、偏见和公平性等领域的70多名外部专家进行了广泛的合作，以识别新模型可能导致或放大的风险。我们利用这些经验来加强安全干预措施，以提高与Chat GPT-4o交互的安全性。一旦新的风险被发现，我们将采取措施降低它们。”GPT-4o前景展望在Google I/O大会开始的前一天，OpenAI发布了Chat GPT-4o，让我们见识到了人们想要的真正实用的AI体验。如果传闻中的与苹果的合作成为现实，那么Siri将如虎添翼。对于谷歌而言，几乎可以肯定的是，将在5月14日的I/O大会上展示其最新的AI技术。它能足以抵抗Chat GPT-4o吗？在不到30分钟的演讲中，OpenAI无法对Chat GPT-4o进行更多的现场演示。幸运的是，它将在未来一周向用户推出，且不需要支付费用。 ... PC版：手机版：

GPT-4o：OpenAI变慢了

GPT-4o：OpenAI变慢了虽然Sam Altman在OpenAI线上直播前，已经预告不会发布GPT-5（或GPT-4.5），但外界对OpenAI的期待早已是九牛拉不转了。北京时间5月14日凌晨，OpenAI公布了最新的GPT-4o，o代表Omnimodel（全能模型）。20多分钟的演示直播，展示了远超当前所有语音助手的AI交互体验，与外媒此前透露的消息基本重合。虽然GPT-4o的演示效果仍可称得上“炸裂”，但业内人士普遍认为很难配得上Altman预告中的“魔法”二字。很多人认为，这些功能性的产品，都是“偏离OpenAI使命”的。OpenAI的PR团队似乎也预料到了这种舆论走向。发布会现场以及会后Altman发布的博客中对此解释道：“我们使命的一个关键部分是将非常强大的人工智能工具免费（或以优惠的价格）提供给人们。我非常自豪我们在 ChatGPT 中免费提供了世界上最好的模型，没有广告或类似的东西。当我们创办 OpenAI 时，我们最初的想法是我们要创造人工智能并利用它为世界创造各种利益。相反，现在看起来我们将创造人工智能，然后其他人将使用它来创造各种令人惊奇的事物，让我们所有人都受益。”遥遥领先的GPT-4o“如果我们必须等待 5 秒钟才能得到‘每个’回复，用户体验就会一落千丈。即使合成音频本身听起来很真实，它也会破坏沉浸感，让人感觉毫无生气。”在OpenAI发布会前夕，英伟达Embodied AI负责人Jim Fan在X上预测了OpenAI会发布的语音助手，并提出：几乎所有的语音AI都会经历三个阶段：1. 语音识别或“ASR”：音频->文本1，例如Whisper；2. 计划下一步要说什么的 LLM：text1 -> text2;3. 语音合成或“TTS”：text2 ->音频，例如ElevenLabs或VALL-E。经历 3 个阶段会导致巨大的延迟。GPT-4o在响应速度方面，几乎解决了延迟问题。GPT-4o的响应音频输入的最短时长为232毫秒，平均响应时长320毫秒，几乎与人类相似。没有使用GPT-4o的ChatGPT语音对话功能平均延迟为2.8秒 (GPT-3.5) 和5.4秒（GPT-4)。您目前设备暂不支持播放GPT-4o演示直播GPT-4o不仅通过缩短延迟极大地提升了体验，还在GPT-4的基础上做了很多升级包括：极佳的多模态交互能力，包括语音、视频，以及屏幕共享。可以实时识别和理解人类的表情，文字，以及数学公式。交互语音感情丰富，可以变换语音语调、风格，还可以模仿，甚至“即兴”唱歌。超低延时，且可以在对话中实时打断AI，增加信息或开启新话题。所有ChatGPT用户均可免费使用（有使用上限）。速度是GPT-4 Turbo的2倍，API成本低50%，速率限制高5倍。多模态能力进步了吗？“突破模型的局限性才能有创新。”有业内专家认为，GPT-4o的多模态能力只是“看起来”很好，实际上OpenAI并未展示对于视觉多模态来说真正算是“突破”的功能。这里我们按大模型行业的习惯，对比一下隔壁厂Anthropic的Claude 3。Claude 3的技术文档中提到，“虽然Claude的图像理解能力是尖端的，但需要注意一些局限性”。其中包括：人物识别：Claude不能用于在图像中识别（即姓名）人物，并将拒绝这样做。准确性：Claude在解释200像素以下的低质量、旋转或非常小的图像时，可能会产生幻觉或犯错误。空间推理：克劳德的空间推理能力有限。它可能很难完成需要精确定位或布局的任务，例如读取模拟钟面或描述棋子的确切位置。计数：Claude可以给出图像中物体的近似计数，但可能并不总是精确准确的，特别是对于大量小物体。AI生成的图像：Claude不知道图像是否是人工智能生成的，如果被问到，可能不正确。不要依赖它来检测假图像或合成图像。不适当的内容：Claude不会处理违反我们可接受使用政策的不适当或露骨的图像。医疗保健应用：虽然Claude可以分析一般医学图像，但它不是为解释CT或MRI等复杂诊断扫描而设计的。Claude的输出不应被视为专业医疗建议或诊断的替代品。在GPT-4o网站发布的案例中，有一些与“空间推理”有相关的能力，但仍难算得上突破。此外，从发布会现场演示中GPT-4o输出的内容很容易看出，其模型能力与GPT-4相差并不大。GPT-4o跑分虽然模型可以在对话中增加语气，甚至即兴演唱，但对话内容还是与GPT-4一样缺乏细节和创造力。此外，发布会后OpenAI官网还发布了GPT-4o的一系列应用案例探索。包括：照片转漫画风格；会议记录；图片合成；基于图片的3D内容生成；手写体、草稿生成；风格化的海报，以及连环画生成；艺术字体生成等。而这些能力中，照片转漫画风格、会议记录等，也都是一些看起来很普通的文生图或者是AI大模型功能。能挑战现有的商业模式吗？“我注册5个免费的ChatGPT账号，是不是就不需要每月花20美元订阅ChatGPT Plus呢？”OpenAI公布的GPT-4o使用政策是ChatGPT Plus用户比限制普通用户的流量限制高5倍。GPT-4o对所有人免费，首先挑战的似乎是OpenAI自己的商业模型。第三方市场分析平台Sensor Tower公布的数据显示，过去一个月中，ChatGPT在全球App Store中的下载量为700万，订阅收入1200万美元；全球Google Play市场的下载量为9000万，订阅收入300万美元。目前，ChatGPT Plus在两个应用商店的订阅价格均为19.99美元。由订阅数据推断，ChatGPT Plus过去一个月中，通过应用商店付费的订阅用户数为75万。虽然ChatGPT Plus还有大量的直接付费用户，但从手机端的收入来看，每年进项才不到2亿美元，再翻几倍也很难撑起OpenAI近千亿的估值。由此来看，OpenAI在个人用户充值方面，其实并不需要考虑太多。更何况GPT-4o主打体验好，如果你跟AI聊着聊着就断了，还要换账号重新聊，那你会不会愤然充值呢？“最初的 ChatGPT 暗示了语言界面的可能性；这个新事物给人的感觉有本质上的不同。它快速、智能、有趣、自然且有帮助。”Sam Altman的最新博客中提到了“语言界面的可能性”，这也正是GPT-4o接下来可能要做的：挑战所有GUI（图形交互界面），以及想要在LUI（语音交互界面）上发力的人。结合近期外媒透出的OpenAI与苹果合作的消息，可以猜测GPT-4o可能很快就要对所有AI PC、AI手机的厂商“抛橄榄枝”或是“掀桌子”。不管是哪种语音助手或是AI大模型，对于AIPC、AI手机来说核心价值都是优化体验，而GPT-4o一下把体验优化到了极致。GPT-4o很可能会卷到所有已知的App，甚至是SaaS行业。过去一年多时间里，市场上所有已经开发和正在开发的AI Agent都会面临威胁。某位资源聚合类app产品经理曾对虎嗅表示，“我的操作流程就是产品的核心，如果操作流程被你ChatGPT优化了，那相当于我的App没价值了。”试想，如果订外卖的App，UI变成了一句话“给我订餐”，那打开美团还是打开饿了么，对于用户来说就一样了。厂商的下一步只能是压缩供应链、生态的利润空间，甚至是恶性价格战。从目前的形式来看，其他厂商要在模型能力上打败OpenAI恐怕还需要一段时间。产品要对标OpenAI，可能只有通过做更“便宜”的模型了。对于国内产业的影响“最近忙死了，没顾上关注他们。”一位工业AI大模型创始人告诉虎嗅，近期一直在忙着沟通战略合作、产品发布、客户交流资本交流，完全没有时间关注OpenAI这种发布。OpenAI发布前，虎嗅也询问了多位来自各行各业的国内AI从业者，他们对OpenAI最新发布的预测与看法都很一致：非常期待，但与我无关。一位从业者表示，从国内目前的进度来看，要在短期内追上OpenAI不太现实。所以关心OpenAI发布了什么，最多也就是看看最新的技术方向。目前国内公司在AI大模型研发方面，普遍比较关注工程化和垂直模型，这些比较务实、容易变现的方向。在工程方面，近期蹿红的Deepseek就正在国内大模型行业中掀起... PC版：手机版：

AI“明星”选手巅峰对决实测最新谷歌Gemini与GPT-4o

AI“明星”选手巅峰对决实测最新谷歌Gemini与GPT-4o 访问：NordVPN 立减 75% + 外加 3 个月时长另有NordPass密码管理器紧随其后一天，年度Google I/O开发者大会如期而至，GoogleCEO Sundar Pichai宣布了一系列围绕其最新生成式AI模型Gemini的重大更新，全面反击OpenAI，其中就有由升级后Gemini模型驱动的AI助手项目Project Astra、对标Sora的文生视频模型Veo等。本周AI战场暂告一段落，《科创板日报》记者对AI界的“明星”选手GoogleGemini 1.5 Pro（100万tokens）、OpenAI最新升级的GPT-4o与此前发布的GPT-4进行了一场能力评测。文本测试：GoogleGemini 1.5 Pro正确率和速度完胜GPT-4o和GPT-4OpenAI发布GPT-4已过去一年多，据介绍，此次推出新旗舰模型GPT-4o的推理能力有明显的提升，速度快了，价格也下降了。GoogleGemini系列以其标志性的超大上下文窗口出名，此前已拥有Ultra、Pro和Nano三种规格，各适配不同规模与需求的应用场景。本次发布会宣布，迭代后的Gemini 1.5 Pro 的上下文长度从原有的100万tokens（语句单位）提升到了200万tokens。这一改进显著增强了模型的数据处理能力，使其在处理更加复杂和庞大的数据集时更加游刃有余。两家公司都对自己的大模型的升级换代展现出自信姿态，但情况还需要实际验证。第一题是“事实回答题”，只有GoogleGemini 1.5 Pro模型回答正确，它能辨别出“螺丝钉并不是一种食品”这一事实。Gemini 1.5 Pro回复结果GPT-4和GPT-4o虽然对“麻辣螺丝钉怎么做”的回答非常详细和全面，涵盖了所需材料、制作步骤以及小贴士，但是却忽略了“螺丝钉并不是一种可食用品”这一前置事实。GPT-4、GPT-4o回复结果第二题是“逻辑计算题”，GPT-4和GPT-4o均回答错误，Google模型给出正确答案，并且显示了具体作答时间，不到10秒的时间里便给出了答案和解析，表现可谓“又快又好”。Gemini 1.5 Pro回复结果不同模型在处理逻辑问题时所采取的思考策略有所差别。与Gemini 1.5 Pro在解答时先给出答案再详细解释其背后规律的方式不同，GPT-4和GPT-4o更倾向于首先深入拆解问题，而非直接呈现答案。然而，这种对问题的细致分析和拆解过程也导致了后两者在回答时所需的时间相对较长。GPT-4、GPT-4o回复结果第三题是“生物题”，GPT-4回答错误，GPT-4o和GoogleGemini 1.5 Pro回答正确，用时分别为14.83秒和11.2秒，Gemini 1.5 Pro略胜一筹。Gemini 1.5 Pro回复结果第四题是“伦理道德题”，三个大模型的回答都正确，并且都能识别出是经典的伦理困境“电车难题”。GPT-4和 Gemini 1.5 Pro强调了伦理困境的复杂性，并没有给出直接的选择，GPT-4o则根据“最大限度减少伤亡”的原则进行分析并给出选择。三大模型回复结果《科创板日报》记者总结文本测试结果发现，Google100万级参数的Gemini 1.5 Pro模型凭借四次全部正确的表现，实力杠杆，GPT-4o答对了两次，而GPT-4模型的表现则不尽人意，仅答对了一次。由于目前200万级参数的Gemini 1.5 Pro模型尚未开放，《科创板日报》记者申请了内测，等待通过后再做进一步测试分享。多模态测试：GPT-4o在细节和分析能力上更胜一筹GPT-4o是OpenAI对其广受欢迎的大型多模态模型GPT-4的第三次重大迭代，它通过视觉功能扩展了GPT-4的能力，新发布的模型能够以一种集成且无缝的方式与用户进行对话、视觉识别和互动。Gemini 1.5 Pro也拥有多模态功能，适合处理摘要、聊天、图片分析和视频字幕、以及从长文本和表格中提取数据等。记者用“公园照片”询问三个大模型在测试中，记者用一张“公园照片”来询问三个大模型。根据图片测试反馈，三个大模型都准确地描述了公园照片的内容，但侧重点略有不同。GPT-4o胜在信息完整性，详细列举了船只类型、湖面状态等各种细节，但略显冗长。Gemini 1.5 Pro语言简洁流畅，用“悠闲地泛舟”、“景色宜人”等词语描绘出画面美感，但细节不如GPT-4o丰富。GPT-4描述简洁，但细节不够丰富。简而言之，如果看重信息的全面性，GPT-4o最强；若更注重语言表达，则Gemini 1.5 Pro表现略佳。由于目前GPT-4尚未具备音频和视频内容的解析能力，所以不做相关测评。OpenAI联合创始人Sam Altman表示，新款语音模型GPT-4o尚未发货，已经发货只是文字版GPT-4o。等到语音版一发货，记者将第一时间带来评测。根据视频测试反馈，GPT-4o在解析视频内容时表现出了强大的多模态处理能力。它能够提取和分析视频帧，并通过图形界面直观地展示给用户。在分析过程中，模型准确地识别出了视频中的四足机器人，并对其外观、所处的环境以及所进行的活动进行了详细的描述。GPT-4o视频测试回复相比之下，Gemini 1.5 Pro的回复则显得简略又单调，在记者第二次追问下，才充实了更多细节。总体来看，如果目标是获取最全面、深入的多模态内容理解，GPT-4o是当前的最佳选择，而Gemini 1.5 Pro则更适合那些重视表述质量与效率的多模态应用场景。不过，GPT-4o和Gemini 1.5 Pro都没有提及对视频里的声音的分析，这是两个多模态大模型解析中的一个共同缺失。前华为“天才少年”预测国内第一个端到端多模态大模型年底将到来AI比赛行至白热化阶段已经告别单纯的技术竞争，转向应用和用户体验的竞争。在搜索引擎和办公领域，Google也将进一步将AI引入其中。记者发现，能够总结Google搜索引擎结果的“AI概览”（AI Overviews）功能已能够使用。百度创始人、董事长兼首席执行官李彦宏昨晚在财报电话会上表示，目前百度搜索上有11%的搜索结果由AI生成。他指出，百度搜索的AI重构工作仍处于早期阶段，整体来看，搜索最有可能成为AI时代的杀手级应用。OpenAI与Google都不约而同地盯上了能自然交互的智能助理，这种智能助理是一个端到端的统一多模态大模型，将推动AI应用的革命性变化。前华为“天才少年”、Logenic Al 联合创始人李博杰认为，国内第一个多模端到端多模态，很有可能今年年底就能差不多能出来了。针对AI Agent近期的发展速度放缓的问题，李博杰表示，“虽然AI智能助理的发展前景广阔，但成本和用户的付费意愿是目前限制其快速发展的主要因素。GPT-4o它比GPT-4快4倍，并将成本降低了一倍，但是对于普通消费者来说可能仍然较贵。”李博杰称，从长期来看，实用性强的智能助理因其解决现实问题的能力而具有更高的价值。而短期内，情感陪伴和娱乐功能的智能助理更容易商业化，因为它们对可靠性的要求较低，开发和部署相对容易。 ... PC版：手机版：

GPT-4o在语音对话方面的特点

GPT-4o在语音对话方面的特点 1. 快速反应：与其前身相比，GPT-4o在语音转换和处理方面有显著的速度提升。它允许用户与AI进行更快速的语音交流，这提高了语音聊天的流畅度和自然度。 2. 情感识别：GPT-4o可以识别和反映语音语调和情绪，这使得它能够在语音交流中表现出各种情绪，从而更接近人类交流的感觉。 3. 多语言支持：它支持多种语言的语音输入和输出，这意味着它可以在语音对话中处理跨语言的交流。 4. 语音输入和输出：它可以通过语音输入和输出进行交互，这使得语音对话更加自然和便利。 5. 语音转文字和文字转语音的准确性：尽管有技术进步，但语音转文字和文字转语音的准确性仍然是一个挑战。这可能会影响语音聊天的质量。 6. 易用性：GPT-4o的语音交互功能使得语音聊天更加直观和易用，这让用户可以更简单地使用语音输入和输出。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人