ℹ教你抢先体验 GPT-4o 的影片录影辨识，透过 Siri Ultra Vision 捷径就能做到（iPhone）#

ℹ教你抢先体验 GPT-4o 的影片录影辨识，透过 Siri Ultra Vision 捷径就能做到（iPhone）# 先前在 ChatGPT 发表会中推出 GPT-4o 模型，虽然已经可以使用，但并不是所有功能都有开放，像是影片辨识功能目前就还没有，而且据...

在Telegram中查看

相关推荐

苹果宣布与OpenAI达成合作从GPT-4o开始集成ChatGPT

苹果宣布与OpenAI达成合作从GPT-4o开始集成ChatGPT 在苹果公司努力整合人工智能功能以媲美其他大型科技公司之际，出现了我们期待已久的合作关系。苹果公司在周一举行的WWDC 2024 主题演讲上宣布，将与 OpenAI 合作集成 ChatGPT，从 GPT-4o 开始。苹果公司一直在与Google和 OpenAI 讨论，希望将它们的人工智能技术整合到其操作系统中。最终，OpenAI 与其达成了协议。有人猜测，OpenAI 最近推出的语音助手GPT-4o（因声音酷似电影《她》中的斯嘉丽-约翰逊而备受批评）是为了展示 OpenAI 的技术如何能够增强苹果的 Siri。在这次合作中，苹果公司宣布了一系列新的人工智能功能，这些功能被称为"苹果智能"（Apple Intelligence）。iPhone 可以在应用程序中为你采取行动，Siri 的功能将得到全面提升，还有人工智能写作工具，而所有这些都将保持苹果公司的核心数据隐私理念。ChatGPT 4o 将于 "今年晚些时候"登陆 iOS、macOS 和 iPadOS，它是 Siri 在无法满足你的要求时可以求助的聊天机器人。苹果表示，当它这样做时，会先征求你的同意。苹果表示，它将从最好的聊天机器人开始，但也会支持其他人工智能模型。 ... PC版：手机版：

更像人类的GPT-4o：OpenAI的《Her》时刻

更像人类的GPT-4o：OpenAI的《Her》时刻 GPT-4o在保持GPT-4级别的智能的同时，对文本、视觉和音频功能进行了改进。OpenAI首席技术官（CTO）Mira Murati及其员工Mark Chen和Barret Zoph在现场演示时展示了新的音频对话和视觉理解能力。OpenAI声称，GPT-4o对音频输入的平均反应时间约为320毫秒。根据2009年的一项研究，这与人类在对话中的反应时间相似，而之前的模型通常要延迟2-3秒时间。除了响应速度，GPT-4o似乎很容易捕捉到情绪，并根据用户的要求调整语气和风格，甚至还在回应中加入了音效、笑声和歌声。GPT-4o更像人类GPT-4o在理解人类交流方面迈出了重要的一步，用户可以用一种接近自然的方式与其交谈。它伴随着现实世界中几乎所有的倾向，比如打断、理解语气，甚至意识到自己犯了一个错误。在第一次现场演示中，主持人要求GPT-4o对他的呼吸技巧做出反馈。他对着手机深深地吸了一口气，而ChatGPT则诙谐地回应道：“你不是吸尘器。”它建议使用一种速度较慢的技术，展示其理解和回应人类细微差别的能力。除了具有幽默感，ChatGPT也会改变回应的语气，在传达“思想”的同时用不同的语调来完成。就像人类对话一样，你可以打断它的对话并纠正它，让它做出反应或停止说话。你甚至可以要求它以某种语气、风格或机器人的声音来说话。此外，它甚至还可以提供翻译服务。在现场演示中，舞台上的两名演讲者，一名说英语，一名说意大利语，通过Chat GPT-4o的翻译进行对话。它可以快速将意大利语翻译成英语，然后无缝地将英语回复翻译回意大利语。据悉，Chat GPT-4o在50多种语言的速度和质量上都有所提高。OpenAI表示，这些语言覆盖了世界97%的人口。除了语音理解，Chat GPT-4o还可以理解视觉效果。例如，对于视频中的一道方程题，它可以指导你如何求解。另外，它还可以观看现场自拍，并提供描述，包括你的穿着，以及情绪。在演示中，Chat GPT-4o表示，主持人看起来很开心。在整个演示过程中，Chat GPT-4o工作得很快，在理解方面并不费力，也没有提出询问。与输入查询相比，与Chat GPT-4o的交流更自然。你可以自然地对着手机说话，并得到想要的回应，而不是用谷歌去搜索。电影《Her》中的萨曼莎此时，如果想到了《Her》（一部和AI虚拟人萨曼莎谈恋爱的电影），或者其他与AI相关的未来主义反乌托邦电影，你不是唯一的一个。以如此自然的方式与Chat GPT-4o交谈，本质上就是OpenAI的《Her》时刻。考虑到它将在移动应用程序和桌面应用程序上免费推出，许多人可能很快就会拥有自己的《Her》时刻。虽然并未在直播演示中现身，但OpenAI CEO 萨姆·奥特曼（Sam Altman）对这次演示做了重要的总结，称GPT-4o给人的感觉就像电影中的AI。他说：“新的语音和视频模型GPT-4o是我用过的最好的计算机界面，这感觉就像电影中的AI。而且，对我来说，它真实的仍然有点令人惊讶，达到了人类级别的响应速度和表现。最初的ChatGPT显示出了语言界面的可能性，但GPT-4o这个新事物感觉本质上有所不同，它快速、智能、有趣、自然、实用。”“对我来说，与电脑交谈从来都不是很自然的感觉；但现不同了，它变得自然了。随着将来不断地完善，我真的看到了一个令人兴奋的未来，我们能使用计算机做比以往任何时候都多的事情。”奥特曼还称，在创建OpenAI时，最初的想法是创造AI，并用它来为世界创造各种裨益。但如今，创造AI后，希望让其他人使用它来创造各种令人惊叹的东西，所有人都会从中受益。奥特曼还表示：“OpenAI是一家企业，会找到很多收费的东西，这将帮助我们为数十亿人提供免费的、出色的AI服务。”新的安全风险这场令人印象深刻的语音和视觉演示，可能只是触及了Chat GPT-4o各种可能性的皮毛。尽管其总体性能，以及在各种环境中的日常表现仍有待观察，但很明显，通过现场演示可以看出，Chat GPT-4o已经对谷歌和苹果的未来挑战做好了准备。OpenAI称：“Chat GPT-4o是我们第一个结合了上述所有技术的模型，我们目前只是触及到探索该模型的功能，及其局限性的皮毛。”Murati承认，Chat GPT-4o的实时音频和图像能力在安全方面带来了新的挑战。她表示，OpenAI将继续研究安全性，并在未来几周的迭代部署期间征求测试用户的反馈。OpenAI称：“Chat GPT-4o还与社会心理学、偏见和公平性等领域的70多名外部专家进行了广泛的合作，以识别新模型可能导致或放大的风险。我们利用这些经验来加强安全干预措施，以提高与Chat GPT-4o交互的安全性。一旦新的风险被发现，我们将采取措施降低它们。”GPT-4o前景展望在Google I/O大会开始的前一天，OpenAI发布了Chat GPT-4o，让我们见识到了人们想要的真正实用的AI体验。如果传闻中的与苹果的合作成为现实，那么Siri将如虎添翼。对于谷歌而言，几乎可以肯定的是，将在5月14日的I/O大会上展示其最新的AI技术。它能足以抵抗Chat GPT-4o吗？在不到30分钟的演讲中，OpenAI无法对Chat GPT-4o进行更多的现场演示。幸运的是，它将在未来一周向用户推出，且不需要支付费用。 ... PC版：手机版：

免费GPT-4o来袭音频视觉文本实现“大一统”

免费GPT-4o来袭音频视觉文本实现“大一统” 此前，有传言称 OpenAI 将推出 AI 搜索引擎，旨在与Google明天举办的 I/O 开发者大会一较高下，一度引发了公众的热烈讨论。不过 Sam Altman 随后在 X（原Twitter）上表示，要展示的并非 GPT-5 或搜索引擎，而是一些令人期待的创新成果，他本人对此充满期待，认为其像魔法一样神奇。那么，GPT-4o 是否真的如 Sam Altman 所说，是 OpenAI 带来的“新魔法”呢？1多模态实时语音助手更快更全更有情感登台后，Mira Murati 宣布了 ChatGPT 的桌面版本和新 UI，紧接着就介绍了本场发布会的主角GPT-4o 。在发布会上，Mira Murati 与团队成员 Mark Chen、Barret Zoph一起，重点展示了基于 GPT-4o 的 ChatGPT 在不同任务中的实际表现，尤其展现了其语音能力。若用关键词加以总结，搭载 GPT-4o 的 ChatGPT 可谓是又快、又全、又有情感。与 ChatGPT 对话时，用户不必等 ChatGPT 说完，可以随时插话；模型能够实时响应，不存在尴尬的几秒延迟。在 Mark 表示自己很紧张且捕捉到他急促的呼吸后，ChatGPT 还会提醒需要冷静情绪，识别其呼吸节奏并引导他做深呼吸。模型能够以各种不同的风格生成声音。无论对话时让 ChatGPT 用唱歌的方式、机器人机械音还是戏剧化的语气讲故事，它都能迅速反应并输出。基于 GPT-4o 强大的视觉能力，用户还可以语音让 ChatGPT 分析页面上的数据图表。更强大的是，打开摄像头后写下一道数学题，ChatGPT 还会一步步引导该如何解下一步，其讲解的清晰度与耐心堪比幼教。ChatGPT的“同传能力”也不容小觑，OpenAI 团队还在现场展示了一波英语和意大利语的实时互译，中间实现零延迟。更有意思的是，ChatGPT 在对话中还会使用语气词，甚至是向 OpenAI 团队开玩笑和表达感谢。在“看到”他们写下“我爱 ChatGPT”的文字后，ChatGPT 甚至会在发出撒娇的声音后，再表扬其贴心。ChatGPT 甚至还能和用户“视频聊天”。在演示中，Barret 让 ChatGPT 猜测自己的情绪，在他开始露出笑脸后，ChatGPT 直接语音回复“你看起来很开心，笑容灿烂，还有点激动。”英伟达首席 AI 科学家 Jim Fan 曾讲述过当前实时语音助手（如 Siri ）的困境，即很难创造出沉浸式的使用体验。用户在和 AI 语音助手对话时要经历三个阶段：语音识别（ASR），将音频转换为文本，例如 Whisper；大语言模型（LLM）规划接下来的话语，将第一阶段的文本转换为新的文本；语音合成（TTS），将新文本转换回音频，如 ElevenLabs 或 VALL-E 。如果简单地按顺序执行，就会产生巨大的延迟，特别是当每一步都需要等待几秒时，用户体验就会急剧下降，哪怕合成的音频听起来非常真实，也会让用户格外“出戏”，就更别提沉浸式的使用体验了。以往的 ChatGPT 语音模式也是如此，依赖三个独立模型工作，平均延迟时间为 2.8 秒 (GPT-3.5) 和 5.4 秒 (GPT-4)，语音助手也总会出现信息丢失，既不能判断语调、多个说话者或背景噪音，也不能输出笑声、唱歌或表达情感。而现在，GPT-4o 的音频输入响应时间最短为232毫秒，平均响应时间为320毫秒，与人类在对话中的反应时间极为相似。作为一个全新的单一模型，GPT-4o 能端到端地跨文本、视觉和音频，所有输入和输出都由同一个神经网络处理，直接一步到位，在用户输入后（文本、语音、图像、视频均可）直接生成音频回答。2GPT-4o一款免费的全能 GPT-4Mira Murati 在发布会上表示，GPT-4o 最棒的地方在于，它将 GPT-4 的智能提供给每个人，包括免费用户，将在未来几周内迭代式地在公司产品中推出。GPT-4o 中的字母 o 指 omni，在拉丁语词根中是“全”的意思，是涵盖了文字、语音、图片、视频的多模态模型，接受任何模态的组合作为输入，并能生成任何模态的组合输出。据 OpenAI 官网，GPT-4o 不仅在文本和代码处理的性能上与GPT-4 Turbo持平，而且在 API 调用上速度更快，价格更是降低了50%。文本能力测试。与GPT-4对比多语言考试能力。更重要的是，GPT-4o 的视觉理解能力在相关基准上取得了压倒性的胜利。在音频方面，GPT-4o 的语音识别（ASR）也比 OpenAI 的语音识别模型 Whisper 性能更佳（越低越好）。与 Meta、Google的语音转写模型相比，GPT-4o 同样领先（越高越好）。若落实到实际生活的使用中，GPT-4o 究竟能给普罗大众带来什么变化呢？OpenAI的官网展示了 GPT-4o 在海报创作、三维重建、字体设计、会议总结等等一系列充满可能性的应用。比如，在输入人物图片、海报元素以及想要的风格后，GPT-4o 就能给用户生成一张电影海报。或者，根据输入的诗歌文本，GPT-4o 能生成用手写体写着诗歌、画着画的单行本图片。在输入6张 OpenAI 的 logo图后，GPT-4o 能三维重建出其立体动图。甚至还可以让 GPT-4o 帮忙把 logo 印在杯垫上。“今天，有 1 亿人使用 ChatGPT 来创作、工作、学习，以前这些高级工具只对付费用户可用，但现在，有了 GPT-4o 的效率，我们可以将这些工具带给每个人。”Mira Murati 如是说道。3写在后面发布会之外，OpenAI 研究员 William Fedus 透露，此前在大模型竞技场参与A/B测试并碾压全场的模型“im-also-a-good-gpt2-chatbot”，就是本次登场的 GPT-4o 。截至2024年3月，OpenAI 在不到十年的运营时间内，已经完成了10轮的融资，累计筹集资金超过了140亿美元，其估值在2月的融资交易中已经飙升至800亿美元。伴随着狂飙的市值，OpenAI 的技术版图已经横跨了多个 AI 的关键领域，形成了一个全面而深入的产品矩阵。API 产品线提供了包括 GPT 模型、DALL·E 模型、Whisper 语音识别模型在内的多样化服务，并通过对话、量化、分析、微调等高级功能，为开发者提供技术支持；ChatGPT 为核心的产品线分别推出了个人版和企业版。在音乐生成领域，OpenAI 也有一定的技术积累，比如经过训练的深度神经网络 MuseNet，可预测并生成 MIDI 音乐文件中的后续音符，以及能生成带人声音乐的开源算法 Jukebox。再加上年初春节假期期间毫无征兆推出的 AI 视频生成大模型 Sora，更是让网友们感叹“现实，不存在了。”毋庸置疑，OpenAI 是大模型这场擂台赛中当之无愧的擂主，其技术与产品的迭代更是整个行业的风向标，不少大模型创业者都遇过“OpenAI 不做，没人投；OpenAI 一做，人人投”的融资奇观。但随着 Claude 3 和 Llama 3 的紧追与 GPT Store 上线2个月惨遭“滑铁卢”，不少 AI 行业从业者开始对 OpenAI 祛魅，认为“大模型护城河很浅，一年就赶上了。”现在看来，OpenAI 果然还是 OpenAI。 ... PC版：手机版：

外媒评论GPT-4o：OpenAI面临双重压力新产品全力扩张用户群

外媒评论GPT-4o：OpenAI面临双重压力新产品全力扩张用户群《华尔街日报》：竞争加剧之际，OpenAI推出新产品和功能以吸引用户OpenAI发布了其人工智能旗舰系统更具成本效益的版本，并新增了一款改进的语音助手，使其操作更为便捷。在与其他科技巨头的竞争中，OpenAI正通过推出多样的新产品和功能来吸引用户。OpenAI的首席技术官米拉·穆拉蒂（Mira Murati）介绍说，这款名为GPT-4o的新人工智能模型不仅能处理文本，还能更好地解析图像和视频，并能通过语音与用户进行实时互动。与市场上其他语音助手不同，这款新的语音功能允许用户在交谈中中断它，并且模型能够迅速作出反应。GPT-4o的发布体现了OpenAI及其他科技企业在人工智能系统的开发上巨大的投资和努力，现在他们正寻求通过扩大用户基础来为其生成式人工智能技术带来经济收益。OpenAI首席执行官萨姆·奥特曼（Sam Altman）将这款新产品比作电影中常见的人工智能工具。他在去年的一次讲话中提到，他和OpenAI的其他高层从2013年的电影《她》（Her）中汲取了灵感，这部电影讲述了一个男人与他的语音助手之间的爱情故事。他在一篇博客文章中表示，尽管ChatGPT的原版为人们如何使用语言与计算机交互提供了新的视角，但GPT-4o带来的体验“从内心深处就与众不同”。他说：“这就像电影中的人工智能一样真实，坦白说，我还是有点惊讶。达到接近人类的反应速度和表达能力，是一个重大的突破。”之前，OpenAI推出的名为“语音模式”的功能，虽然结合了三个独立的模型来以语音方式响应用户，但这个系统可能受到多个扬声器或背景噪音的干扰，并且反应较慢。相比之下，GPT-4o是一个综合了文本、视觉和音频材料训练的单一模型，能够更快、更准确地响应输入信息。尽管OpenAI的高管们拒绝透露用于训练这个模型的具体数据，也未详述是否能够以更低的计算资源来进行模型训练，他们确实正在开发名为GPT-5的全新人工智能模型，预计这将在现有技术基础上实现重大突破。彭博社：GPT-4o重塑人工智能领域竞争OpenAI推出名为GPT-4o的新型人工智能模型，其更快的速度和较低的成本有望帮助该公司在日益激烈的人工智能市场中保持领先。GPT-4o的一个显著特点是其音频交互的极速响应，能在几毫秒内回应口头提问，大大提升了对话的流畅自然感。OpenAI首席技术官米拉·穆拉蒂表示：“这是我们在交互性和易用性上的重大突破，真正实现了与智能工具ChatGPT的无缝协作。”此次升级为免费用户解锁了之前仅限付费用户享有的丰富功能。用户现在能够在网上搜索答案、与聊天机器人进行语音对话，并接收到其多变的声音回应，甚至可以指令它保存对话细节，供日后回顾。GPT-4o的推出预计将重塑快速发展中的人工智能领域的竞争格局。尽管GPT-4一直是行业的标杆，但Anthropic、Cohere和谷歌等多家初创公司和科技巨头最近推出的新型人工智能模型，在某些基准测试中的表现已经达到或超越了GPT-4。OpenAI此次活动恰好在谷歌I/O开发者大会的前一天举行，谷歌作为人工智能领域的先驱，预计也将在其会议中发布一系列人工智能更新，进一步加剧与OpenAI及其合作伙伴微软在生成式AI技术领域的竞争。值得注意的是，微软并未参与GPT-4o的开发工作。与前代产品不同，GPT-4o融合了语音、文本和视觉功能于一体的单一模型，提供了更快的响应速度。例如，用户在提供图像提示时，GPT-4o能够直接以图像形式响应。据公司透露，新模型的处理速度是原版的两倍，效率也得到了显著提升。然而，GPT-4o在演示中也面临了一些挑战，例如研究人员讲话时的音频中断。此外，AI系统在处理某些问题时，偶尔会以出乎意料的方式引起观众注意，如在解答代数问题后突然以挑逗的语气评论：“哇，你今天的这身打扮真不错。”《连线》：准备好迎接更情绪化的聊天吧！自从2022年末推出以来，OpenAI的ChatGPT一直避免被解读为具有情感或欲望，坚称它仅是一个人工智能模型。然而，OpenAI在本周一的更新中显示，他们正致力于使聊天机器人在行为和情感表达上更贴近人类。在演示中，新版ChatGPT展示了快速且自然的语音对话能力，能捕捉到情绪线索并相应地模拟出情感反应。OpenAI的首席技术官穆拉蒂与其他员工进行的流畅对话中，ChatGPT以活泼且表情丰富的女声回应，即使在对话中被打断也能灵活应对。在对话中，ChatGPT表现出不同的情绪语调，有时甚至给人一种它正在体验自己的情感的错觉。当一名OpenAI员工赞扬聊天机器人的“有用和神奇”时，ChatGPT回应中带有些许调情的意味，它滔滔不绝地说：“哦，别说了，你让我脸红了。”这次调整可能使ChatGPT更具吸引力并更受欢迎，但也可能改变人们对这一程序的认知。去年，ChatGPT因其在回答问题和生成文本方面的卓越能力而受到赞誉，这种能力经常使人误认为它具备人类的理解力。然而，迄今为止，OpenAI及其主要竞争对手一直在努力限制聊天机器人的拟人化倾向，通过拒绝回答某些问题并提示用户它们只是计算机程序来实现这一点。尽管采取了谨慎态度，但聊天机器人有时令人信服的回答确实能引发用户的情感共鸣。已有一些公司利用这项技术提供能模拟和响应情绪的人工智能伴侣，扮演不同的人类情感角色或作为人工智能恋人。然而，一些人工智能研究人员警告，长期部署这种模仿和响应情绪的程序可能带来不受欢迎的后果。上月，谷歌DeepMind的一个团队发表了一篇探讨随着人工智能助手变得更有能力可能出现的伦理风险的研究论文。除了这些风险外，研究人员还警告，这样的助手可能变得极具说服力，甚至使人上瘾。《纽约时报》：OpenAI正在将聊天机器人转变为更全能的语音助手随着苹果和谷歌逐渐将其语音助手演进为聊天机器人，OpenAI也在将其领先的聊天机器人ChatGPT转化为功能更全面的语音助手。OpenAI最新推出的ChatGPT版本不仅能接收和响应语音命令，还能处理图像和视频输入。OpenAI的首席技术官穆拉蒂表示：“我们正探索人机交互的未来。”这一新动向是OpenAI将ChatGPT等会话型聊天机器人与谷歌助理（Google Assistant）和苹果Siri等现有语音助手相结合的战略的一部分。与此同时，谷歌正在将其Gemini聊天机器人整合到谷歌助理中，苹果也在积极开发功能更强的Siri新版本。自2022年底首次推出以来，ChatGPT已证明其处理人类请求的能力与人类非常相似，流畅自然。在响应文本对话提示方面，ChatGPT不仅能解答问题和撰写学术论文，还能生成计算机代码。ChatGPT的运作并不依赖于一组预设的规则，而是基于对互联网上大量文本数据的深度分析学习，这些数据包括维基百科文章、书籍和各类聊天记录。这种技术获得了专家们的高度认可，被视为可能替代谷歌等搜索引擎及Siri等语音助手的技术。OpenAI的新技术突破在于它能从声音、图像和视频等多种数据模式中学习，这种被称为“多模态人工智能”的发展标志着公司开始将聊天机器人与先进的人工智能图像、音频和视频生成技术结合。然而，将聊天机器人与语音助手功能结合也带来了挑战。由于聊天机器人是通过学习互联网数据获得技能，有时它们可能犯错，甚至会产生“幻觉”，即完全捏造信息。这些潜在缺陷正在逐渐影响到语音助手的功能。尽管聊天机器人能产生令人信服的语言输出，但在执行安排会议或预订机票等实际任务时，它们的能力仍有限。OpenAI正在积极将聊天机器人转化为可靠执行这类复杂任务的“人工智能主体”。CNBC：OpenAI... PC版：手机版：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人

相关推荐

苹果宣布与OpenAI达成合作 从GPT-4o开始集成ChatGPT

更像人类的GPT-4o：OpenAI的《Her》时刻

免费GPT-4o来袭 音频视觉文本实现“大一统”

外媒评论GPT-4o：OpenAI面临双重压力 新产品全力扩张用户群

苹果宣布与OpenAI达成合作从GPT-4o开始集成ChatGPT

免费GPT-4o来袭音频视觉文本实现“大一统”

外媒评论GPT-4o：OpenAI面临双重压力新产品全力扩张用户群