GPT-4o 17人Omni金牌团队首揭秘清北上交中科大6位华人领衔

GPT-4o 17人Omni金牌团队首揭秘清北上交中科大6位华人领衔就在刚刚，GPT-4o的关键团队信息，也被公布了出来。就是这个名为“omni”的团队，发挥出了不可思议的潜力，让OpenAI的首个原生全多模态模型成为可能。Sam Altman盛赞，如果没有团队负责人Prafulla Dhariwal长期以来的远见、才智、信念和决心，就没有GPT-4o。而整个团队的努力，才使得他所期待的人机交互革命成为现实。OpenAI联创Greg Brockman，也表扬了这位肩负着整个团队使命的负责人。多亏了Prafulla Dhariwal“建立全能大模型”的信念，并且在过去的18个月中联合了OpenAI的许多团队，在多个团队的通力合作下，GPT-4o才得以诞生。根据负责人的说法，其实OpenAI早就有意打造这样一个Omni大模型了。然而一年多之前，团队曾经做过多次多模态的尝试，却没有一次能让最大的GPT成功地完成多模态运行。幸运的是，团队成员齐心协力，用出色的能力攻克了种种能力，使GPT-4o成为可能。网友锐评：“你们确实处于创新的前沿，执行水平达到了大型科技巨头梦寐以求的水平。”而如此惊艳的演示，竟然是一个不到20人的小团队打造出来的。Omni团队揭秘接下来，一起看看打造OpenAI首个原生多模态GPT-4o背后团队成员，都有谁？负责人Prafulla Dhariwal领导GPT-4o开发的负责人Prafulla Dhariwal，是一位印度小哥。他于2017年获得了麻省理工学院的计算机科学学士学位。毕业前夕，Dhariwal就加入了OpenAI（那时OpenAI仅成立一年），并在17年正式成为研究科学家。至今，Dhariwal任职OpenAI 7年，可以说，他见证了这家初创公司的成长全过程。在此期间，Dhariwal参与了诸多重磅的研究。根据LinkedIn个人主页，他将发表论文的领域分类为生成式模型、无监督学习、Scaling Law、定理证明、强化学习、量子复杂性。其中包括DALL·E 3、DALL·E 2，模型一致性等，还共同提出了著名的“Scaling Law”。值得一提的是，Dhariwal曾在高中期间参加了几次国际奥林匹克竞赛。他是2012年IMO竞赛的金牌得主，也是IAO（国际天文学奥林匹克竞赛）、IPhO（国际物理奥林匹克）的金牌获得者。有网友称，Prafulla Dhariwal从高中起就是我的灵感来源。他当年为印度赢得了IAO、IPhO和IMO的金牌，并在OpenAI大学毕业后从事非常酷的VAE、Gans、DDPM、一致性模型等项目。6位华人Li JingLi Jing在团队中发挥的作用是，让大家拥有令人惊叹的图像/3D生成。此前，他为Dall-E 3、Sora、GPT-4o都做出过贡献。他曾在Meta做过2年的博后研究员，随后进入OpenAI成为全职研究员。虽然才入职OpenAI不到两年，但他已参与过多个OpenAI的重磅研究了。他在北京大学获得物理学学士学位，在MIT获得物理学博士学位。Casey ChuCasey Chu是团队的老员工了。他从2020年4月就入职了OpenAI，如今已经是4年的“元老”了。他本科在哈维·穆德学院获得数学学士学位，在斯坦福大学获得计算数学硕士学位。Mark ChenMark Chen是OpenAI的前沿研究主管，并且还是美国IOI队的教练。在团队漫长的研究中，Mark Chen是大家奋斗的支柱。他已是OpenAI五年多的老员工。此前曾在微软、Trading实习，在哈佛做访问学者，在量化研究工作过5年，并且成为合伙人。他毕业于MIT数学-计算机专业。Jiahui Yu（于佳慧）Jiahui Yu负责带领OpenAI的感知团队。此前，他曾担任Google Brain和Google DeepMind的高级研究科学家和经理。他的研究领域包括序列建模（语言、语音、视频、金融数据）、计算机视觉、生成模型和高性能计算。在研究生期间，他在微软亚研院、旷视科技、Adobe Research、Snap Research、Jump Trading、百度研究院、NVIDIA Research和Google Brain都有过实习经历。他本科毕业于中国科技大学少年班，获得计算机学士学位。博士毕业于伊利诺伊大学香槟分校。Huiwen ChangHuiwen Chang在OpenAI已经工作一年。此前她曾在Google工作过5年，在微软亚研院、Adobe、Facebook有过实习经历。她在清华大学计算机科学实验班（姚班）取得学士学位，然后在普林斯顿大学取得博士学位。Yu Zhang他在OpenAI工作了8个月。他此前曾在GoogleDeepMind工作过6年，还在微软亚研院、微软实习过。他本科在上海交通大学取得计算机学士学位，在MIT取得博士学位。其他关键成员James BetkerJames Betker在这个团队中负责得非常全面，应有尽有，包括图像、音频、数据、集成、后训练（post-training）。这是从Google跳槽至OpenAI的大咖。在加入OpenAI之前，Betker曾在Google担任了3年的软件工程师。此外，他还在2011年加入了Garmin International，现任职高级软件工程师。他曾获得了UCSB的计算机科学动查看学士学位，与此同时，在2005-2009年期间，还是在学校担任4年的软件工程师。Jamie KirosJamie Kiros让GPT-4获得当前最佳的视觉感知能力，做出了非凡的成绩。此前，他曾在Google工作过3年。他在多伦多大学取得计算机博士学位。Rowan ZellersRowan Zellers在Omni团队中的贡献是，让OpenAI可以像人一样自然地看到视频。毕业后，他加入了艾伦人工智能研究所（AI2）成为研究实习生。2022年6月，成为OpenAI的一名技术人员。Zellers曾获得了哈维·穆德学院（Harvey Mudd College）的数学和计算机科学的学士学位，以及华盛顿大学计算机科学博士学位。Alexis Conneau在加入OpenAI之前，Alexis Conneau就已经提出了“Her”（视觉模型）的理念，并且坚持不懈地执行并实现了它。目前，Conneau是OpenAI的语音AGI负责人。进入他的个人主页，就知道Conneau对Her有多么痴迷了。Conneau在加入OpenAI之前，曾在Meta、Google担任过研究科学家，有着9年的自然语言深度学习的经验。华盛顿邮报曾对Conneau进行了个人专题报道Alexis Conneau曾帮助Meta（Facebook）和Google打造了以惊人的精确性理解数十种语言的AI系统。在Meta期间，Conneau团队推进了机器学识算法，将语言用数字抽象形式表现的能力，最终训出能够处理同步语言的AI。比如XLM-R模型可以处理100+语言，其准确性几乎与单一语言模型一致。Conneau在Meta做的最后一项工作是Wave2vec-U。这是一种无人监督的语音识别系统，可以从音频中读取单词。此外，他还发明了一种算法XLm-Roberta，能够阅读各种语言的海量数据。这项研究也成为他被引最高的成果。他曾获得了Facebook AI Research的计算机科学博士学位，在巴黎-萨克雷高等师范学校获得了机器学习硕士学位，以及巴黎综合理工学院获得了数学硕士学位。Gabriel GohGabriel Goh和接下来要介绍的Ishaan Gulrajani，在团队中主要贡献是，提出了一系列相关的“Scaling Law”的工作。这样当所有这些模态（视觉、语音等）汇集在一起时，模型便可以擅长处理一切事物!Gabriel Goh也是OpenAI 5年多的老员工，此前曾在苹果工作1年半。他在英属哥伦比亚大学取得硕士学位，在加州大学戴维斯分校取得了数学专业博士学位。CBC曾报道过Gabriel Goh到OpenAI后，在2021年设计的CLIP系统。他参与的这项研究，揭示了CLIP无法正确识别图像，会把放着iPod字样的苹果识别为iPod。Ishaan GulrajaniIshaan Gulrajani目前是OpenAI的研究员。根据OpenReview的介绍，他曾在Google和Meta工作过。并在MIT获得学士学位，以及在斯坦福大学获得博士学位。Alex NicholAlex Nichol在团队中主攻3D图像生成，也是DALL·E 2的共同发明者。此前，他一直是一位自由职业者。随后，在2107年加入了OpenAI任技术研究员，中间还离职有近一年时间，并在2020年5月再次入职。比如，在GPT-4o官方报博客中的演示，它可以生成一致的试图，重建复杂3D模型。这些所展示出的成果，离不开Nichol的贡献。Heewoo Jun与Nichol一样，Heewoo Jun在团队中也在负责图像、3D生成。根据OpenReview介绍，他曾在2015-2019年间在百度（美国... PC版：手机版：

在Telegram中查看

相关推荐

更像人类的GPT-4o：OpenAI的《Her》时刻

更像人类的GPT-4o：OpenAI的《Her》时刻 GPT-4o在保持GPT-4级别的智能的同时，对文本、视觉和音频功能进行了改进。OpenAI首席技术官（CTO）Mira Murati及其员工Mark Chen和Barret Zoph在现场演示时展示了新的音频对话和视觉理解能力。OpenAI声称，GPT-4o对音频输入的平均反应时间约为320毫秒。根据2009年的一项研究，这与人类在对话中的反应时间相似，而之前的模型通常要延迟2-3秒时间。除了响应速度，GPT-4o似乎很容易捕捉到情绪，并根据用户的要求调整语气和风格，甚至还在回应中加入了音效、笑声和歌声。GPT-4o更像人类GPT-4o在理解人类交流方面迈出了重要的一步，用户可以用一种接近自然的方式与其交谈。它伴随着现实世界中几乎所有的倾向，比如打断、理解语气，甚至意识到自己犯了一个错误。在第一次现场演示中，主持人要求GPT-4o对他的呼吸技巧做出反馈。他对着手机深深地吸了一口气，而ChatGPT则诙谐地回应道：“你不是吸尘器。”它建议使用一种速度较慢的技术，展示其理解和回应人类细微差别的能力。除了具有幽默感，ChatGPT也会改变回应的语气，在传达“思想”的同时用不同的语调来完成。就像人类对话一样，你可以打断它的对话并纠正它，让它做出反应或停止说话。你甚至可以要求它以某种语气、风格或机器人的声音来说话。此外，它甚至还可以提供翻译服务。在现场演示中，舞台上的两名演讲者，一名说英语，一名说意大利语，通过Chat GPT-4o的翻译进行对话。它可以快速将意大利语翻译成英语，然后无缝地将英语回复翻译回意大利语。据悉，Chat GPT-4o在50多种语言的速度和质量上都有所提高。OpenAI表示，这些语言覆盖了世界97%的人口。除了语音理解，Chat GPT-4o还可以理解视觉效果。例如，对于视频中的一道方程题，它可以指导你如何求解。另外，它还可以观看现场自拍，并提供描述，包括你的穿着，以及情绪。在演示中，Chat GPT-4o表示，主持人看起来很开心。在整个演示过程中，Chat GPT-4o工作得很快，在理解方面并不费力，也没有提出询问。与输入查询相比，与Chat GPT-4o的交流更自然。你可以自然地对着手机说话，并得到想要的回应，而不是用谷歌去搜索。电影《Her》中的萨曼莎此时，如果想到了《Her》（一部和AI虚拟人萨曼莎谈恋爱的电影），或者其他与AI相关的未来主义反乌托邦电影，你不是唯一的一个。以如此自然的方式与Chat GPT-4o交谈，本质上就是OpenAI的《Her》时刻。考虑到它将在移动应用程序和桌面应用程序上免费推出，许多人可能很快就会拥有自己的《Her》时刻。虽然并未在直播演示中现身，但OpenAI CEO 萨姆·奥特曼（Sam Altman）对这次演示做了重要的总结，称GPT-4o给人的感觉就像电影中的AI。他说：“新的语音和视频模型GPT-4o是我用过的最好的计算机界面，这感觉就像电影中的AI。而且，对我来说，它真实的仍然有点令人惊讶，达到了人类级别的响应速度和表现。最初的ChatGPT显示出了语言界面的可能性，但GPT-4o这个新事物感觉本质上有所不同，它快速、智能、有趣、自然、实用。”“对我来说，与电脑交谈从来都不是很自然的感觉；但现不同了，它变得自然了。随着将来不断地完善，我真的看到了一个令人兴奋的未来，我们能使用计算机做比以往任何时候都多的事情。”奥特曼还称，在创建OpenAI时，最初的想法是创造AI，并用它来为世界创造各种裨益。但如今，创造AI后，希望让其他人使用它来创造各种令人惊叹的东西，所有人都会从中受益。奥特曼还表示：“OpenAI是一家企业，会找到很多收费的东西，这将帮助我们为数十亿人提供免费的、出色的AI服务。”新的安全风险这场令人印象深刻的语音和视觉演示，可能只是触及了Chat GPT-4o各种可能性的皮毛。尽管其总体性能，以及在各种环境中的日常表现仍有待观察，但很明显，通过现场演示可以看出，Chat GPT-4o已经对谷歌和苹果的未来挑战做好了准备。OpenAI称：“Chat GPT-4o是我们第一个结合了上述所有技术的模型，我们目前只是触及到探索该模型的功能，及其局限性的皮毛。”Murati承认，Chat GPT-4o的实时音频和图像能力在安全方面带来了新的挑战。她表示，OpenAI将继续研究安全性，并在未来几周的迭代部署期间征求测试用户的反馈。OpenAI称：“Chat GPT-4o还与社会心理学、偏见和公平性等领域的70多名外部专家进行了广泛的合作，以识别新模型可能导致或放大的风险。我们利用这些经验来加强安全干预措施，以提高与Chat GPT-4o交互的安全性。一旦新的风险被发现，我们将采取措施降低它们。”GPT-4o前景展望在Google I/O大会开始的前一天，OpenAI发布了Chat GPT-4o，让我们见识到了人们想要的真正实用的AI体验。如果传闻中的与苹果的合作成为现实，那么Siri将如虎添翼。对于谷歌而言，几乎可以肯定的是，将在5月14日的I/O大会上展示其最新的AI技术。它能足以抵抗Chat GPT-4o吗？在不到30分钟的演讲中，OpenAI无法对Chat GPT-4o进行更多的现场演示。幸运的是，它将在未来一周向用户推出，且不需要支付费用。 ... PC版：手机版：

OpenAI 发布替代 GPT-3.5 的 GPT-4o mini

OpenAI 发布替代 GPT-3.5 的 GPT-4o mini OpenAI 发布了 GPT-4o 模型的小型版本 GPT-4o mini，它将取代 GPT-3.5 Turbo 提供给所有 ChatGPT 用户，包括免费和付费用户。GPT-4o mini 类似 GPT-4o，支持多模，能解释图像、文本和音频，能生成图像。GPT-4o mini 支持 128K 上下文令牌，其数据截至 2023 年 10 月，它的 API 费用比 GPT-3.5 Turbo 低 60%，每百万输入令牌 15 美分，每百万输出令牌 60 美分。GPT-4o mini 将使用名为 instruction hierarchy 的新技术，限制了越狱。 via Solidot

GPT-4o：OpenAI变慢了

GPT-4o：OpenAI变慢了虽然Sam Altman在OpenAI线上直播前，已经预告不会发布GPT-5（或GPT-4.5），但外界对OpenAI的期待早已是九牛拉不转了。北京时间5月14日凌晨，OpenAI公布了最新的GPT-4o，o代表Omnimodel（全能模型）。20多分钟的演示直播，展示了远超当前所有语音助手的AI交互体验，与外媒此前透露的消息基本重合。虽然GPT-4o的演示效果仍可称得上“炸裂”，但业内人士普遍认为很难配得上Altman预告中的“魔法”二字。很多人认为，这些功能性的产品，都是“偏离OpenAI使命”的。OpenAI的PR团队似乎也预料到了这种舆论走向。发布会现场以及会后Altman发布的博客中对此解释道：“我们使命的一个关键部分是将非常强大的人工智能工具免费（或以优惠的价格）提供给人们。我非常自豪我们在 ChatGPT 中免费提供了世界上最好的模型，没有广告或类似的东西。当我们创办 OpenAI 时，我们最初的想法是我们要创造人工智能并利用它为世界创造各种利益。相反，现在看起来我们将创造人工智能，然后其他人将使用它来创造各种令人惊奇的事物，让我们所有人都受益。”遥遥领先的GPT-4o“如果我们必须等待 5 秒钟才能得到‘每个’回复，用户体验就会一落千丈。即使合成音频本身听起来很真实，它也会破坏沉浸感，让人感觉毫无生气。”在OpenAI发布会前夕，英伟达Embodied AI负责人Jim Fan在X上预测了OpenAI会发布的语音助手，并提出：几乎所有的语音AI都会经历三个阶段：1. 语音识别或“ASR”：音频->文本1，例如Whisper；2. 计划下一步要说什么的 LLM：text1 -> text2;3. 语音合成或“TTS”：text2 ->音频，例如ElevenLabs或VALL-E。经历 3 个阶段会导致巨大的延迟。GPT-4o在响应速度方面，几乎解决了延迟问题。GPT-4o的响应音频输入的最短时长为232毫秒，平均响应时长320毫秒，几乎与人类相似。没有使用GPT-4o的ChatGPT语音对话功能平均延迟为2.8秒 (GPT-3.5) 和5.4秒（GPT-4)。您目前设备暂不支持播放GPT-4o演示直播GPT-4o不仅通过缩短延迟极大地提升了体验，还在GPT-4的基础上做了很多升级包括：极佳的多模态交互能力，包括语音、视频，以及屏幕共享。可以实时识别和理解人类的表情，文字，以及数学公式。交互语音感情丰富，可以变换语音语调、风格，还可以模仿，甚至“即兴”唱歌。超低延时，且可以在对话中实时打断AI，增加信息或开启新话题。所有ChatGPT用户均可免费使用（有使用上限）。速度是GPT-4 Turbo的2倍，API成本低50%，速率限制高5倍。多模态能力进步了吗？“突破模型的局限性才能有创新。”有业内专家认为，GPT-4o的多模态能力只是“看起来”很好，实际上OpenAI并未展示对于视觉多模态来说真正算是“突破”的功能。这里我们按大模型行业的习惯，对比一下隔壁厂Anthropic的Claude 3。Claude 3的技术文档中提到，“虽然Claude的图像理解能力是尖端的，但需要注意一些局限性”。其中包括：人物识别：Claude不能用于在图像中识别（即姓名）人物，并将拒绝这样做。准确性：Claude在解释200像素以下的低质量、旋转或非常小的图像时，可能会产生幻觉或犯错误。空间推理：克劳德的空间推理能力有限。它可能很难完成需要精确定位或布局的任务，例如读取模拟钟面或描述棋子的确切位置。计数：Claude可以给出图像中物体的近似计数，但可能并不总是精确准确的，特别是对于大量小物体。AI生成的图像：Claude不知道图像是否是人工智能生成的，如果被问到，可能不正确。不要依赖它来检测假图像或合成图像。不适当的内容：Claude不会处理违反我们可接受使用政策的不适当或露骨的图像。医疗保健应用：虽然Claude可以分析一般医学图像，但它不是为解释CT或MRI等复杂诊断扫描而设计的。Claude的输出不应被视为专业医疗建议或诊断的替代品。在GPT-4o网站发布的案例中，有一些与“空间推理”有相关的能力，但仍难算得上突破。此外，从发布会现场演示中GPT-4o输出的内容很容易看出，其模型能力与GPT-4相差并不大。GPT-4o跑分虽然模型可以在对话中增加语气，甚至即兴演唱，但对话内容还是与GPT-4一样缺乏细节和创造力。此外，发布会后OpenAI官网还发布了GPT-4o的一系列应用案例探索。包括：照片转漫画风格；会议记录；图片合成；基于图片的3D内容生成；手写体、草稿生成；风格化的海报，以及连环画生成；艺术字体生成等。而这些能力中，照片转漫画风格、会议记录等，也都是一些看起来很普通的文生图或者是AI大模型功能。能挑战现有的商业模式吗？“我注册5个免费的ChatGPT账号，是不是就不需要每月花20美元订阅ChatGPT Plus呢？”OpenAI公布的GPT-4o使用政策是ChatGPT Plus用户比限制普通用户的流量限制高5倍。GPT-4o对所有人免费，首先挑战的似乎是OpenAI自己的商业模型。第三方市场分析平台Sensor Tower公布的数据显示，过去一个月中，ChatGPT在全球App Store中的下载量为700万，订阅收入1200万美元；全球Google Play市场的下载量为9000万，订阅收入300万美元。目前，ChatGPT Plus在两个应用商店的订阅价格均为19.99美元。由订阅数据推断，ChatGPT Plus过去一个月中，通过应用商店付费的订阅用户数为75万。虽然ChatGPT Plus还有大量的直接付费用户，但从手机端的收入来看，每年进项才不到2亿美元，再翻几倍也很难撑起OpenAI近千亿的估值。由此来看，OpenAI在个人用户充值方面，其实并不需要考虑太多。更何况GPT-4o主打体验好，如果你跟AI聊着聊着就断了，还要换账号重新聊，那你会不会愤然充值呢？“最初的 ChatGPT 暗示了语言界面的可能性；这个新事物给人的感觉有本质上的不同。它快速、智能、有趣、自然且有帮助。”Sam Altman的最新博客中提到了“语言界面的可能性”，这也正是GPT-4o接下来可能要做的：挑战所有GUI（图形交互界面），以及想要在LUI（语音交互界面）上发力的人。结合近期外媒透出的OpenAI与苹果合作的消息，可以猜测GPT-4o可能很快就要对所有AI PC、AI手机的厂商“抛橄榄枝”或是“掀桌子”。不管是哪种语音助手或是AI大模型，对于AIPC、AI手机来说核心价值都是优化体验，而GPT-4o一下把体验优化到了极致。GPT-4o很可能会卷到所有已知的App，甚至是SaaS行业。过去一年多时间里，市场上所有已经开发和正在开发的AI Agent都会面临威胁。某位资源聚合类app产品经理曾对虎嗅表示，“我的操作流程就是产品的核心，如果操作流程被你ChatGPT优化了，那相当于我的App没价值了。”试想，如果订外卖的App，UI变成了一句话“给我订餐”，那打开美团还是打开饿了么，对于用户来说就一样了。厂商的下一步只能是压缩供应链、生态的利润空间，甚至是恶性价格战。从目前的形式来看，其他厂商要在模型能力上打败OpenAI恐怕还需要一段时间。产品要对标OpenAI，可能只有通过做更“便宜”的模型了。对于国内产业的影响“最近忙死了，没顾上关注他们。”一位工业AI大模型创始人告诉虎嗅，近期一直在忙着沟通战略合作、产品发布、客户交流资本交流，完全没有时间关注OpenAI这种发布。OpenAI发布前，虎嗅也询问了多位来自各行各业的国内AI从业者，他们对OpenAI最新发布的预测与看法都很一致：非常期待，但与我无关。一位从业者表示，从国内目前的进度来看，要在短期内追上OpenAI不太现实。所以关心OpenAI发布了什么，最多也就是看看最新的技术方向。目前国内公司在AI大模型研发方面，普遍比较关注工程化和垂直模型，这些比较务实、容易变现的方向。在工程方面，近期蹿红的Deepseek就正在国内大模型行业中掀起... PC版：手机版：

GPT-4o与GPT-4的区别

GPT-4o与GPT-4的区别 1. 性能提升：GPT-4o在性能上进行了显著提升，特别是在文本、语音和视觉处理方面。它能够更快地响应用户的输入，提供更自然和流畅的交互体验。 2. 响应速度：GPT-4o在响应速度上进行了优化，能够以更短的延迟时间处理用户的语音输入，平均响应时间为320毫秒，这与人类在对话中的响应时间相似。 3. 多模态交互：GPT-4o支持更高级的多模态交互，能够处理文本、音频和图像的任意组合输入，并生成对应的任意组合输出。这使得GPT-4o在交互性上更加灵活和强大。 4. 安全性：GPT-4o在设计中内置了跨模式的安全性，并通过与外部专家的合作，提高了与模型互动的安全性。 5. 成本和效率：GPT-4o在非英语文本上的性能有显著提高，同时API速度快，速率限制高出5倍，成本降低了50%。 6. 免费提供：与以往的模型不同，GPT-4o将免费提供给所有用户使用，而付费用户可以享受更高的调用额度。 7. 语音交互模式：GPT-4o采用了全新的技术，让聊天机器人的语音交互模式更加自然和逼真，能够根据指令调整说话时的语气，甚至唱歌。 8. 优化和迭代：GPT-4o通过训练时的优化和数据的迭代更新，提升了模型在特定任务和场景下的表现。 9. 风险管理：OpenAI认识到GPT-4o的音频模式存在风险，因此目前公开的是文本和图像输入以及文本输出，未来将围绕技术基础设施、训练后的可用性、发布其他模式所需的安全性开展工作。

免费GPT-4o来袭音频视觉文本实现“大一统”

免费GPT-4o来袭音频视觉文本实现“大一统” 此前，有传言称 OpenAI 将推出 AI 搜索引擎，旨在与Google明天举办的 I/O 开发者大会一较高下，一度引发了公众的热烈讨论。不过 Sam Altman 随后在 X（原Twitter）上表示，要展示的并非 GPT-5 或搜索引擎，而是一些令人期待的创新成果，他本人对此充满期待，认为其像魔法一样神奇。那么，GPT-4o 是否真的如 Sam Altman 所说，是 OpenAI 带来的“新魔法”呢？1多模态实时语音助手更快更全更有情感登台后，Mira Murati 宣布了 ChatGPT 的桌面版本和新 UI，紧接着就介绍了本场发布会的主角GPT-4o 。在发布会上，Mira Murati 与团队成员 Mark Chen、Barret Zoph一起，重点展示了基于 GPT-4o 的 ChatGPT 在不同任务中的实际表现，尤其展现了其语音能力。若用关键词加以总结，搭载 GPT-4o 的 ChatGPT 可谓是又快、又全、又有情感。与 ChatGPT 对话时，用户不必等 ChatGPT 说完，可以随时插话；模型能够实时响应，不存在尴尬的几秒延迟。在 Mark 表示自己很紧张且捕捉到他急促的呼吸后，ChatGPT 还会提醒需要冷静情绪，识别其呼吸节奏并引导他做深呼吸。模型能够以各种不同的风格生成声音。无论对话时让 ChatGPT 用唱歌的方式、机器人机械音还是戏剧化的语气讲故事，它都能迅速反应并输出。基于 GPT-4o 强大的视觉能力，用户还可以语音让 ChatGPT 分析页面上的数据图表。更强大的是，打开摄像头后写下一道数学题，ChatGPT 还会一步步引导该如何解下一步，其讲解的清晰度与耐心堪比幼教。ChatGPT的“同传能力”也不容小觑，OpenAI 团队还在现场展示了一波英语和意大利语的实时互译，中间实现零延迟。更有意思的是，ChatGPT 在对话中还会使用语气词，甚至是向 OpenAI 团队开玩笑和表达感谢。在“看到”他们写下“我爱 ChatGPT”的文字后，ChatGPT 甚至会在发出撒娇的声音后，再表扬其贴心。ChatGPT 甚至还能和用户“视频聊天”。在演示中，Barret 让 ChatGPT 猜测自己的情绪，在他开始露出笑脸后，ChatGPT 直接语音回复“你看起来很开心，笑容灿烂，还有点激动。”英伟达首席 AI 科学家 Jim Fan 曾讲述过当前实时语音助手（如 Siri ）的困境，即很难创造出沉浸式的使用体验。用户在和 AI 语音助手对话时要经历三个阶段：语音识别（ASR），将音频转换为文本，例如 Whisper；大语言模型（LLM）规划接下来的话语，将第一阶段的文本转换为新的文本；语音合成（TTS），将新文本转换回音频，如 ElevenLabs 或 VALL-E 。如果简单地按顺序执行，就会产生巨大的延迟，特别是当每一步都需要等待几秒时，用户体验就会急剧下降，哪怕合成的音频听起来非常真实，也会让用户格外“出戏”，就更别提沉浸式的使用体验了。以往的 ChatGPT 语音模式也是如此，依赖三个独立模型工作，平均延迟时间为 2.8 秒 (GPT-3.5) 和 5.4 秒 (GPT-4)，语音助手也总会出现信息丢失，既不能判断语调、多个说话者或背景噪音，也不能输出笑声、唱歌或表达情感。而现在，GPT-4o 的音频输入响应时间最短为232毫秒，平均响应时间为320毫秒，与人类在对话中的反应时间极为相似。作为一个全新的单一模型，GPT-4o 能端到端地跨文本、视觉和音频，所有输入和输出都由同一个神经网络处理，直接一步到位，在用户输入后（文本、语音、图像、视频均可）直接生成音频回答。2GPT-4o一款免费的全能 GPT-4Mira Murati 在发布会上表示，GPT-4o 最棒的地方在于，它将 GPT-4 的智能提供给每个人，包括免费用户，将在未来几周内迭代式地在公司产品中推出。GPT-4o 中的字母 o 指 omni，在拉丁语词根中是“全”的意思，是涵盖了文字、语音、图片、视频的多模态模型，接受任何模态的组合作为输入，并能生成任何模态的组合输出。据 OpenAI 官网，GPT-4o 不仅在文本和代码处理的性能上与GPT-4 Turbo持平，而且在 API 调用上速度更快，价格更是降低了50%。文本能力测试。与GPT-4对比多语言考试能力。更重要的是，GPT-4o 的视觉理解能力在相关基准上取得了压倒性的胜利。在音频方面，GPT-4o 的语音识别（ASR）也比 OpenAI 的语音识别模型 Whisper 性能更佳（越低越好）。与 Meta、Google的语音转写模型相比，GPT-4o 同样领先（越高越好）。若落实到实际生活的使用中，GPT-4o 究竟能给普罗大众带来什么变化呢？OpenAI的官网展示了 GPT-4o 在海报创作、三维重建、字体设计、会议总结等等一系列充满可能性的应用。比如，在输入人物图片、海报元素以及想要的风格后，GPT-4o 就能给用户生成一张电影海报。或者，根据输入的诗歌文本，GPT-4o 能生成用手写体写着诗歌、画着画的单行本图片。在输入6张 OpenAI 的 logo图后，GPT-4o 能三维重建出其立体动图。甚至还可以让 GPT-4o 帮忙把 logo 印在杯垫上。“今天，有 1 亿人使用 ChatGPT 来创作、工作、学习，以前这些高级工具只对付费用户可用，但现在，有了 GPT-4o 的效率，我们可以将这些工具带给每个人。”Mira Murati 如是说道。3写在后面发布会之外，OpenAI 研究员 William Fedus 透露，此前在大模型竞技场参与A/B测试并碾压全场的模型“im-also-a-good-gpt2-chatbot”，就是本次登场的 GPT-4o 。截至2024年3月，OpenAI 在不到十年的运营时间内，已经完成了10轮的融资，累计筹集资金超过了140亿美元，其估值在2月的融资交易中已经飙升至800亿美元。伴随着狂飙的市值，OpenAI 的技术版图已经横跨了多个 AI 的关键领域，形成了一个全面而深入的产品矩阵。API 产品线提供了包括 GPT 模型、DALL·E 模型、Whisper 语音识别模型在内的多样化服务，并通过对话、量化、分析、微调等高级功能，为开发者提供技术支持；ChatGPT 为核心的产品线分别推出了个人版和企业版。在音乐生成领域，OpenAI 也有一定的技术积累，比如经过训练的深度神经网络 MuseNet，可预测并生成 MIDI 音乐文件中的后续音符，以及能生成带人声音乐的开源算法 Jukebox。再加上年初春节假期期间毫无征兆推出的 AI 视频生成大模型 Sora，更是让网友们感叹“现实，不存在了。”毋庸置疑，OpenAI 是大模型这场擂台赛中当之无愧的擂主，其技术与产品的迭代更是整个行业的风向标，不少大模型创业者都遇过“OpenAI 不做，没人投；OpenAI 一做，人人投”的融资奇观。但随着 Claude 3 和 Llama 3 的紧追与 GPT Store 上线2个月惨遭“滑铁卢”，不少 AI 行业从业者开始对 OpenAI 祛魅，认为“大模型护城河很浅，一年就赶上了。”现在看来，OpenAI 果然还是 OpenAI。 ... PC版：手机版：

GPT-4o的中文语料训练数据被赌博诈骗和色情内容污染

GPT-4o的中文语料训练数据被赌博诈骗和色情内容污染 OpenAI 发布 GPT-4o 后不久，一些中文用户开始注意到这个最新版本的聊天机器人似乎有些不对劲，它用来解析文本的词块充满了垃圾内容和色情短语。人类以单词为单位进行阅读，而 LLM 则以词块(Token)为单位进行阅读，词块是句子中的不同单位，具有一致且重要的含义。模型编码的词块越多，“读取 ”句子的速度就越快，消耗的计算能力就越少，从而降低了响应的成本。多名研究过 GPT-4o 使用的新词块库的研究人员表示，中文里最长的词块几乎都是用于色情、赌博和诈骗的垃圾词。甚至更短的词块，例如三个字长的中文单词，也在很大程度上反映了这些主题。 “问题很明显，用于训练[分词器]的语料库不干净。英文词块看起来不错，但中文词块就不行了，”普林斯顿大学的蔡天乐说。语言模型在收集训练数据时抓取垃圾信息的情况并不罕见，但通常会在使用数据之前花费大量精力来清理数据。 “他们可能没有对中文进行适当的数据清理，”他说。麻省理工科技评论（节选）汉语，你勃起吧！ via oiii

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人