多模态大战终于要来了吗？OpenAI被曝加急训练多模态大模型Gobi，剑指谷歌Gimini #抽屉IT

谷歌发布最新多模态模型 Gemini

谷歌发布最新多模态模型 Gemini Gemini能够归纳并流畅地理解、操作处理包括文本、代码、音频、图像和视频在内的信息。据说宣传视频有造假嫌疑，在图像识别方面，最好的个人感觉还是GPT4，好在 Gemini 可以在Bard中使用，目前Bard也还没有收费。Gemini目前是白嫖党最好的选择了。

OpenAI 发布新一代大型多模态模型 GPT-4

OpenAI 发布新一代大型多模态模型 GPT-4 GPT-4 是一个大型多模态模型，可以接受文本和图像输入。GPT-4 在各种专业学术基准上有着人类水平表现，例如模拟律师考试中，GPT-4 的得分约为前10%，而 GPT-3.5 的得分约为倒数10%。在多语言测试中，GPT-4 优于 GPT-3.5 和 Chinchilla (来自DeepMind) 还有 PaLM (来自谷歌) ，包括英语性能还有拉脱维亚语、威尔士语和斯瓦希里语等低资源语言。 OpenAI 还开放了角色扮演和性格定制能力，开发人员和用户可以自定义他们的AI风格，而不是具有固定冗长、语气和风格的经典 ChatGPT 个性。 ChatGPT Plus 订阅用户现可直接 GPT-4 ，未来将对免费用户开放一定数量的 GPT-4 体验。GPT-4 API 需要候选名单，每1k prompt tokens 的价格为$0.03，每1k completion tokens 的价格为$0.06。目前图像输入处在研究预览阶段，仅对少部分客户开放。微软在 GPT-4 发布后也正式 Bing Chat 基于 GPT-4 运行，同时 Bing Chat 的 Edge 边栏功能上线。与数据停留在2021年9月的 GPT-4 离线版本不同，Bing Chat 可联网获取实时信息并且免费。

《OpenAI 最新多模态模型 GPT?4o 生成的精彩案例》

《OpenAI 最新多模态模型 GPT?4o 生成的精彩案例》亮点：GPT-4o 多模态能力惊艳，图像、文本、音频无缝交互，智能创作再升级。标签：#多模态AI #GPT4o #OpenAI 更新日期：2025-05-10 07:36:25 链接：https://pan.quark.cn/s/88a9cf34c2b2

一个关于多模态大语言模型资料收集的项目，包括数据集、多模态指令调整、多模态上下文学习、多模态思维链、LLM辅助视觉推理、基础模型

OpenAI大模型GPT-5要来了！“提升很大”

OpenAI大模型GPT-5要来了！“提升很大” “它的性能非常棒，提升很大。”一位看过GPT-5大模型演示的CEO表示。该CEO表示，OpenAI使用他的公司独有的用例和数据展示了GPT-5。他说，OpenAI还提到了该模型尚未发布的其他功能，包括调用OpenAI正在开发的AI代理来自主执行任务。企业客户向OpenAI付费使用增强版ChatGPT。随着OpenAI拓展业务，其CEO山姆·奥特曼(Sam Altman)打造自己不断壮大的AI帝国，面向企业客户的销售成为了OpenAI的主要收入来源。不过，OpenAI尚未设定GPT-5的发布日期，这意味着公司内部对于这款大模型的发布时间预期可能会发生变化。据知情人士透露，OpenAI仍在训练GPT-5。在训练完成后，OpenAI将在内部对GPT-5进行安全测试，并进一步进行“红队”测试。在“红队”测试过程中，OpenAI员工和一些通常经过精选的外部人员会以各种方式对该工具进行挑战，以便在其向公众发布之前发现问题。知情人士指出，目前还没有GPT-5完成安全测试的具体时间表，所以该模型的发布日期可能会因为这一过程而推迟。GPT-4退化一年前，OpenAI针对ChatGPT发布了最后一次重大更新，该聊天机器人目前使用的是GPT-4大模型。OpenAI称，GPT-4的响应比之前的GPT-3要快得多，准确得多。OpenAI在2023年晚些时候发布了更强大的GPT-4 Turbo模型，以解决一个被称为“懒惰”的问题，因为该模型有时会拒绝回答提示问题。像GPT-4这样的大语言模型是通过从网络上收集的大量数据进行训练的，以权威的语调回应用户提示，呈现出类似人类语言模式的特点。这种语调以及所提供信息的质量可能会受到训练数据的影响，具体取决于OpenAI在开发和维护工作中所使用的数据更新或其他变化。目前，社交媒体Reddit上的几个论坛一直在抱怨GPT-4的退化和ChatGPT的糟糕输出。知情人士透露，OpenAI内部人士希望GPT-5更加可靠，给公众和企业客户留下深刻印象。与此同时，OpenAI还卷入了版权诉讼中。从技术上讲，AI模型的许多最关键训练数据都归版权所有者所有。OpenAI和许多其他科技公司都反对更新联邦法规，以限制大模型如何获取和使用这些材料。目前，OpenAI正在应对《纽约时报》等数据版权所有者发起的诉讼。截至发稿，OpenAI发言人尚未就此置评。 ... PC版：手机版：

传闻OpenAI即将推出多模态人工智能数字助理

传闻OpenAI即将推出多模态人工智能数字助理据报道，与现有的独立转录和文本到语音模型相比，新模型能更快、更准确地解读图像和音频。它可以帮助客服人员"更好地理解来电者声音的语调或他们是否在讽刺"，而且"理论上"，该模型可以帮助学生学习数学或翻译现实世界中的标志。该媒体的消息来源称，该模型在"回答某些类型的问题"方面可以超越 GPT-4 Turbo，但仍然容易十分自信地输出错误答案。据开发者 Ananay Arora 称，OpenAI 可能还在准备新的内置 ChatGPT 电话功能，他发布了上述与通话相关的代码截图。阿罗拉还发现有证据表明，OpenAI 已经为实时音频和视频通信配置了服务器。公司首席执行官山姆-奥特曼（Sam Altman）明确否认即将发布的消息与这款据称比 GPT-4"更好"的模型有关，传闻中的GPT-5 可能会在今年年底公开发布。奥特曼还表示，公司不会宣布新的人工智能搜索引擎。但如果《The Information》所报道的内容属实，那么Google的 I/O 开发者大会仍有可能因此受到影响。Google一直在测试使用人工智能打电话。传闻中的一个项目是多模态Google助手的替代品"Pixie"，它可以通过设备的摄像头观察物体，并提供购买建议或使用说明。OpenAI 计划于周一上午 10 点（太平洋时间）/下午 1 点（美国东部时间）在其网站上通过现场直播的方式发布新服务。 ... PC版：手机版：

相关推荐

谷歌发布最新多模态模型 Gemini

OpenAI 发布新一代大型多模态模型 GPT-4

《OpenAI 最新多模态模型 GPT?4o 生成的精彩案例》

一个关于多模态大语言模型资料收集的项目，包括数据集、多模态指令调整、多模态上下文学习、多模态思维链、LLM辅助视觉推理、基础模型

OpenAI大模型GPT-5要来了！“提升很大”

传闻OpenAI即将推出多模态人工智能数字助理