据Theinformation爆料，OpenAI即将推出多模态模型GPT-vision。

OpenAI 发布新一代大型多模态模型 GPT-4

OpenAI发布新一代大型多模态模型GPT-4GPT-4是一个大型多模态模型，可以接受文本和图像输入。GPT-4在各种专业学术基准上有着人类水平表现，例如模拟律师考试中，GPT-4的得分约为前10%，而GPT-3.5的得分约为倒数10%。在多语言测试中，GPT-4优于GPT-3.5和Chinchilla(来自DeepMind)还有PaLM(来自谷歌)，包括英语性能还有拉脱维亚语、威尔士语和斯瓦希里语等低资源语言。OpenAI还开放了角色扮演和性格定制能力，开发人员和用户可以自定义他们的AI风格，而不是具有固定冗长、语气和风格的经典ChatGPT个性。ChatGPTPlus订阅用户现可直接GPT-4，未来将对免费用户开放一定数量的GPT-4体验。GPT-4API需要候选名单，每1kprompttokens的价格为$0.03，每1kcompletiontokens的价格为$0.06。目前图像输入处在研究预览阶段，仅对少部分客户开放。微软在GPT-4发布后也正式BingChat基于GPT-4运行，同时BingChat的Edge边栏功能上线。与数据停留在2021年9月的GPT-4离线版本不同，BingChat可联网获取实时信息并且免费。——投稿：@ZaiHuabot频道：@TestFlightCN

Google 推出原生多模态 AI 模型 Gemini，挑战GPT-4

Google推出原生多模态AI模型Gemini，挑战GPT-4https://abmedia.io/google-ai-model-gemini?utm_source=rss&utm_medium=rss&utm_campaign=google-ai-model-gemini&utm_source=rss&utm_medium=rss&utm_campaign=google-ai-model-gemini

传闻OpenAI即将推出多模态人工智能数字助理

传闻OpenAI即将推出多模态人工智能数字助理据报道，与现有的独立转录和文本到语音模型相比，新模型能更快、更准确地解读图像和音频。它可以帮助客服人员"更好地理解来电者声音的语调或他们是否在讽刺"，而且"理论上"，该模型可以帮助学生学习数学或翻译现实世界中的标志。该媒体的消息来源称，该模型在"回答某些类型的问题"方面可以超越GPT-4Turbo，但仍然容易十分自信地输出错误答案。据开发者AnanayArora称，OpenAI可能还在准备新的内置ChatGPT电话功能，他发布了上述与通话相关的代码截图。阿罗拉还发现有证据表明，OpenAI已经为实时音频和视频通信配置了服务器。公司首席执行官山姆-奥特曼（SamAltman）明确否认即将发布的消息与这款据称比GPT-4"更好"的模型有关，传闻中的GPT-5可能会在今年年底公开发布。奥特曼还表示，公司不会宣布新的人工智能搜索引擎。但如果《TheInformation》所报道的内容属实，那么Google的I/O开发者大会仍有可能因此受到影响。Google一直在测试使用人工智能打电话。传闻中的一个项目是多模态Google助手的替代品"Pixie"，它可以通过设备的摄像头观察物体，并提供购买建议或使用说明。OpenAI计划于周一上午10点（太平洋时间）/下午1点（美国东部时间）在其网站上通过现场直播的方式发布新服务。...PC版：https://www.cnbeta.com.tw/articles/soft/1430537.htm手机版：https://m.cnbeta.com.tw/view/1430537.htm

微软表示即将推出带有可视化功能的多模态GPT-4 Turbo

微软表示即将推出带有可视化功能的多模态GPT-4Turbo多模态功能意味着微软的人工智能将支持不同的输入格式，包括文本、图像等，使工具在更多应用中更加有用。此外，该公司还表示，它正在引入矢量搜索，这可以提高响应质量并减少延迟。微软表示，这一功能对于生成式人工智能应用至关重要。微软在解释什么是矢量搜索时写道："矢量搜索是一种在各种数据类型（包括图像、音频、文本、视频等）中搜索信息的方法。它是人工智能驱动的智能应用程序的最关键要素之一，增加这一功能是我们的Azure数据库组合中最新的人工智能就绪功能。"除了这些宣布之外，微软还决定重新命名和扩展其Copilot版权承诺。对于使用AzureOpenAI服务的客户，它现在被称为客户版权承诺（CCC）。通过扩展，CCC将有助于保护商业客户，如果他们因AzureOpenAI服务生成的输出侵犯版权而被起诉，微软将代为支付任何不利判决的费用。为了减少客户首先被起诉的机会，微软发布了新的文档，其中包含客户可以实施的技术信息，以降低生成侵权内容的风险。如果客户希望在被起诉时得到保护，就需要遵守这些文档。制定防止生成受版权保护材料的保障措施将有助于微软降低成本。生成式人工智能的一大问题是安全性。微软重申了其对安全和负责任的人工智能的承诺。它表示，道德价值观和基本原则至关重要，但希望自己的努力能更进一步。...PC版：https://www.cnbeta.com.tw/articles/soft/1397249.htm手机版：https://m.cnbeta.com.tw/view/1397249.htm

中信证券：OpenAI 推出视频生成模型 Sora，AI 产业围绕多模态不断加码

中信证券：OpenAI推出视频生成模型Sora，AI产业围绕多模态不断加码中信证券研报指出，近一周内，OpenAI和谷歌分别推出了他们的最新AI模型，围绕视频多模态这个核心关键点双方不断加码。Gemini1.5Pro基于大语言模型处理视频模态，上下文长度超过百万，Sora在技术上采用了DiffusionTransformer的路线，OpenAI表示Sora在训练过程中表现出了与其他模型不同的涌现能力，有望成为真正的“世界模型”。从投资角度来看，Sora背后的涌现能力为自动驾驶、设计等需要现实世界建模的行业提供了明确方向。Gemini在短期内的部分商业场景表现可能会更为出色，尤其是需要结合图片与文字的多模态应用场景。除去应用端的投资机会，硬件端的需求也必然会随着多模态的技术进步而不断提高，我们仍然持续看好AI算力，尤其是后续商业端成熟而带来的更多AI推理侧算力的机会。

OpenAI 推出 GPT-4o Mini 模型