据Theinformation爆料,OpenAI即将推出多模态模型GPT-vision。

None

相关推荐

封面图片

OpenAI 发布新一代大型多模态模型 GPT-4

OpenAI发布新一代大型多模态模型GPT-4GPT-4是一个大型多模态模型,可以接受文本和图像输入。GPT-4在各种专业学术基准上有着人类水平表现,例如模拟律师考试中,GPT-4的得分约为前10%,而GPT-3.5的得分约为倒数10%。在多语言测试中,GPT-4优于GPT-3.5和Chinchilla(来自DeepMind)还有PaLM(来自谷歌),包括英语性能还有拉脱维亚语、威尔士语和斯瓦希里语等低资源语言。OpenAI还开放了角色扮演和性格定制能力,开发人员和用户可以自定义他们的AI风格,而不是具有固定冗长、语气和风格的经典ChatGPT个性。ChatGPTPlus订阅用户现可直接GPT-4,未来将对免费用户开放一定数量的GPT-4体验。GPT-4API需要候选名单,每1kprompttokens的价格为$0.03,每1kcompletiontokens的价格为$0.06。目前图像输入处在研究预览阶段,仅对少部分客户开放。微软在GPT-4发布后也正式BingChat基于GPT-4运行,同时BingChat的Edge边栏功能上线。与数据停留在2021年9月的GPT-4离线版本不同,BingChat可联网获取实时信息并且免费。——投稿:@ZaiHuabot频道:@TestFlightCN

封面图片

Google 推出原生多模态 AI 模型 Gemini,挑战GPT-4

Google推出原生多模态AI模型Gemini,挑战GPT-4https://abmedia.io/google-ai-model-gemini?utm_source=rss&utm_medium=rss&utm_campaign=google-ai-model-gemini&utm_source=rss&utm_medium=rss&utm_campaign=google-ai-model-gemini

封面图片

传闻OpenAI即将推出多模态人工智能数字助理

传闻OpenAI即将推出多模态人工智能数字助理据报道,与现有的独立转录和文本到语音模型相比,新模型能更快、更准确地解读图像和音频。它可以帮助客服人员"更好地理解来电者声音的语调或他们是否在讽刺",而且"理论上",该模型可以帮助学生学习数学或翻译现实世界中的标志。该媒体的消息来源称,该模型在"回答某些类型的问题"方面可以超越GPT-4Turbo,但仍然容易十分自信地输出错误答案。据开发者AnanayArora称,OpenAI可能还在准备新的内置ChatGPT电话功能,他发布了上述与通话相关的代码截图。阿罗拉还发现有证据表明,OpenAI已经为实时音频和视频通信配置了服务器。公司首席执行官山姆-奥特曼(SamAltman)明确否认即将发布的消息与这款据称比GPT-4"更好"的模型有关,传闻中的GPT-5可能会在今年年底公开发布。奥特曼还表示,公司不会宣布新的人工智能搜索引擎。但如果《TheInformation》所报道的内容属实,那么Google的I/O开发者大会仍有可能因此受到影响。Google一直在测试使用人工智能打电话。传闻中的一个项目是多模态Google助手的替代品"Pixie",它可以通过设备的摄像头观察物体,并提供购买建议或使用说明。OpenAI计划于周一上午10点(太平洋时间)/下午1点(美国东部时间)在其网站上通过现场直播的方式发布新服务。...PC版:https://www.cnbeta.com.tw/articles/soft/1430537.htm手机版:https://m.cnbeta.com.tw/view/1430537.htm

封面图片

微软表示即将推出带有可视化功能的多模态GPT-4 Turbo

微软表示即将推出带有可视化功能的多模态GPT-4Turbo多模态功能意味着微软的人工智能将支持不同的输入格式,包括文本、图像等,使工具在更多应用中更加有用。此外,该公司还表示,它正在引入矢量搜索,这可以提高响应质量并减少延迟。微软表示,这一功能对于生成式人工智能应用至关重要。微软在解释什么是矢量搜索时写道:"矢量搜索是一种在各种数据类型(包括图像、音频、文本、视频等)中搜索信息的方法。它是人工智能驱动的智能应用程序的最关键要素之一,增加这一功能是我们的Azure数据库组合中最新的人工智能就绪功能。"除了这些宣布之外,微软还决定重新命名和扩展其Copilot版权承诺。对于使用AzureOpenAI服务的客户,它现在被称为客户版权承诺(CCC)。通过扩展,CCC将有助于保护商业客户,如果他们因AzureOpenAI服务生成的输出侵犯版权而被起诉,微软将代为支付任何不利判决的费用。为了减少客户首先被起诉的机会,微软发布了新的文档,其中包含客户可以实施的技术信息,以降低生成侵权内容的风险。如果客户希望在被起诉时得到保护,就需要遵守这些文档。制定防止生成受版权保护材料的保障措施将有助于微软降低成本。生成式人工智能的一大问题是安全性。微软重申了其对安全和负责任的人工智能的承诺。它表示,道德价值观和基本原则至关重要,但希望自己的努力能更进一步。...PC版:https://www.cnbeta.com.tw/articles/soft/1397249.htm手机版:https://m.cnbeta.com.tw/view/1397249.htm

封面图片

中信证券:OpenAI 推出视频生成模型 Sora,AI 产业围绕多模态不断加码

中信证券:OpenAI推出视频生成模型Sora,AI产业围绕多模态不断加码中信证券研报指出,近一周内,OpenAI和谷歌分别推出了他们的最新AI模型,围绕视频多模态这个核心关键点双方不断加码。Gemini1.5Pro基于大语言模型处理视频模态,上下文长度超过百万,Sora在技术上采用了DiffusionTransformer的路线,OpenAI表示Sora在训练过程中表现出了与其他模型不同的涌现能力,有望成为真正的“世界模型”。从投资角度来看,Sora背后的涌现能力为自动驾驶、设计等需要现实世界建模的行业提供了明确方向。Gemini在短期内的部分商业场景表现可能会更为出色,尤其是需要结合图片与文字的多模态应用场景。除去应用端的投资机会,硬件端的需求也必然会随着多模态的技术进步而不断提高,我们仍然持续看好AI算力,尤其是后续商业端成熟而带来的更多AI推理侧算力的机会。

封面图片

OpenAI 推出 GPT-4o Mini 模型

OpenAI推出GPT-4oMini模型OpenAI将于周四晚些时候推出一款新的AI模型“GPT-4omini”,该公司称新发布的模型是“当今最强大、最具成本效益的小型模型”,这款迷你AI模型是GPT-4o的一个分支,并计划稍后将图像、视频和音频集成到其中。GPT-4omini将于周四晚些时候向ChatGPT免费用户以及ChatGPTPlus和Team订阅者开放,并将于下周向ChatGPTEnterprise用户开放。——

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人