微软公布可以理解图像内容的 AI 模型

微软公布可以理解图像内容的 AI 模型 微软的研究人员介绍了多模态模型 ,它可以分析图像内容,解决拼图问题,进行视觉文本识别,通过视觉智商测试,并理解自然语言指令。研究人员认为,整合了文本、音频、图像和视频等不同输入模式的多模态人工智能,是建立人工通用智能(AGI)的关键步骤,可以执行人类水平的一般任务。他们在一些测试中评估了 Kosmos-1 的能力,包括语言理解、语言生成、无光学字符识别的文本分类、图像说明、视觉问题回答、网页问题回答和零样本图像分类。微软称,在许多这些测试中,Kosmos-1 的表现超过了目前最先进的模型。来源 , 来自:雷锋 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

相关推荐

封面图片

:可以理解图像和音频的内容,并将这些理解与文本输入和输出相结合。

:可以理解图像和音频的内容,并将这些理解与文本输入和输出相结合。 BuboGPT是由字节跳动开发的大型语言模型,能够处理多模态输入,包括文本、图像和音频,并具有将其响应与视觉对象相对应的独特能力。 它可以进行细粒度的视觉理解,音频理解,以及对齐的音频-图像理解和任意音频-图像理解。 BuboGPT的架构是通过学习一个共享的语义空间并进一步探索不同视觉对象和不同模态之间的细粒度关系,从而实现了包括图像、音频和文本在内的多模态理解。 它的训练过程包括两个阶段:单模态预训练和多模态指令调整。 在单模态预训练阶段,对应的模态Q-Former和线性投影层在大量的模态-文本配对数据上进行训练。 在多模态指令调整阶段,使用高质量的多模态指令跟踪数据集对线性投影层进行微调。 当你给它一个图像和一段描述图像的文本时,BuboGPT能够理解文本和图像之间的关系,并生成一个与图像内容相对应的响应。这种能力使得BuboGPT可以在对话中提供更丰富、更具上下文的回答。 音频理解能力:当你给它一个音频剪辑时,它可以生成一个详细的描述,涵盖音频中的所有声音部分,甚至包括一些人类可能无法注意到的短暂音频片段。 BuboGPT还可以处理匹配的音频-图像对,进行声音定位。例如,如果你给它一个场景的图片和场景中发生的声音,它可以理解声音和图像之间的关系,并生成一个描述声音来源位置的响应。 即使音频和图像之间没有直接的关系。在这种情况下,BuboGPT可以生成一个高质量的响应,描述音频和图像之间的可能关系。

封面图片

阿里巴巴开源能理解图像的 AI 模型 Qwen-VL

阿里巴巴开源能理解图像的 AI 模型 Qwen-VL 阿里巴巴周五开源了能理解图像和完成更复杂对话的 AI 模型和 Qwen-VL-Chat。阿里巴巴称,Qwen-VL 基于 Qwen-7B,可以以图像、文本、检测框作为输入,并以文本和检测框作为输出,它使用了约 1.5B 的图文数据训练。在四大类多模态任务的标准英文测评中上,Qwen-VL 均取得同等通用模型大小下最好效果;支持英文、中文等多语言对话,端到端支持图片里中英双语的长文本识别;支持多图输入和比较,指定图片问答,多图文学创作等;相比于目前其它开源 LVLM使用的 224 分辨率,Qwen-VL 是首个开源的 448 分辨率的 LVLM 模型。更高分辨率可以提升细粒度的文字识别、文档问答和检测框标注。Qwen-VL 和 Qwen-VL-Chat 使用名为 Tongyi Qianwen LICENSE AGREEMENT 的许可证,有限制条件,如果商业使用,则需要从阿里巴巴获得授权。来源 , 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

封面图片

:开源的视觉-语言(VL)模型,旨在实现真实世界的视觉语言理解。

:开源的视觉-语言(VL)模型,旨在实现真实世界的视觉语言理解。 它具有广泛的多模态理解能力,能够处理逻辑图表、网页、公式识别、科学文献、自然图像和复杂场景中的具体智能等。 DeepSeek-VL提供了多个模型版本,包括不同规模和功能的模型,以满足不同的研究和商业应用需求。

封面图片

是面向图文理解的开源多模态大模型系列。该系列模型接受图像和文本输入,并提供高质量的文本输出。目前发布了两个版本的模型,旨在实现领

是面向图文理解的开源多模态大模型系列。该系列模型接受图像和文本输入,并提供高质量的文本输出。目前发布了两个版本的模型,旨在实现领先的性能和高效的部署: MiniCPM-V 2.8B:可在终端设备上部署的先进多模态大模型。最新发布的 MiniCPM-V 2.0 可以接受 180 万像素的任意长宽比图像输入,实现了和 Gemini Pro 相近的场景文字识别能力以及和 GPT-4V 相匹的低幻觉率。 OmniLMM-12B:相比同规模其他模型在多个基准测试中具有领先性能,实现了相比 GPT-4V 更低的幻觉率。

封面图片

微软宣布推出了新版小型语言模型 Phi-3,这款模型能够查看图片并告诉你图片中有什么。

微软宣布推出了新版小型语言模型 Phi-3,这款模型能够查看图片并告诉你图片中有什么。 Phi-3-vision 是一种多模态模型,也就是说它能同时处理文本和图像,而且最适合在移动设备上使用。微软表示,现已提供预览的 Phi-3-vision 是一个拥有 42 亿参数的模型(参数指的是模型的复杂程度以及它对训练内容的理解程度),能够执行一般的视觉推理任务,比如对图表或图片提出问题。 但是,Phi-3-vision 的规模远小于其他以图像为中心的人工智能模型,比如 OpenAI 的 DALL-E 或 Stability AI 的 Stable Diffusion。与这些模型不同,Phi-3-vision 并不生成图像,但它能理解图像中的内容,并为用户分析这些内容。 标签: #微软 #AI 频道: @GodlyNews1 投稿: @GodlyNewsBot

封面图片

Bing Chat 的眼睛 & Xbox 用户头像审核 微软公布 Turing Bletchley v3 视觉AI

Bing Chat 的眼睛 & Xbox 用户头像审核 微软公布 Turing Bletchley v3 视觉AI 图灵团队今天正式公布了 Turing Bletchley v3,一个可理解90多种语言的视觉模型。该模型去年秋天在内部发布,现已应用在微软多个产品线,它同时是 Bing Chat 的眼睛、识图搜索引擎、Xbox 玩家头像审核。 Turing Bletchley v3 可以接受图像和文本输入,给它一个富士山的照片,它知道这是"Mount Fuji"或"富士山"而不是一只"猫",相关的"嵌入词"在它的向量空间中紧密关联。它甚至可以识别照片中家具的材质与你的着装细节。 Turing Bletchley 的 v1 版本在两年前面世,因为 v3 版本的出色性能图灵团队直接跳过了 v2 版本的发布。人类评价 v3 使图像-答案对的相关性提高了9个点,图像搜索后的点击率提高了6%以上,文本查询图像的 DCG (衡量搜索引擎算法的常用指标) 提高了约0.76。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人