微软公布可以理解图像内容的 AI 模型

微软公布可以理解图像内容的 AI 模型微软的研究人员介绍了多模态模型，它可以分析图像内容，解决拼图问题，进行视觉文本识别，通过视觉智商测试，并理解自然语言指令。研究人员认为，整合了文本、音频、图像和视频等不同输入模式的多模态人工智能，是建立人工通用智能（AGI）的关键步骤，可以执行人类水平的一般任务。他们在一些测试中评估了 Kosmos-1 的能力，包括语言理解、语言生成、无光学字符识别的文本分类、图像说明、视觉问题回答、网页问题回答和零样本图像分类。微软称，在许多这些测试中，Kosmos-1 的表现超过了目前最先进的模型。来源，来自：雷锋频道：@kejiqu 群组：@kejiquchat 投稿：@kejiqubot

在Telegram中查看

相关推荐

：可以理解图像和音频的内容，并将这些理解与文本输入和输出相结合。

：可以理解图像和音频的内容，并将这些理解与文本输入和输出相结合。 BuboGPT是由字节跳动开发的大型语言模型，能够处理多模态输入，包括文本、图像和音频，并具有将其响应与视觉对象相对应的独特能力。它可以进行细粒度的视觉理解，音频理解，以及对齐的音频-图像理解和任意音频-图像理解。 BuboGPT的架构是通过学习一个共享的语义空间并进一步探索不同视觉对象和不同模态之间的细粒度关系，从而实现了包括图像、音频和文本在内的多模态理解。它的训练过程包括两个阶段：单模态预训练和多模态指令调整。在单模态预训练阶段，对应的模态Q-Former和线性投影层在大量的模态-文本配对数据上进行训练。在多模态指令调整阶段，使用高质量的多模态指令跟踪数据集对线性投影层进行微调。当你给它一个图像和一段描述图像的文本时，BuboGPT能够理解文本和图像之间的关系，并生成一个与图像内容相对应的响应。这种能力使得BuboGPT可以在对话中提供更丰富、更具上下文的回答。音频理解能力：当你给它一个音频剪辑时，它可以生成一个详细的描述，涵盖音频中的所有声音部分，甚至包括一些人类可能无法注意到的短暂音频片段。 BuboGPT还可以处理匹配的音频-图像对，进行声音定位。例如，如果你给它一个场景的图片和场景中发生的声音，它可以理解声音和图像之间的关系，并生成一个描述声音来源位置的响应。即使音频和图像之间没有直接的关系。在这种情况下，BuboGPT可以生成一个高质量的响应，描述音频和图像之间的可能关系。

阿里巴巴开源能理解图像的 AI 模型 Qwen-VL

阿里巴巴开源能理解图像的 AI 模型 Qwen-VL 阿里巴巴周五开源了能理解图像和完成更复杂对话的 AI 模型和 Qwen-VL-Chat。阿里巴巴称，Qwen-VL 基于 Qwen-7B，可以以图像、文本、检测框作为输入，并以文本和检测框作为输出，它使用了约 1.5B 的图文数据训练。在四大类多模态任务的标准英文测评中上，Qwen-VL 均取得同等通用模型大小下最好效果；支持英文、中文等多语言对话，端到端支持图片里中英双语的长文本识别；支持多图输入和比较，指定图片问答，多图文学创作等；相比于目前其它开源 LVLM使用的 224 分辨率，Qwen-VL 是首个开源的 448 分辨率的 LVLM 模型。更高分辨率可以提升细粒度的文字识别、文档问答和检测框标注。Qwen-VL 和 Qwen-VL-Chat 使用名为 Tongyi Qianwen LICENSE AGREEMENT 的许可证，有限制条件，如果商业使用，则需要从阿里巴巴获得授权。来源，频道：@kejiqu 群组：@kejiquchat 投稿：@kejiqubot

微软宣布推出了新版小型语言模型 Phi-3，这款模型能够查看图片并告诉你图片中有什么。

微软宣布推出了新版小型语言模型 Phi-3，这款模型能够查看图片并告诉你图片中有什么。 Phi-3-vision 是一种多模态模型，也就是说它能同时处理文本和图像，而且最适合在移动设备上使用。微软表示，现已提供预览的 Phi-3-vision 是一个拥有 42 亿参数的模型（参数指的是模型的复杂程度以及它对训练内容的理解程度），能够执行一般的视觉推理任务，比如对图表或图片提出问题。但是，Phi-3-vision 的规模远小于其他以图像为中心的人工智能模型，比如 OpenAI 的 DALL-E 或 Stability AI 的 Stable Diffusion。与这些模型不同，Phi-3-vision 并不生成图像，但它能理解图像中的内容，并为用户分析这些内容。标签: #微软 #AI 频道: @GodlyNews1 投稿: @GodlyNewsBot

：开源的视觉-语言(VL)模型，旨在实现真实世界的视觉语言理解。

：开源的视觉-语言(VL)模型，旨在实现真实世界的视觉语言理解。它具有广泛的多模态理解能力，能够处理逻辑图表、网页、公式识别、科学文献、自然图像和复杂场景中的具体智能等。 DeepSeek-VL提供了多个模型版本，包括不同规模和功能的模型，以满足不同的研究和商业应用需求。

是面向图文理解的开源多模态大模型系列。该系列模型接受图像和文本输入，并提供高质量的文本输出。目前发布了两个版本的模型，旨在实现领

是面向图文理解的开源多模态大模型系列。该系列模型接受图像和文本输入，并提供高质量的文本输出。目前发布了两个版本的模型，旨在实现领先的性能和高效的部署： MiniCPM-V 2.8B：可在终端设备上部署的先进多模态大模型。最新发布的 MiniCPM-V 2.0 可以接受 180 万像素的任意长宽比图像输入，实现了和 Gemini Pro 相近的场景文字识别能力以及和 GPT-4V 相匹的低幻觉率。 OmniLMM-12B：相比同规模其他模型在多个基准测试中具有领先性能，实现了相比 GPT-4V 更低的幻觉率。

：高级的多模态 AI 模型，旨在通过集成其他数据模态（如图像、音频、3D 和视频内容）来扩展传统语言处理系统的功能。

：高级的多模态 AI 模型，旨在通过集成其他数据模态（如图像、音频、3D 和视频内容）来扩展传统语言处理系统的功能。开源 OmniFusion 核心是 Mistral-7B。该模型有两个版本：第一个使用一个视觉编码器 CLIP-ViT-L，第二个使用两个编码器（CLIP-ViT-L 和 Dino V2）。最初专注于图像，我们选择 CLIP-ViT-L 作为视觉编码器，因为它具有高效的信息传输能力。 OmniFusion 最重要的组件是它的适配器，这是一种允许语言模型解释和合并来自不同模式的信息的机制。对于单编码器版本，适配器是单层四头变压器层，与更简单的线性层或 MLP 结构相比，它表现出了卓越的性能。具有两个编码器的模型使用一个适配器，该适配器从视觉编码器的所有层收集特征，该适配器没有注意层。该适配器从视觉编码器（不包括 CLS 令牌）获取嵌入，并将它们映射到与语言模型兼容的文本嵌入。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人