谷歌发布最新多模态模型GeminiGemini能够归纳并流畅地理解、操作处理包括文本、代码、音频、图像和视频在内的信息。据说宣传

BuboGPT：可以理解图像和音频的内容，并将这些理解与文本输入和输出相结合。

：可以理解图像和音频的内容，并将这些理解与文本输入和输出相结合。BuboGPT是由字节跳动开发的大型语言模型，能够处理多模态输入，包括文本、图像和音频，并具有将其响应与视觉对象相对应的独特能力。它可以进行细粒度的视觉理解，音频理解，以及对齐的音频-图像理解和任意音频-图像理解。BuboGPT的架构是通过学习一个共享的语义空间并进一步探索不同视觉对象和不同模态之间的细粒度关系，从而实现了包括图像、音频和文本在内的多模态理解。它的训练过程包括两个阶段：单模态预训练和多模态指令调整。在单模态预训练阶段，对应的模态Q-Former和线性投影层在大量的模态-文本配对数据上进行训练。在多模态指令调整阶段，使用高质量的多模态指令跟踪数据集对线性投影层进行微调。当你给它一个图像和一段描述图像的文本时，BuboGPT能够理解文本和图像之间的关系，并生成一个与图像内容相对应的响应。这种能力使得BuboGPT可以在对话中提供更丰富、更具上下文的回答。音频理解能力：当你给它一个音频剪辑时，它可以生成一个详细的描述，涵盖音频中的所有声音部分，甚至包括一些人类可能无法注意到的短暂音频片段。BuboGPT还可以处理匹配的音频-图像对，进行声音定位。例如，如果你给它一个场景的图片和场景中发生的声音，它可以理解声音和图像之间的关系，并生成一个描述声音来源位置的响应。即使音频和图像之间没有直接的关系。在这种情况下，BuboGPT可以生成一个高质量的响应，描述音频和图像之间的可能关系。

网站跃问网站功能：AI聊天网站简介：一款多模态大模型，可以理解和生成多种模态的信息，包括文本、图像和音频等。提供了API接

MetaAI 开源 ImageBind，可让模型跨 6 种不同的模态（图像、文本、音频、深度、热能和 IMU 数据）进行联动

MetaAI开源ImageBind，可让模型跨6种不同的模态（图像、文本、音频、深度、热能和IMU数据）进行联动借助ImageBind，则可以做到直接通过声音来直接生成图像。这使得AI能够更加深入了解人类情感，理解他们的喜怒哀乐，进而为人类提供更好的服务。当你举起手机，录制一个海边日落的视频时，AI便能自动根据视频内容来生成文案和字幕，并匹配上合适的背景音乐。至AI还有可能通过一首歌，直接为歌手生成一段视频MV。此举将为AIGC技术带来更为广泛的应用场景，一大波更为有趣、实用的AI项目也即将来袭。#AI来源，https://github.com/facebookresearch/ImageBind来自：雷锋频道：@kejiqu群组：@kejiquchat投稿：@kejiqubot

MiniCPM-V&OmniLMM 是面向图文理解的开源多模态大模型系列。该系列模型接受图像和文本输入，并提供高质量的文本输出。

是面向图文理解的开源多模态大模型系列。该系列模型接受图像和文本输入，并提供高质量的文本输出。目前发布了两个版本的模型，旨在实现领先的性能和高效的部署：MiniCPM-V2.8B：可在终端设备上部署的先进多模态大模型。最新发布的MiniCPM-V2.0可以接受180万像素的任意长宽比图像输入，实现了和GeminiPro相近的场景文字识别能力以及和GPT-4V相匹的低幻觉率。OmniLMM-12B：相比同规模其他模型在多个基准测试中具有领先性能，实现了相比GPT-4V更低的幻觉率。

免费试用：GoogleGemini是DeepMind开发的一种多模态人工智能模型，可以处理文本、音频、图像等多种类型的数据

Stability AI推出Stable Diffusion 3 提示文本理解更好、图像质量更强

StabilityAI推出StableDiffusion3提示文本理解更好、图像质量更强StableDiffusion3的参数在8亿——80亿之间，也就是说StableDiffusion3可能是专为移动设备开发的，AI算力消耗将更低，推理速度却更快。目前，StableDiffusion3支持申请使用，未来会扩大测试范围。申请地址：https://stability.ai/stablediffusion3stability.ai没有过多的介绍StableDiffusion3的技术内容，但指出其核心架构使用了Transformer和FlowFMatching（简称“FM”）。Transformer大家都很熟悉了，ChatGPT、T5 、BERT等很多著名模型都是基于该架构开发的。而FM是MetaAI和魏茨曼科学研究所在2022年10月发布的，一种全新高效建模、训练技术概念。FlowMatching论文地址：https://arxiv.org/abs/2210.02747FlowMatching简单介绍目前，很多文生图模型使用的是CNF（连续正规化流动）训练方法，主要使用常微分方程对流动进行建模，实现从一种已知分布到目标分布的平滑映射。但由于训练过程需要进行大量的微分方程模拟，会导致算力成本高、模型设计复杂、可解释性差等缺点。FM则是放弃微分方程的直接模拟,而是通过回归固定条件概率轨迹来实现无模拟训练。研究人员设计了条件概率分布与向量场的概念,利用边缘分布的结合可以建立总体目标概率轨迹与向量场,从而消除了模拟过程对梯度计算的影响。1）条件概率路径构建：FM需要给出一个目标概率路径,该路径从简单分布演变到逼近数据分布。然后利用条件概率路径构建了目标路径,这样每个样本有一个对应的条件路径。2）变换层：构成FM的基本单元，每个变换层都是可逆的。这意味着从输入到输出的每一步映射都可以精确地反转，从而允许从目标分布反推到原始分布。3）耦合层：将输入分成两部分，对其中一部分应用变换，而变换函数可以是任意的神经网络，其参数由另一部分决定，保证了变换的可逆性。目前，FM技术已在图像生成与超分辨率、图像理解、图像修复与填充、条件图像生成、图像风格迁移与合成、视频处理等领域得到广泛应用。StableDiffusion3案例展示本次的发布页面也是由StableDiffusion3生成的，提示词：史诗般的动漫艺术风格，一位巫师站在夜间的山顶上，向黑暗的天空施放咒语，上面写着由彩色能量生成的“StableDiffusion3”文字教室桌子上有一个红苹果，电影风格，背景的黑板上用粉笔写着“要么做大，要么回家”一名宇航员骑着一只穿着蓬蓬裙的猪，撑着一把粉色的伞，猪旁边的地上有一只戴着高帽的知更鸟，角落里写着"StableDiffusion"的字样。一只变色龙，黑色背景，摄影风格。一辆跑车的夜间照片，侧面写有“SD3”字样，汽车在赛道上高速行驶，巨大的路标上写着“更快”的文字。波浪冲击苏格兰灯塔的鱼眼镜头照片，黑色波浪。...PC版：https://www.cnbeta.com.tw/articles/soft/1420259.htm手机版：https://m.cnbeta.com.tw/view/1420259.htm

相关推荐

BuboGPT：可以理解图像和音频的内容，并将这些理解与文本输入和输出相结合。

网站跃问网站功能：AI聊天网站简介：一款多模态大模型，可以理解和生成多种模态的信息，包括文本、图像和音频等。提供了API接

MetaAI 开源 ImageBind，可让模型跨 6 种不同的模态（图像、文本、音频、深度、热能和 IMU 数据）进行联动

MiniCPM-V&OmniLMM 是面向图文理解的开源多模态大模型系列。该系列模型接受图像和文本输入，并提供高质量的文本输出。

免费试用：GoogleGemini是DeepMind开发的一种多模态人工智能模型，可以处理文本、音频、图像等多种类型的数据

Stability AI推出Stable Diffusion 3 提示文本理解更好、图像质量更强