BuboGPT：可以理解图像和音频的内容，并将这些理解与文本输入和输出相结合。

：可以理解图像和音频的内容，并将这些理解与文本输入和输出相结合。BuboGPT是由字节跳动开发的大型语言模型，能够处理多模态输入，包括文本、图像和音频，并具有将其响应与视觉对象相对应的独特能力。它可以进行细粒度的视觉理解，音频理解，以及对齐的音频-图像理解和任意音频-图像理解。BuboGPT的架构是通过学习一个共享的语义空间并进一步探索不同视觉对象和不同模态之间的细粒度关系，从而实现了包括图像、音频和文本在内的多模态理解。它的训练过程包括两个阶段：单模态预训练和多模态指令调整。在单模态预训练阶段，对应的模态Q-Former和线性投影层在大量的模态-文本配对数据上进行训练。在多模态指令调整阶段，使用高质量的多模态指令跟踪数据集对线性投影层进行微调。当你给它一个图像和一段描述图像的文本时，BuboGPT能够理解文本和图像之间的关系，并生成一个与图像内容相对应的响应。这种能力使得BuboGPT可以在对话中提供更丰富、更具上下文的回答。音频理解能力：当你给它一个音频剪辑时，它可以生成一个详细的描述，涵盖音频中的所有声音部分，甚至包括一些人类可能无法注意到的短暂音频片段。BuboGPT还可以处理匹配的音频-图像对，进行声音定位。例如，如果你给它一个场景的图片和场景中发生的声音，它可以理解声音和图像之间的关系，并生成一个描述声音来源位置的响应。即使音频和图像之间没有直接的关系。在这种情况下，BuboGPT可以生成一个高质量的响应，描述音频和图像之间的可能关系。

在Telegram中查看

相关推荐

微软公布可以理解图像内容的 AI 模型

微软公布可以理解图像内容的AI模型微软的研究人员介绍了多模态模型，它可以分析图像内容，解决拼图问题，进行视觉文本识别，通过视觉智商测试，并理解自然语言指令。研究人员认为，整合了文本、音频、图像和视频等不同输入模式的多模态人工智能，是建立人工通用智能（AGI）的关键步骤，可以执行人类水平的一般任务。他们在一些测试中评估了Kosmos-1的能力，包括语言理解、语言生成、无光学字符识别的文本分类、图像说明、视觉问题回答、网页问题回答和零样本图像分类。微软称，在许多这些测试中，Kosmos-1的表现超过了目前最先进的模型。来源，来自：雷锋频道：@kejiqu群组：@kejiquchat投稿：@kejiqubot

MiniCPM-V&OmniLMM 是面向图文理解的开源多模态大模型系列。该系列模型接受图像和文本输入，并提供高质量的文本输出。

是面向图文理解的开源多模态大模型系列。该系列模型接受图像和文本输入，并提供高质量的文本输出。目前发布了两个版本的模型，旨在实现领先的性能和高效的部署：MiniCPM-V2.8B：可在终端设备上部署的先进多模态大模型。最新发布的MiniCPM-V2.0可以接受180万像素的任意长宽比图像输入，实现了和GeminiPro相近的场景文字识别能力以及和GPT-4V相匹的低幻觉率。OmniLMM-12B：相比同规模其他模型在多个基准测试中具有领先性能，实现了相比GPT-4V更低的幻觉率。

MetaAI 开源 ImageBind，可让模型跨 6 种不同的模态（图像、文本、音频、深度、热能和 IMU 数据）进行联动

MetaAI开源ImageBind，可让模型跨6种不同的模态（图像、文本、音频、深度、热能和IMU数据）进行联动借助ImageBind，则可以做到直接通过声音来直接生成图像。这使得AI能够更加深入了解人类情感，理解他们的喜怒哀乐，进而为人类提供更好的服务。当你举起手机，录制一个海边日落的视频时，AI便能自动根据视频内容来生成文案和字幕，并匹配上合适的背景音乐。至AI还有可能通过一首歌，直接为歌手生成一段视频MV。此举将为AIGC技术带来更为广泛的应用场景，一大波更为有趣、实用的AI项目也即将来袭。#AI来源，https://github.com/facebookresearch/ImageBind来自：雷锋频道：@kejiqu群组：@kejiquchat投稿：@kejiqubot

云从科技：从容大模型支持通过文本和音频生成图像和视频

云从科技：从容大模型支持通过文本和音频生成图像和视频OpenAI的视频生成模型Sora引发关注，云从科技相关负责人表示，云从科技在视觉方面积累较为深厚，目前，从容大模型已实现利用diffusion、GAN等生成式技术围绕人物图像、人物视频数据进行建模，通过文本和音频实现对图像和视频内容进行生成、控制、编辑。应用上，云从科技与天津港、华为等共同开发港口大模型PortGPT，核心是AI智能体天天，通过AI生成交互画面，协同数据分析，提高港口运转效率及安全性。此外，还在文生图像、视频等跨模态领域积极布局，包括发布数字人能力平台，生成AI视频；与中国电信合作AI营销海报生成等。（科创板日报）

PixVerse：AI文本和图像生成视频

PixVerse：AI文本和图像生成视频PixVerse是一个利用AI人工智能技术将文本和图像创建成令人惊叹的视频的平台。这个网站提供了一个强大的视频创作工具，允许用户将他们的想法转化为引人注目的视觉效果。通过这个平台，用户可以轻松地制作出具有专业水准的视频内容。标签：#网站#视频生成#AI视频#AI工具链接：https://www.appmiu.com/20408.html

一个用于传输中的嵌套、非结构化、多模态数据的库，包括文本、图像、音频、视频、3D 网格等。它允许深度学习工程师使用 Python

一个用于传输中的嵌套、非结构化、多模态数据的库，包括文本、图像、音频、视频、3D网格等。它允许深度学习工程师使用PythonicAPI高效地处理、嵌入、搜索、推荐、存储和传输多模态数据。跨/多模态世界的大门：用于表示复杂/混合/嵌套文本、图像、视频、音频、3D网格数据的超表现力数据结构。吉娜的基础数据结构，CLIP-即服务，DALL·E流，迪斯科艺术等数据科学强国：通过CPU/GPU上的Torch/TensorFlow/ONNX/PaddlePaddle，大大加快数据科学家在嵌入、k-NN匹配、查询、可视化和评估方面的工作。传输中的数据：针对网络通信进行了优化，随时可以在线连接，在Protobuf、bytes、base64、JSON、CSV、DataFrame中进行快速和压缩的序列化。非常适合流式传输和内存不足数据。一站式k-NN：主流矢量数据库的统一一致的API，允许最近的邻居搜索，包括Elasticsearch，Redis，ANNLite，Qdrant，Weaviate。对于现代应用程序：GraphQL支持使您的服务器在请求和响应时具有多功能性;内置的数据验证和JSON架构（OpenAPI）可帮助您构建可靠的Web服务。Pythonic体验：设计得像Python列表一样简单。如果你知道如何Python，你就知道如何DocArray。直观的习语和类型注释简化了您编写的代码。与IDE集成：在Jupyter笔记本和GoogleColab上实现漂亮的打印和可视化;PyCharm&VSCode中的全面自动完成和类型提示。DocArray由三个简单的概念组成：文档：一种数据结构，用于轻松表示嵌套的非结构化数据。DocumentArray：用于高效访问、操作和理解多个文档的容器。数据类：用于直观地表示多模态数据的高级API。#数据库

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人