岩山科技：目前在研发 Yan 2.0 大模型将会融合文字、音频、视频等多模态

岩山科技：目前在研发Yan2.0大模型将会融合文字、音频、视频等多模态岩山科技在互动平台表示，公司始终关注AI领域的最新进展，并持续进行技术创新。2024年1月，公司旗下岩芯数智已在上海发布了完全自主研发的Yan1.0大语言模型，该模型是国内首个非Attention机制的大模型，同时也是国内领先的非Transformer架构大模型，Yan1.0以自然语言为主。岩芯数智团队目前也在研发Yan2.0大模型，Yan2.0将会融合文字、音频、视频等多模态，以应用于更广泛的业务。

在Telegram中查看

相关推荐

当虹科技发布多模态视听大模型 BlackEye

当虹科技发布多模态视听大模型BlackEye据当虹科技消息，在4月27日下午召开的“2024中关村论坛・超高清视听科技创新发展论坛”上，当虹科技与北京经济技术开发区联合发布BlackEye大模型基座及应用场景。BlackEye融合了多种深度神经网络组件，包括Transformer、Diffusion等组件，通过文本、图像、视音频、三维模型等多种模态的编码、解码、多模态潜空间对齐、多模态语言推理及生成等技术，实现不同模态信息之间的推理和预测生成。

盛视科技：公司基于多模态大模型技术底座的应用已在口岸业务场景得到初步验证

盛视科技：公司基于多模态大模型技术底座的应用已在口岸业务场景得到初步验证盛视科技在互动平台表示，公司基于多模态大模型技术底座的应用已在口岸业务场景得到初步验证，近半年来公司新技术研究院在预训练模型的基础上对语言NLP、视觉CV、绘图GC等几大模型进行了专项迭代升级及多模态融合，现已具备应用于指挥中心、前台查验、业务咨询、图像识别、风险分析等更广泛业务场景的能力。基于以上研究及实战应用，公司已规划多模态M2-GPT大模型，并计划将该行业多模态大模型技术全面赋能智慧场景业务，通过AI+行业创新应用，持续引领、赋能行业发展。

海天瑞声：大模型向多模态发展后将会产生更多新型数据需求

海天瑞声：大模型向多模态发展后将会产生更多新型数据需求海天瑞声近日接受机构调研时表示，大模型向多模态发展后，将会产生更多的新型数据需求。例如文生图的多模态大模型，通过文字输入生成对应图片，这就需要机器理解文字语义的同时将理解的关键词与图片的关键标签进行映射，通过对齐两种独立模态关键特征的方式，实现按指令的创作，以此完成学习训练过程。因此，当大模型向多模态能力维度拓展时，高质量多模态训练数据集的持续学习训练的重要性将更加凸显，多模态的发展将推动数据服务行业进入更大的增量空间。

中科院香港创新院 AI 中心发布多模态手术大模型，回答准确度达 95%

中科院香港创新院AI中心发布多模态手术大模型，回答准确度达95%中国科学院香港创新院AI中心于3月11日发布了一款面向医疗垂直领域的AI多模态大模型CARESCopilot1.0。中国科学院香港创新院AI中心执行主任刘宏斌教授在发布会上表示，该大模型以可信性和可解释性为研发理念，显著区别于其他通用大模型。目前，该大模型在国际医学大模型测评榜单结果中排名第一，其对问题回答的准确度能达到95%，远高于其他开源算法普遍达到的60%左右的正确率。(21世纪经济报道)

深桑达 A：开发了城市级大模型行业智能平台 —— 星智 2.0

深桑达A：开发了城市级大模型行业智能平台——星智2.0深桑达A在互动平台表示，公司开发了城市级大模型行业智能平台——星智2.0，可以提供强大的文本理解和生成能力以及深度多模态融合处理能力。在政务领域，公司结合70个以上的城市数字化治理实践经验，打造了星智政务大模型，具备感知协同、治理协同、服务协同等特点，目前已在包括武汉在内的数个城市实现落地。在公安、医疗、交通领域，与某省公安部门、武汉大学人民医院、湖北楚天高速等客户合作打造的垂直行业的模型已经实现落地应用。

剑桥、腾讯AI Lab等提出大语言模型PandaGPT：一个模型统一六种模态

剑桥、腾讯AILab等提出大语言模型PandaGPT：一个模型统一六种模态项目主页:https://panda-gpt.github.io/代码:https://github.com/yxuansu/PandaGPT论文:http://arxiv.org/abs/2305.16355线上Demo展示:https://huggingface.co/spaces/GMFTBY/PandaGPT为了实现图像&视频、文本、音频、热力图、深度图、IMU读数六种模态下的指令跟随能力，PandaGPT将ImageBind的多模态编码器与Vicuna大型语言模型相结合（如上图所示）。为了使ImageBind的多模态编码器和Vicuna的大型语言模型的特征空间对齐，PandaGPT使用了组合LLaVa和Mini-GPT4发布的共160k基于图像的语言指令跟随数据作为训练数据。每个训练实例包括一张图像和相应一组多轮对话。为了避免破坏ImageBind本身的多模态对齐性质和减少训练成本，PandaGPT只更新了以下模块：在ImageBind的编码结果上新增一个线性投影矩阵，将ImageBind生成的表示转换后插入到Vicuna的输入序列中；在Vicuna的注意力模块上添加了额外的LoRA权重。两者参数总数约占Vicuna参数的0.4%。训练函数为传统的语言建模目标。值得注意的是，训练过程中仅对模型输出对应部分进行权重更新，不对用户输入部分进行计算。整个训练过程在8×A100(40G)GPUs上完成训练需要约7小时。值得强调的是，目前的PandaGPT版本只使用了对齐的图像-文本数据进行训练，但是继承了ImageBind编码器的六种模态理解能力（图像/视频、文本、音频、深度度、热量图和IMU）和它们之间的对齐属性，从而具备在所有模态之间跨模态能力。在实验中，作者展示了PandaGPT对不同模态的理解能力，包括基于图像/视频的问答，基于图像/视频的创意写作，基于视觉和听觉信息的推理等等，下面是一些例子：图像：音频：视频：与其他多模态语言模型相比，PandaGPT最突出的特点是它能够理解并将不同模态的信息自然地组合在一起。视频+音频：图像+音频：总结作者们也总结了目前PandaGPT的诸多问题以及未来的发展方向。尽管PandaGPT在处理多种模态及其组合方面具有惊人的能力，但仍有多种方法可以极大程度的提升PandaGPT的性能。PandaGPT可以通过使用其他模态对齐数据来进一步提升图像以外模态的理解能力，例如利用ASR和TTS数据来进行音频-文本模态的模态理解和指令跟随能力。文本以外的其他模态仅仅使用了一个embedding向量进行表示，导致语言模型无法理解文本之外模型的细粒度信息。更多关于细粒度特征提取的研究，如跨模态注意力机制，可能有助于提高性能。PandaGPT目前仅允许将文本之外的模态信息用作输入。未来该模型有潜力将整个AIGC统一到同一个模型之中，即一个模型同时完成图像&视频生成、语音合成、文本生成等任务。需要新的基准测试来评估多模态输入的组合能力。PandaGPT还可能表现出现有语言模型的一些常见缺陷，包括幻觉、毒性和刻板印象。最后，作者们强调，PandaGPT仅仅是一个研究原型，暂时还不足以直接应用于生产环境。...PC版：https://www.cnbeta.com.tw/articles/soft/1363375.htm手机版：https://m.cnbeta.com.tw/view/1363375.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人