当虹科技发布多模态视听大模型 BlackEye

当虹科技发布多模态视听大模型BlackEye据当虹科技消息，在4月27日下午召开的“2024中关村论坛・超高清视听科技创新发展论坛”上，当虹科技与北京经济技术开发区联合发布BlackEye大模型基座及应用场景。BlackEye融合了多种深度神经网络组件，包括Transformer、Diffusion等组件，通过文本、图像、视音频、三维模型等多种模态的编码、解码、多模态潜空间对齐、多模态语言推理及生成等技术，实现不同模态信息之间的推理和预测生成。

在Telegram中查看

相关推荐

当虹科技：公司的视频超级压缩技术能应用于商业航天领域

当虹科技：公司的视频超级压缩技术能应用于商业航天领域当虹科技在互动平台表示，公司研发的多模态大模型技术以及相关产品，这些技术包括优化Transformer自回归预测模型、潜空间扩散模型，充分利用Intel酷睿UltraCPU的集成GPU/NPU能力等，可以在AIPC单机算力上实现高效的多模态内容创作与编辑、推理与生成，丰富AIPC的应用。同时，公司的视频超级压缩技术，能实现100Kbps甚至50Kbps以下的窄带宽环节下，依旧能清晰、流畅调阅视频，能应用于卫星通信及商业航天领域。

多模态大模型 Monkey 发布升级版

多模态大模型Monkey发布升级版3月23日，记者从华中科技大学获悉，由该校联合武汉金山办公软件有限公司研究人员开发的Monkey多模态大模型已被人工智能领域国际顶级会议CVPR2024接收，且该大模型曾在大模型开源开放评测体系——“司南”多模态大模型排行榜中名列开源模型榜首。Monkey在文档领域的“升级版”——文字多模态大模型TextMonkey也于近日发布。

AI 手机竞争升级厂商角逐多模态大模型

AI手机竞争升级厂商角逐多模态大模型日前，vivo宣布了其在AI多模态大模型上的重大进展，表示将自研蓝心大模型升级为自研AI多模态大模型。小米与阿里云达成合作，强化旗下人工智能助手多模态AI生成能力。华为不断迭代盘古大模型，并将其引入到手机、汽车端。此外，OPPO、荣耀、三星等也均推出了多模态大模型或相关手机终端。“多模态大模型是AI技术的重要发展方向，也是AI产业的重要增长点。以多模态大模型等为基础的智能化水平是手机企业在AI时代决胜的关键，加速大模型‘上机’成为企业打造差异化的新选择与新方向。”北京工商大学教授王瑜在接受记者采访时表示。（证券日报）

生数科技发布视频大模型可生成 16 秒

生数科技发布视频大模型可生成16秒视频Sora发布两个月后，国内多模态模型公司生数科技首次公布文生视频模型进展。4月27日，清华大学人工智能研究院副院长、生数科技首席科学家朱军在2024年2024年中关村论坛上发布首个文生视频模型Vidu。生数科技称，该模型全面对标Sora，能够生成最长为16秒的视频，分辨率1080P。不过生数科技还未开放Vidu的试用，目前已经开放合作伙伴计划，可以填写在线表单申请加入。

海天瑞声：大模型向多模态发展后将会产生更多新型数据需求

海天瑞声：大模型向多模态发展后将会产生更多新型数据需求海天瑞声近日接受机构调研时表示，大模型向多模态发展后，将会产生更多的新型数据需求。例如文生图的多模态大模型，通过文字输入生成对应图片，这就需要机器理解文字语义的同时将理解的关键词与图片的关键标签进行映射，通过对齐两种独立模态关键特征的方式，实现按指令的创作，以此完成学习训练过程。因此，当大模型向多模态能力维度拓展时，高质量多模态训练数据集的持续学习训练的重要性将更加凸显，多模态的发展将推动数据服务行业进入更大的增量空间。

盛视科技：公司基于多模态大模型技术底座的应用已在口岸业务场景得到初步验证

盛视科技：公司基于多模态大模型技术底座的应用已在口岸业务场景得到初步验证盛视科技在互动平台表示，公司基于多模态大模型技术底座的应用已在口岸业务场景得到初步验证，近半年来公司新技术研究院在预训练模型的基础上对语言NLP、视觉CV、绘图GC等几大模型进行了专项迭代升级及多模态融合，现已具备应用于指挥中心、前台查验、业务咨询、图像识别、风险分析等更广泛业务场景的能力。基于以上研究及实战应用，公司已规划多模态M2-GPT大模型，并计划将该行业多模态大模型技术全面赋能智慧场景业务，通过AI+行业创新应用，持续引领、赋能行业发展。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人