微软公布可以理解图像内容的 AI 模型
微软公布可以理解图像内容的 AI 模型 微软的研究人员介绍了多模态模型 ,它可以分析图像内容,解决拼图问题,进行视觉文本识别,通过视觉智商测试,并理解自然语言指令。研究人员认为,整合了文本、音频、图像和视频等不同输入模式的多模态人工智能,是建立人工通用智能(AGI)的关键步骤,可以执行人类水平的一般任务。他们在一些测试中评估了 Kosmos-1 的能力,包括语言理解、语言生成、无光学字符识别的文本分类、图像说明、视觉问题回答、网页问题回答和零样本图像分类。微软称,在许多这些测试中,Kosmos-1 的表现超过了目前最先进的模型。来源 , 来自:雷锋 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot
在Telegram中查看相关推荐

🔍 发送关键词来寻找群组、频道或视频。
启动SOSO机器人