微软展示Rumi项目 通过多模方式提高AI理解能力

微软展示Rumi项目通过多模方式提高AI理解能力不过现有NLPAI主要依赖于文本输入输出,忽略了人类在自然交流中的语调,面部表情,手势和肢体语言等线索,从而在理解方面会存在偏差。在AI专业术语中,这些线索统称为副语言(paralinguistics/paralanguage)。微软研究院为了解决这个问题,开发了ProjectRumi,这是一个新颖的框架,旨在通过多模态副语言提示来增强人工智能的理解。该项目包括两个主要部分:多模式副语言编码器和多模式副语言解码器。...PC版:https://www.cnbeta.com.tw/articles/soft/1375193.htm手机版:https://m.cnbeta.com.tw/view/1375193.htm

相关推荐

封面图片

微软公布可以理解图像内容的 AI 模型

微软公布可以理解图像内容的AI模型微软的研究人员介绍了多模态模型,它可以分析图像内容,解决拼图问题,进行视觉文本识别,通过视觉智商测试,并理解自然语言指令。研究人员认为,整合了文本、音频、图像和视频等不同输入模式的多模态人工智能,是建立人工通用智能(AGI)的关键步骤,可以执行人类水平的一般任务。他们在一些测试中评估了Kosmos-1的能力,包括语言理解、语言生成、无光学字符识别的文本分类、图像说明、视觉问题回答、网页问题回答和零样本图像分类。微软称,在许多这些测试中,Kosmos-1的表现超过了目前最先进的模型。来源,来自:雷锋频道:@kejiqu群组:@kejiquchat投稿:@kejiqubot

封面图片

OmniFusion:高级的多模态 AI 模型,旨在通过集成其他数据模态(如图像、音频、3D 和视频内容)来扩展传统语言处理系统

:高级的多模态AI模型,旨在通过集成其他数据模态(如图像、音频、3D和视频内容)来扩展传统语言处理系统的功能。开源OmniFusion核心是Mistral-7B。该模型有两个版本:第一个使用一个视觉编码器CLIP-ViT-L,第二个使用两个编码器(CLIP-ViT-L和DinoV2)。最初专注于图像,我们选择CLIP-ViT-L作为视觉编码器,因为它具有高效的信息传输能力。OmniFusion最重要的组件是它的适配器,这是一种允许语言模型解释和合并来自不同模式的信息的机制。对于单编码器版本,适配器是单层四头变压器层,与更简单的线性层或MLP结构相比,它表现出了卓越的性能。具有两个编码器的模型使用一个适配器,该适配器从视觉编码器的所有层收集特征,该适配器没有注意层。该适配器从视觉编码器(不包括CLS令牌)获取嵌入,并将它们映射到与语言模型兼容的文本嵌入。

封面图片

微软聘请前 Meta 高管加强 AI 超级计算团队

前Meta高管JasonTaylor即将加入微软的AI超级计算团队。微软首席技术官KevinScott在上发布帖子称,Taylor将担任公司副总裁兼副首席技术官的角色,帮助“构建下一套系统,推动AI前沿的发展。Taylor从2009年到2022年在Meta工作,他最近担任公司的基础设施副总裁。根据他的LinkedIn资料,他负责AI、数据和隐私基础设施,以及管理公司的服务器预算。Taylor还在2015年至2017年间担任开放计算项目基金会的主席,该组织推广数据中心的开源设计。标签:#Meta#微软#AI频道:@GodlyNews1投稿:@GodlyNewsBot

封面图片

微软推出具备视觉能力的SLM小语言AI模型Phi-3-vision,英特尔宣布旗下软硬件已适配Phi-3系列

微软推出具备视觉能力的SLM小语言AI模型Phi-3-vision,英特尔宣布旗下软硬件已适配Phi-3系列微软最近发布了Phi-3家族的新成员Phi-3-vision,这是一款42亿参数的多模态AI模型,专注于视觉能力,能够理解图文内容,并能在移动平台上高效运行。Phi-3-vision基于Phi-3-mini的文字理解能力,具备轻量特点,上下文长度为128ktoken,训练于2024年2月至4月。该模型特别适合办公场合,优化了图表和方块图的理解能力,能提供战略建议,性能在多个项目上表现优异。微软已将模型上传至HuggingFace平台。英特尔宣布,已针对微软Phi-3系列模型优化了自家的GaudiAI加速器、Xeon和CoreUltraCPU、Arc显卡,降低了AI模型的运行门槛。英特尔致力于将AI带到任何地方,确保其平台支持最新的AI模型和软件。Phi-3系列模型为开发人员提供了成本效益高的选项,英特尔的人工智能产品全面支持新的Phi-3型号,推动AI在不同场景的应用。关注频道@ZaiHuaPd频道投稿@ZaiHuabot

封面图片

继昨天的 ChatGPT 语言学案例后,今天的“密室逃脱游戏”案例继续刷新了我的认知。AI 对给定规则的理解能力远超我的想象。

继昨天的ChatGPT语言学案例后,今天的“密室逃脱游戏”案例继续刷新了我的认知。AI对给定规则的理解能力远超我的想象。概括来说我和ChatGPT实现了一个链路冗长、逻辑精确的文字交互系统——1.我让ChatGPT构思了一个通过文字进行的密室逃脱游戏,描述了游戏规则和玩家的交互方式。2.我们正式开始了游戏,通过发送文字“调查xx”,我找到了第一个谜题“需要钥匙打开的柜门”。3.找钥匙的过程比较痛苦,我遍历了所有可交互物件仍然没有答案。最终求助了两次获取了关键信息。4.用钥匙连续解开两个谜题。(这里有Bug,叉子没用了)然后得到了隐藏密码的线索,打开了可以输入密码的电视。(这一步非常让我惊讶,ChatGPT会明确地给出提示,告知已经没有隐藏信息的物件;最终也告知了所有线索已经搜集完成。)5.这一步有巨大的Bug,我随便猜的密码被认为是正确的答案通关了。追问原因ChatGPT胡扯了一通没有结论。6.最后,ChatGPT陪我做了一个复盘,回答了一些我的疑惑,并针对我提出的不流畅的体验给出了改进的想法。同时,ChatGPT针对我提出的“多人游戏”的想法,给出了从游戏机制到体验设计的非常靠谱的方案设计。ChatGPT/NLP远比“文字生成”的范畴要大得多,最近的深度使用下来明显感受到,和AI深度对话可能是一个全新的、颠覆性的能力。

封面图片

微软Windows负责人:AI将重塑用户系统使用方式

微软Windows负责人:AI将重塑用户系统使用方式他这么说的背景,是因为AMD刚刚宣布了其全新的Ryzen7000移动版处理器,公司宣称它们是首款包含专用AI引擎的x86芯片。公司还表示处理器的速度比配备了AI引擎的苹果MacBookProM1Pro芯片要快20%。在AMD发布会上,和苹果的芯片做对比是主题之一。但同时,苹果也已经推出了M2Pro芯片,为这些笔记本提供了更新,现在的MacBook拥有非常不错的电池续航。AMD首席执行官苏博士声称AMD新芯片续航长达30小时,不过随后的演示说明了这30小时是持续播放视频的续航时间。主题回到AI上,苏博士对Panos说道:“你曾告诉我:所有我放在那台机器上的TOP我都会使用。”Panos则笑着表示:“我尽力而为。”不幸的是,在演讲中他并没有详细说明Windows未来会如何使用它们。不过他也提到,Windows电脑的摄像头将可以智能的为画面添加背景模糊、检测视线,并在电话会议中自动检测人像,与此同时将消耗更少的电量。这些都将是WindowsStudioEffects的一部分。他同时也顺便提了一嘴“自然语言模型”。虽然这些功能看起来没什么大不了,但微软应该会有更宏大的计划。特别是AMD芯片并不是唯一将拥有AI引擎的x86芯片,今年晚些时候将推出的英特尔MeteorLake芯片也将搭载,而基于ARM的芯片早就已经开始搭载AI引擎了。此前,微软已经展示了Windows利用ARM芯片上的AI来清除通话背景中的噪音。也许未来所有的Windows系统笔记本和平板都将能够使用目前基于ARM的Surface系列产品所能实现的功能。...PC版:https://www.cnbeta.com.tw/articles/soft/1337637.htm手机版:https://m.cnbeta.com.tw/view/1337637.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人