微软展示Rumi项目通过多模方式提高AI理解能力

微软展示Rumi项目通过多模方式提高AI理解能力不过现有NLPAI主要依赖于文本输入输出，忽略了人类在自然交流中的语调，面部表情，手势和肢体语言等线索，从而在理解方面会存在偏差。在AI专业术语中，这些线索统称为副语言（paralinguistics/paralanguage）。微软研究院为了解决这个问题，开发了ProjectRumi，这是一个新颖的框架，旨在通过多模态副语言提示来增强人工智能的理解。该项目包括两个主要部分：多模式副语言编码器和多模式副语言解码器。...PC版：https://www.cnbeta.com.tw/articles/soft/1375193.htm手机版：https://m.cnbeta.com.tw/view/1375193.htm

在Telegram中查看

相关推荐

微软公布可以理解图像内容的 AI 模型

微软公布可以理解图像内容的AI模型微软的研究人员介绍了多模态模型，它可以分析图像内容，解决拼图问题，进行视觉文本识别，通过视觉智商测试，并理解自然语言指令。研究人员认为，整合了文本、音频、图像和视频等不同输入模式的多模态人工智能，是建立人工通用智能（AGI）的关键步骤，可以执行人类水平的一般任务。他们在一些测试中评估了Kosmos-1的能力，包括语言理解、语言生成、无光学字符识别的文本分类、图像说明、视觉问题回答、网页问题回答和零样本图像分类。微软称，在许多这些测试中，Kosmos-1的表现超过了目前最先进的模型。来源，来自：雷锋频道：@kejiqu群组：@kejiquchat投稿：@kejiqubot

OmniFusion：高级的多模态 AI 模型，旨在通过集成其他数据模态（如图像、音频、3D 和视频内容）来扩展传统语言处理系统

：高级的多模态AI模型，旨在通过集成其他数据模态（如图像、音频、3D和视频内容）来扩展传统语言处理系统的功能。开源OmniFusion核心是Mistral-7B。该模型有两个版本：第一个使用一个视觉编码器CLIP-ViT-L，第二个使用两个编码器（CLIP-ViT-L和DinoV2）。最初专注于图像，我们选择CLIP-ViT-L作为视觉编码器，因为它具有高效的信息传输能力。OmniFusion最重要的组件是它的适配器，这是一种允许语言模型解释和合并来自不同模式的信息的机制。对于单编码器版本，适配器是单层四头变压器层，与更简单的线性层或MLP结构相比，它表现出了卓越的性能。具有两个编码器的模型使用一个适配器，该适配器从视觉编码器的所有层收集特征，该适配器没有注意层。该适配器从视觉编码器（不包括CLS令牌）获取嵌入，并将它们映射到与语言模型兼容的文本嵌入。

微软聘请前 Meta 高管加强 AI 超级计算团队

前Meta高管JasonTaylor即将加入微软的AI超级计算团队。微软首席技术官KevinScott在上发布帖子称，Taylor将担任公司副总裁兼副首席技术官的角色，帮助“构建下一套系统，推动AI前沿的发展。Taylor从2009年到2022年在Meta工作，他最近担任公司的基础设施副总裁。根据他的LinkedIn资料，他负责AI、数据和隐私基础设施，以及管理公司的服务器预算。Taylor还在2015年至2017年间担任开放计算项目基金会的主席，该组织推广数据中心的开源设计。标签:#Meta#微软#AI频道:@GodlyNews1投稿:@GodlyNewsBot

微软推出具备视觉能力的SLM小语言AI模型Phi-3-vision，英特尔宣布旗下软硬件已适配Phi-3系列

微软推出具备视觉能力的SLM小语言AI模型Phi-3-vision，英特尔宣布旗下软硬件已适配Phi-3系列微软最近发布了Phi-3家族的新成员Phi-3-vision，这是一款42亿参数的多模态AI模型，专注于视觉能力，能够理解图文内容，并能在移动平台上高效运行。Phi-3-vision基于Phi-3-mini的文字理解能力，具备轻量特点，上下文长度为128ktoken，训练于2024年2月至4月。该模型特别适合办公场合，优化了图表和方块图的理解能力，能提供战略建议，性能在多个项目上表现优异。微软已将模型上传至HuggingFace平台。英特尔宣布，已针对微软Phi-3系列模型优化了自家的GaudiAI加速器、Xeon和CoreUltraCPU、Arc显卡，降低了AI模型的运行门槛。英特尔致力于将AI带到任何地方，确保其平台支持最新的AI模型和软件。Phi-3系列模型为开发人员提供了成本效益高的选项，英特尔的人工智能产品全面支持新的Phi-3型号，推动AI在不同场景的应用。关注频道@ZaiHuaPd频道投稿@ZaiHuabot

继昨天的 ChatGPT 语言学案例后，今天的“密室逃脱游戏”案例继续刷新了我的认知。AI 对给定规则的理解能力远超我的想象。

继昨天的ChatGPT语言学案例后，今天的“密室逃脱游戏”案例继续刷新了我的认知。AI对给定规则的理解能力远超我的想象。概括来说我和ChatGPT实现了一个链路冗长、逻辑精确的文字交互系统——1.我让ChatGPT构思了一个通过文字进行的密室逃脱游戏，描述了游戏规则和玩家的交互方式。2.我们正式开始了游戏，通过发送文字“调查xx”，我找到了第一个谜题“需要钥匙打开的柜门”。3.找钥匙的过程比较痛苦，我遍历了所有可交互物件仍然没有答案。最终求助了两次获取了关键信息。4.用钥匙连续解开两个谜题。（这里有Bug，叉子没用了）然后得到了隐藏密码的线索，打开了可以输入密码的电视。（这一步非常让我惊讶，ChatGPT会明确地给出提示，告知已经没有隐藏信息的物件；最终也告知了所有线索已经搜集完成。）5.这一步有巨大的Bug，我随便猜的密码被认为是正确的答案通关了。追问原因ChatGPT胡扯了一通没有结论。6.最后，ChatGPT陪我做了一个复盘，回答了一些我的疑惑，并针对我提出的不流畅的体验给出了改进的想法。同时，ChatGPT针对我提出的“多人游戏”的想法，给出了从游戏机制到体验设计的非常靠谱的方案设计。ChatGPT/NLP远比“文字生成”的范畴要大得多，最近的深度使用下来明显感受到，和AI深度对话可能是一个全新的、颠覆性的能力。

微软Windows负责人：AI将重塑用户系统使用方式

微软Windows负责人：AI将重塑用户系统使用方式他这么说的背景，是因为AMD刚刚宣布了其全新的Ryzen7000移动版处理器，公司宣称它们是首款包含专用AI引擎的x86芯片。公司还表示处理器的速度比配备了AI引擎的苹果MacBookProM1Pro芯片要快20%。在AMD发布会上，和苹果的芯片做对比是主题之一。但同时，苹果也已经推出了M2Pro芯片，为这些笔记本提供了更新，现在的MacBook拥有非常不错的电池续航。AMD首席执行官苏博士声称AMD新芯片续航长达30小时，不过随后的演示说明了这30小时是持续播放视频的续航时间。主题回到AI上，苏博士对Panos说道：“你曾告诉我：所有我放在那台机器上的TOP我都会使用。”Panos则笑着表示：“我尽力而为。”不幸的是，在演讲中他并没有详细说明Windows未来会如何使用它们。不过他也提到，Windows电脑的摄像头将可以智能的为画面添加背景模糊、检测视线，并在电话会议中自动检测人像，与此同时将消耗更少的电量。这些都将是WindowsStudioEffects的一部分。他同时也顺便提了一嘴“自然语言模型”。虽然这些功能看起来没什么大不了，但微软应该会有更宏大的计划。特别是AMD芯片并不是唯一将拥有AI引擎的x86芯片，今年晚些时候将推出的英特尔MeteorLake芯片也将搭载，而基于ARM的芯片早就已经开始搭载AI引擎了。此前，微软已经展示了Windows利用ARM芯片上的AI来清除通话背景中的噪音。也许未来所有的Windows系统笔记本和平板都将能够使用目前基于ARM的Surface系列产品所能实现的功能。...PC版：https://www.cnbeta.com.tw/articles/soft/1337637.htm手机版：https://m.cnbeta.com.tw/view/1337637.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人