微软公布新人工智能模型Kosmos-1:了解图像内容、解决视觉难题

微软公布新人工智能模型Kosmos-1:了解图像内容、解决视觉难题研究人员在他们的学术论文《语言不是你的全部》中写道:"作为智能的一个基本部分,多模态感知是实现人工通用智能的一个必要条件,在知识获取和立足于现实世界方面,将感知与语言模型结合起来。"Kosmos-1论文中的视觉案例显示,该模型分析图像并回答有关问题,从图像中阅读文本,为图像编写标题,并以22-26%的准确率进行视觉智商测试。当媒体热议大型语言模型(LLM)的突破时,一些人工智能专家指出,多模态人工智能是通往通用人工智能的潜在途径,这种假想的技术表面上将能够在任何智力任务(和任何智力工作)中取代人类。AGI是OpenAI的既定目标,它是微软在人工智能领域的一个重要商业伙伴。在这种情况下,Kosmos-1似乎是一个没有OpenAI参与的微软公司内部项目。研究人员将他们的创造称为"多模态大语言模型"(MLLM),因为它的根源在于自然语言处理,就像纯文本的LLM,如ChatGPT就是其中的杰出代表。为了让Kosmos-1接受图像输入,研究人员必须首先将图像翻译成LLM能够理解的一系列特殊标记(基本上是文本)。Kosmos-1的论文对此有更详细的描述:对于输入格式,我们将输入平铺为一个用特殊标记物装饰的序列。具体来说,我们使用和来表示序列的开始和结束。特殊标记和表示编码后的图像嵌入的开始和结束。例如,"document"是一个文本输入,而"paragraphImageEmbedding paragraph"是一个交错的图像-文本输入。...一个嵌入模块被用来将文本标记和其他输入模式都编码为向量。然后,嵌入被送入解码器。对于输入标记,我们使用一个查找表将其映射到嵌入中。对于连续信号的模态(如图像和音频),将输入表示为离散代码,然后将其视为"外语"也是可行的。微软使用网络上的数据训练Kosmos-1,包括ThePile(800GB的英文文本资源)和CommonCrawl的节选。训练结束后,他们在一些测试中评估了Kosmos-1的能力,包括语言理解、语言生成、无光学字符识别的文本分类、图像说明、视觉问题回答、网页问题回答和零拍图像分类。据微软称,在许多这些测试中,Kosmos-1的表现超过了目前最先进的模型。Kosmos-1负责解决的瑞文智商测试的一个例子特别令人感兴趣的是Kosmos-1在瑞文推理中的表现,该测试通过展示一连串的形状并要求测试者完成该序列来测量视觉智商。为了测试Kosmos-1,研究人员将一个个填写好的测试题输入,每次完成每个选项,并询问答案是否正确。Kosmos-1只能在22%的时间内正确回答瑞文测试中的问题(微调后为26%),方法上的错误可能会影响结果,但Kosmos-1在拉文智商测试中击败了随机机会(17%)。尽管如此,虽然Kosmos-1代表了多模态领域的早期步骤(其他厂商也在追求这种方法),但很容易想象,未来的优化可能会带来更重要的结果,使人工智能模型能够感知任何形式的媒体并对其采取行动,这将大大增强人工助理的能力。研究人员说,在未来,他们希望扩大Kosmos-1的模型规模,并将语音能力也整合进去。微软表示,它计划将Kosmos-1提供给开发者,尽管该论文引用的GitHub页面在本文发表时还没有提供Kosmos特定代码。...PC版:https://www.cnbeta.com.tw/articles/soft/1347289.htm手机版:https://m.cnbeta.com.tw/view/1347289.htm

相关推荐

封面图片

微软公布可以理解图像内容的 AI 模型

微软公布可以理解图像内容的AI模型微软的研究人员介绍了多模态模型,它可以分析图像内容,解决拼图问题,进行视觉文本识别,通过视觉智商测试,并理解自然语言指令。研究人员认为,整合了文本、音频、图像和视频等不同输入模式的多模态人工智能,是建立人工通用智能(AGI)的关键步骤,可以执行人类水平的一般任务。他们在一些测试中评估了Kosmos-1的能力,包括语言理解、语言生成、无光学字符识别的文本分类、图像说明、视觉问题回答、网页问题回答和零样本图像分类。微软称,在许多这些测试中,Kosmos-1的表现超过了目前最先进的模型。来源,来自:雷锋频道:@kejiqu群组:@kejiquchat投稿:@kejiqubot

封面图片

谷歌最新人工智能模型Gemini Pro已在欧洲上市,将与ChatGPT竞争

谷歌最新人工智能模型GeminiPro已在欧洲上市,将与ChatGPT竞争谷歌表示,GeminiPro是谷歌最大的人工智能(AI)模型之一,作为巴德(Bard)的升级版,现已向欧洲用户开放。该模型是一个多模态大模型,这意味着它可以理解和组合不同类型的信息,如文本、代码、音频、图像和视频。通过Gemini,谷歌希望能与OpenAI的热门聊天机器人ChatGPT进行竞争。投稿:@TNSubmbot频道:@TestFlightCN

封面图片

谷歌最新人工智能模型 Gemini Pro 已在欧洲上市,将与 ChatGPT 竞争

谷歌最新人工智能模型GeminiPro已在欧洲上市,将与ChatGPT竞争谷歌表示,GeminiPro是谷歌最大的人工智能(AI)模型之一,作为巴德(Bard)的升级版,现已向欧洲用户开放。该模型是一个多模态大模型,这意味着它可以理解和组合不同类型的信息,如文本、代码、音频、图像和视频。通过Gemini,谷歌希望能与OpenAI的热门聊天机器人ChatGPT进行竞争。

封面图片

WhatsApp 新增实时人工智能图像生成功能

WhatsApp新增实时人工智能图像生成功能Meta公司正在为美国的WhatsApp用户推出实时人工智能图像生成测试版。在与MetaAI的聊天中,只要在聊天中输入文本到图像的提示,就会看到图像在添加有关要创建的内容的更多详细信息时的变化。此外,Meta公司表示,其MetaLlama3模型现在可以生成“更清晰、更高质量”的图像,并且更擅长显示文本。您还可以让MetaAI为您提供的任何图像制作动画,让您将它们转换为GIF与朋友分享。除了WhatsApp上的功能之外,美国用户还可以通过MetaAI网页版来使用实时图像生成功能。——

封面图片

【Adobe发布名为“Firefly”的图像生成人工智能模型】

【Adobe发布名为“Firefly”的图像生成人工智能模型】2023年03月22日11点03分3月22日消息,Adobe公司发布名为“Firefly”的图像生成人工智能模型,目前主要专注于图像生成和文本效果,如文字生成矢量/笔刷/模板、根据自定义风格生成图像、指定纵横比扩展图像、据3D模型生成图像、为黑白图像上色、使用画笔修改图像并用文字描述的风格进行填充等。未来,Firefly将被实装在Adobe全家桶中。该模型的学习数据来源于Adobe旗下AdobeStock数据库、经授权的作品以及版权已过期的公共内容。据Adobe表示,用户的内容不会被用来训练Firefly。

封面图片

Google的文本到图像的人工智能模型Imagen有限公开亮相

Google的文本到图像的人工智能模型Imagen有限公开亮相AITestKitchen是在今年早些时候推出的,是Google对各种AI系统进行测试的一种方式。目前,该应用程序提供了一些不同的方式与Google的文本模型LAMDA(是的,就是那个工程师认为有知觉的模型,然后他被开除了)进行互动,该公司很快将增加类似的限制性Imagen请求,作为其所谓的应用程序"第二季"更新的一部分。简而言之,将有两种方式与Imagen互动,Google在今天的公告前演示了这一点。演示项目分别是:"城市梦想家"和"摇摆不定"。在"城市梦想家"中,用户可以要求模型生成围绕他们选择的主题设计的城市元素--例如,南瓜、牛仔布或黑颜色。Imagen创建了样本建筑和地块(城市广场、公寓楼、机场等等),所有的设计都以类似于《模拟城市》中看到的等距模型出现。城市梦想家"任务让用户要求以等距设计为主题的城市建筑与其他文本到图像的模式相比,这些互动是非常受限制的,用户不能随便要求他们喜欢的东西。不过,这也是Google有意为之。正如Google产品管理高级总监乔希-伍德沃德(JoshWoodward)向TheVerge解释的那样,AITestKitchen的全部意义在于:a)获得公众对这些AI系统的反馈;b)找出更多关于人们将如何打破它们的信息。伍德沃德不愿意讨论任何关于AITestKitchen用户如何破坏其LaMDA功能的具体例子,但他指出,当模型被要求描述具体地点时,就出现了一个弱点。伍德沃德说:"在历史上的不同时期,一个地点对不同的人意味着不同的东西,所以我们看到了一些相当有创意的方式,人们试图把某个地方放到系统中,看看它产生了什么,"。当被问及哪些地方可能产生有争议的描述时,伍德沃德举了俄克拉荷马州塔尔萨的例子。"20世纪20年代,塔尔萨发生了一系列种族骚乱,"他说。"如果有人输入'塔尔萨',模型甚至可能不参考这个......你可以想象世界各地的复杂情况。""摇摆"功能让用户设计一个怪物并让它跳舞想象一下,如果你要求一个人工智能模型描述德国中世纪的达豪镇。你是否希望模型的答案提及建在那里的纳粹集中营?你怎么知道用户是否在寻找这些信息?在任何情况下省略它都是可以接受的吗?在许多方面,设计具有文本界面的人工智能模型的问题与微调搜索的挑战相似:需要以一种让用户满意的方式解释用户的请求。Google不会分享关于有多少人在实际使用AITestKitchen的数据("我们并没有打算把它变成一个10亿用户的Google应用,"伍德沃德说),但他说它得到的反馈是非常宝贵的。"参与度远远高于我们的预期。并且这是一个非常活跃、有主见的用户群体。"他指出,该应用程序在接触"某些类型的人--研究人员、政策制定者"方面非常有用,他们可以用它来更好地了解最先进的人工智能模型的局限性和能力。不过,最大的问题是,Google是否会想把这些模型推向更广泛的公众,如果是这样,会采取什么形式?目前,该公司的竞争对手OpenAI和StabilityAI正急于将文本-图像模型商业化。Google是否会觉得自己的系统足够安全,可以走出人工智能测试阶段,从而直接提供给用户?...PC版:https://www.cnbeta.com.tw/articles/soft/1331649.htm手机版:https://m.cnbeta.com.tw/view/1331649.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人