人工智能模型消化80小时的视频以学习手语

人工智能模型消化80小时的视频以学习手语翻译手语需要精确理解手语者的姿势,以产生准确的文字转写。巴塞罗那超级计算中心(BSC)和加泰罗尼亚理工大学(UPC)的研究人员利用人工智能开发了一种改进手语翻译的工具,这是允许聋人和重听者与技术互动并获得为口语设计的数字服务的重要一步。研究人员使用了一个转化器式的机器学习模型,与ChatGPT等其他人工智能工具背后的模型类似。变压器之所以有用,主要有两个原因。第一,这些模型特别善于学习如何应用上下文,这是因为架构中存在自我注意机制--自我注意是神经网络如何通过查看文本中的其他词汇来确定词汇的上下文。其次,当从训练实例中学习时,它们允许更快的吞吐量,使更多的训练数据在特定时间内被使用。这里的训练数据集来自How2Sign,这是一个公开可用的大规模、多模态和多视图数据集,包括80小时的美国手语教学视频和相应的英语文字记录。该研究的主要作者LaiaTarrés说:"所开发的新工具是以前同样由BSC和UPC发布的名为How2Sign的出版物的延伸,在那里,训练模型所需的数据(超过80小时的视频,其中美国手语翻译人员翻译了烹饪食谱或DIY技巧等视频教程)被公布。有了这些已经可用的数据,该团队开发了一个新的开源软件,能够学习视频和文本之间的映射。"用于训练人工智能的How2Sign视频数据集的一个例子,以及该工具做出的预测How2Sign/巴塞罗那超级计算中心对于研究人员来说,使用连续签名的视频而不是孤立的签名是很重要的,因为它更真实地反映了说话者是如何自然地使用一连串的词(连接)来构建句子的,这对确定一个句子的含义是至关重要的。研究人员面临的一个挑战是手语的多变性和复杂性,它可能受到诸如手语者的背景、背景和外表的影响。为了在这方面有所帮助,他们使用膨胀式三维网络(I3D)对数据进行了预处理,这是一种视频提取方法,对视频进行三维过滤,允许直接从视频中获取时空信息。研究人员发现,文本预处理也大大改善了签名到文本的翻译。为了预处理原始文本,他们将其全部转换为小写字母,从而降低了词汇的复杂性。总体而言,他们发现他们的模型能够产生有意义的翻译,但并不完美。"研究人员说:"虽然我们的工作显示出有希望的结果,但仍有改进的余地。由于该模型仍处于实验阶段,研究人员将继续努力创建一个工具,使聋人和重听者能够获得与无听力损失者相同的技术。Tarrés说:"这个自动手语翻译的开放工具是对关注无障碍环境的科学界的宝贵贡献,它的发表代表了向为所有人创造更具包容性和无障碍的技术迈出的重要一步。"该研究报告在线发表在arXiv上。...PC版:https://www.cnbeta.com.tw/articles/soft/1361417.htm手机版:https://m.cnbeta.com.tw/view/1361417.htm

相关推荐

封面图片

狡猾的人工智能模型故意破坏训练图像以规避版权问题

狡猾的人工智能模型故意破坏训练图像以规避版权问题AmbientDiffusion是一种文本到图像的人工智能模型,它通过使用严重破坏的图像来保护艺术家的版权。文本到图像生成器的一个大问题是,它们能够复制用来训练它们的原创作品,从而侵犯艺术家的版权。根据美国法律,如果你创作了原创作品并将其"固定"为有形的形式,你就拥有了它的版权--字面意思是复制它的权利。在大多数情况下,未经创作者授权,不得使用受版权保护的图片。今年5月,Google母公司Alphabet遭到一群艺术家的集体版权诉讼,声称Google未经许可使用了他们的作品来训练其人工智能图像生成器Imagen。StabilityAI、Midjourney和DeviantArt(它们都使用了Stability的StableDiffusion工具)也面临着类似的诉讼。为了避免这个问题,德克萨斯大学奥斯汀分校和加州大学伯克利分校的研究人员开发了一种基于扩散的生成式人工智能框架,该框架只对已损坏到无法识别的图像进行训练,从而消除了人工智能记忆和复制原创作品的可能性。扩散模型是一种先进的机器学习算法,它通过向数据集逐步添加噪声来生成高质量的数据,然后学习逆转这一过程。最近的研究表明,这些模型可以记忆训练集中的示例。这显然会对隐私、安全和版权产生影响。这里有一个与艺术品无关的例子:人工智能需要接受X光扫描训练,但不能记住特定病人的图像,否则就会侵犯病人的隐私。为了避免这种情况,模型制作者可以引入图像损坏。研究人员利用他们的环境扩散框架证明,只需使用高度损坏的样本,就能训练扩散模型生成高质量的图像。根据"干净"(左)和损坏(右)的训练图像生成的环境扩散输出结果上图显示了在使用损坏时图像输出的差异。研究人员首先用CelebA-HQ高质量名人图片数据库中的3000张"干净"图片对模型进行了训练。根据提示,该模型生成的图像与原图几乎完全相同(左图)。然后,他们使用3000张高度损坏的图像对模型进行了重新训练,其中多达90%的单个像素被随机屏蔽。虽然模型生成的人脸栩栩如生,但结果却大相径庭(右图)。UT奥斯汀分校计算机科学教授亚当-克里万斯(AdamKlivans)是这项研究的共同作者,他表示:"从黑洞成像到某些类型的核磁共振成像扫描,基本上任何昂贵或不可能拥有全套未损坏数据的研究都会如此。"与现有的文本到图像生成器一样,其结果并非每次都完美无缺。关键是,艺术家们知道像AmbientDiffusion这样的模型不会记住并复制他们的原创作品,就可以稍稍放心了。它能阻止其他人工智能模型记住并复制他们的原始图像吗?不会,但这就是法院的职责所在。研究人员已将他们的代码和环境扩散模型开源,以鼓励进一步的研究。可在GitHub上查阅。该研究发表在预印本网站arXiv上。...PC版:https://www.cnbeta.com.tw/articles/soft/1431886.htm手机版:https://m.cnbeta.com.tw/view/1431886.htm

封面图片

OpenAI 推出文本到视频人工智能模型 Sora

OpenAI推出文本到视频人工智能模型Sora根据OpenAI的介绍博文,Sora能够创建"具有多个角色、特定运动类型以及主体和背景准确细节的复杂场景"。该公司还指出,该模型能够理解物体"在物理世界中的存在方式",还能"准确解释道具并生成表达生动情感的引人注目的角色"。该模型还能根据静态图像生成视频,以及在现有视频中填充缺失的帧或扩展视频。OpenAI的博文中包含的Sora生成的演示包括淘金热时期加利福尼亚州的空中场景、从东京火车内部拍摄的视频等。许多演示都有人工智能的痕迹--比如在一段博物馆的视频中,地板疑似在移动。OpenAI表示,该模型"可能难以准确模拟复杂场景的物理现象",但总体而言,演示结果令人印象深刻。几年前,像Midjourney这样的文本到图像生成器在模型将文字转化为图像的能力方面处于领先地位。但最近,视频技术开始飞速进步:Runway和Pika等公司都展示了自己令人印象深刻的文字转视频模型,而Google的Lumiere也将成为OpenAI在这一领域的主要竞争对手之一。与Sora类似,Lumiere也为用户提供了文字转换视频的工具,还能让用户通过静态图像创建视频。Sora目前只对"红队"人员开放,他们负责评估模型的潜在危害和风险。OpenAI还向一些视觉艺术家、设计师和电影制片人提供访问权限,以获得反馈意见。它指出,现有模型可能无法准确模拟复杂场景的物理现象,也可能无法正确解释某些因果关系。本月早些时候,OpenAI宣布将在其文本到图像工具DALL-E3中添加水印,但指出这些水印"很容易去除"。与其他人工智能产品一样,OpenAI将不得不面对人工智能逼真视频被误认为是真实视频的后果。...PC版:https://www.cnbeta.com.tw/articles/soft/1418385.htm手机版:https://m.cnbeta.com.tw/view/1418385.htm

封面图片

微软公布新人工智能模型Kosmos-1:了解图像内容、解决视觉难题

微软公布新人工智能模型Kosmos-1:了解图像内容、解决视觉难题研究人员在他们的学术论文《语言不是你的全部》中写道:"作为智能的一个基本部分,多模态感知是实现人工通用智能的一个必要条件,在知识获取和立足于现实世界方面,将感知与语言模型结合起来。"Kosmos-1论文中的视觉案例显示,该模型分析图像并回答有关问题,从图像中阅读文本,为图像编写标题,并以22-26%的准确率进行视觉智商测试。当媒体热议大型语言模型(LLM)的突破时,一些人工智能专家指出,多模态人工智能是通往通用人工智能的潜在途径,这种假想的技术表面上将能够在任何智力任务(和任何智力工作)中取代人类。AGI是OpenAI的既定目标,它是微软在人工智能领域的一个重要商业伙伴。在这种情况下,Kosmos-1似乎是一个没有OpenAI参与的微软公司内部项目。研究人员将他们的创造称为"多模态大语言模型"(MLLM),因为它的根源在于自然语言处理,就像纯文本的LLM,如ChatGPT就是其中的杰出代表。为了让Kosmos-1接受图像输入,研究人员必须首先将图像翻译成LLM能够理解的一系列特殊标记(基本上是文本)。Kosmos-1的论文对此有更详细的描述:对于输入格式,我们将输入平铺为一个用特殊标记物装饰的序列。具体来说,我们使用和来表示序列的开始和结束。特殊标记和表示编码后的图像嵌入的开始和结束。例如,"document"是一个文本输入,而"paragraphImageEmbedding paragraph"是一个交错的图像-文本输入。...一个嵌入模块被用来将文本标记和其他输入模式都编码为向量。然后,嵌入被送入解码器。对于输入标记,我们使用一个查找表将其映射到嵌入中。对于连续信号的模态(如图像和音频),将输入表示为离散代码,然后将其视为"外语"也是可行的。微软使用网络上的数据训练Kosmos-1,包括ThePile(800GB的英文文本资源)和CommonCrawl的节选。训练结束后,他们在一些测试中评估了Kosmos-1的能力,包括语言理解、语言生成、无光学字符识别的文本分类、图像说明、视觉问题回答、网页问题回答和零拍图像分类。据微软称,在许多这些测试中,Kosmos-1的表现超过了目前最先进的模型。Kosmos-1负责解决的瑞文智商测试的一个例子特别令人感兴趣的是Kosmos-1在瑞文推理中的表现,该测试通过展示一连串的形状并要求测试者完成该序列来测量视觉智商。为了测试Kosmos-1,研究人员将一个个填写好的测试题输入,每次完成每个选项,并询问答案是否正确。Kosmos-1只能在22%的时间内正确回答瑞文测试中的问题(微调后为26%),方法上的错误可能会影响结果,但Kosmos-1在拉文智商测试中击败了随机机会(17%)。尽管如此,虽然Kosmos-1代表了多模态领域的早期步骤(其他厂商也在追求这种方法),但很容易想象,未来的优化可能会带来更重要的结果,使人工智能模型能够感知任何形式的媒体并对其采取行动,这将大大增强人工助理的能力。研究人员说,在未来,他们希望扩大Kosmos-1的模型规模,并将语音能力也整合进去。微软表示,它计划将Kosmos-1提供给开发者,尽管该论文引用的GitHub页面在本文发表时还没有提供Kosmos特定代码。...PC版:https://www.cnbeta.com.tw/articles/soft/1347289.htm手机版:https://m.cnbeta.com.tw/view/1347289.htm

封面图片

人工智能对人工智能生成的内容进行训练将导致人工智能崩溃

人工智能对人工智能生成的内容进行训练将导致人工智能崩溃用于训练大型语言模型的数据最初来自人类来源,如书籍、文章、照片等,这些都是在没有人工智能的帮助下创建的。但随着越来越多的人使用人工智能来制作和发布内容,一个明显的问题出现了:当人工智能生成的内容在互联网上扩散时,人工智能模型开始对其进行训练。研究人员发现,“在训练中使用模型生成的内容会导致所产生的模型出现不可逆转的缺陷。”他们研究了文本到文本和图像到图像的人工智能生成模型的概率分布,得出结论:“从其他模型产生的数据中学习会导致模型崩溃——这是一个退化的过程,并且随着时间的推移,模型会忘记真正的基础数据分布。”他们观察到模型崩溃发生得如此之快:模型可以迅速忘记它们最初学习的大部分原始数据。这导致它们随着时间的推移,表现越来越差,错误越来越多。来源,来自:雷锋频道:@kejiqu群组:@kejiquchat投稿:@kejiqubot

封面图片

人工智能初创公司 Runway 发布文本到视频模型 Gen-2

人工智能初创公司Runway发布文本到视频模型Gen-2Gen-2支持从文本到视频、图像到视频、文本+图像到视频各种场景,可以从几句用户提示中生成简短的视频片段。用户可通过Runway的加入Gen-2候补名单。Runway同时协助开发了开源图像生成模型StableDiffusion,比起拥有巨大资源的科技巨头,Runway只是一个45人团队的人工智能初创公司,这也反映着初创公司在生成式AI上的潜力有多么惊人。投稿:@ZaiHuabot频道:@TestFlightCN

封面图片

拜登政府可能准备遏制中国获取最先进的人工智能大模型,像是ChatGPT等人工智能系统的核心软件

拜登政府可能准备遏制中国获取最先进的人工智能大模型,像是ChatGPT等人工智能系统的核心软件三位知情人士表示,美国商务部正在考虑一项新的监管举措,以限制专有或闭源人工智能模型的出口,这些大模型软件及其训练的数据都是保密。美国政府和私营部门的研究人员担心,美国的对手可能会使用这些大模型挖掘大量文本和图像来总结信息并生成内容,以进行激进的网络攻击,甚至制造强大的生物武器。据悉,为制定人工智能模型的出口管制,基于训练模型所需计算能力的阈值或成为敲定哪些模型将受限出口的基础。不过相关机构还远未能提出最终提案。关注频道@ZaiHuaNews频道投稿@ZaiHuabot

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人