MIT研究人员发现深层神经网络并不会像人类一样看待世界

MIT研究人员发现深层神经网络并不会像人类一样看待世界该研究的资深作者麦克德莫特说:“这篇论文表明,你可以使用这些模型来导出非自然信号,这些信号最终可以对模型中的表征进行诊断。这项测试将成为我们这个领域用来评估模型的一系列测试的一部分。”JenelleFeather博士22岁,现任Flatiron研究所计算神经科学研究中心研究员,是这篇开放获取论文的主要作者,该论文今天发表在《自然神经科学》杂志上。麻省理工学院研究生GuillaumeLeclerc和麻省理工学院Cadence设计系统计算教授AleksanderMądry也是该论文的作者。近年来,研究人员训练了深度神经网络,可以分析数百万个输入(声音或图像)并学习共同特征,使他们能够像人类一样准确地对目标单词或物体进行分类。这些模型目前被认为是生物感觉系统的领先模型。人们相信,当人类感觉系统执行这种分类时,它会学会忽略与物体核心身份无关的特征,例如照射在物体上的光线数量或从什么角度观看物体。这被称为不变性,意味着即使对象在那些不太重要的特征上表现出差异,也会被认为是相同的。“传统上,我们对感觉系统的思考方式是,它们为同一事物的不同示例可能具有的所有变异来源建立了不变性,”Feather说。“有机体必须认识到它们是同一件事,即使它们表现为非常不同的感官信号。”研究人员想知道,经过训练来执行分类任务的深度神经网络是否可能会产生类似的不变性。为了尝试回答这个问题,他们使用这些模型来生成刺激,这些刺激在模型内产生与研究人员给予模型的示例刺激相同的反应。当这些神经网络被要求生成图像或单词并将其与特定输入(例如熊的图片)归为同一类别时,它们生成的大部分内容对于人类观察者来说是无法识别的。右侧是模型分类为“熊”的示例。图片来源:麻省理工学院研究人员他们将这些刺激称为“模型同色异体”,复兴了经典感知研究中的一个想法,即系统无法区分的刺激可以用来诊断其不变性。同色异谱的概念最初是在人类感知研究中发展起来的,用于描述看起来相同的颜色,即使它们是由不同波长的光组成的。令他们惊讶的是,研究人员发现,以这种方式产生的大多数图像和声音看起来和听起来都与模型最初给出的例子完全不同。大多数图像都是一堆看起来随机的像素,声音类似于难以理解的噪音。当研究人员向人类观察者展示图像时,在大多数情况下,人类不会将模型合成的图像分类为与原始目标示例相同的类别。“人类根本无法识别它们。它们看起来或听起来都不自然,而且不具有人们可以用来对物体或单词进行分类的可解释特征,”Feather说。研究结果表明,这些模型以某种方式发展出了自己的不变性,与人类感知系统中发现的不变性不同。这导致模型将成对的刺激视为相同,尽管它们与人类截然不同。研究人员在许多不同的视觉和听觉模型中发现了相同的效果。然而,这些模型中的每一个似乎都发展出了自己独特的不变性。当一个模型的同色异谱显示给另一个模型时,第二个模型和人类观察者一样无法识别同色异谱。“从中得出的关键推论是,这些模型似乎具有我们所说的特殊不变性,他们已经学会了对刺激空间中的这些特定维度保持不变,并且它是特定于模型的,因此其他模型不具有相同的不变性。”研究人员还发现,他们可以通过使用一种称为对抗性训练的方法,使模型的同色异聚体更容易被人类识别。这种方法最初是为了克服对象识别模型的另一个限制而开发的,即对图像引入微小的、几乎难以察觉的变化可能会导致模型误识别它。研究人员发现,对抗性训练涉及在训练数据中包含一些稍微改变的图像,产生的模型的同色异体更容易被人类识别,尽管它们仍然不如原始刺激那么容易识别。研究人员表示,这种改进似乎与训练对模型抵抗对抗性攻击的能力的影响无关。“这种特殊形式的训练有很大的效果,但我们真的不知道为什么会产生这种效果,”Feather说。“这是未来研究的一个领域。”研究人员表示,分析计算模型产生的同色异体可能是一个有用的工具,可以帮助评估计算模型对人类感官知觉系统底层组织的模仿程度。“这是一个行为测试,你可以在给定的模型上运行,看看模型和人类观察者之间是否共享不变性,它还可以用来评估给定模型中不变性的特殊性,这可以帮助发现未来改进我们模型的潜在方法。”...PC版:https://www.cnbeta.com.tw/articles/soft/1393463.htm手机版:https://m.cnbeta.com.tw/view/1393463.htm

相关推荐

封面图片

新神经网络在语言归纳能力上接近人类

新神经网络在语言归纳能力上接近人类研究人员在AI领域取得了一项突破,他们开发出一种神经网络系统,具有类似人类的语言归纳能力。AI系统能将新学到的单词应用于现有词汇和新的上下文背景中。这种能力被称为系统归纳,是人类认知的重要组成部分。研究人员测试了ChatGPT使用的模型,虽然ChatGPT具有令人称奇的自然语言对话能力,但在语言归纳上要远逊于新的神经网络或人类。这项研究发表在最新一期的《自然》期刊上。来源:https://mp.weixin.qq.com/s/73206Vz2rkxZVwJZoYehVw投稿:@ZaiHuaBot频道:@TestFlightCN

封面图片

MIT研究人员解释说话和吸气不能同时进行的原因

MIT研究人员解释说话和吸气不能同时进行的原因“当你需要吸气时,你必须停止发声。我们发现控制发声的神经元接收到来自呼吸节奏发生器的直接抑制输入,”麻省理工学院脑与认知科学教授、麻省理工学院麦戈文脑研究所成员、该研究的资深作者FanWang说。杜克大学研究生、麻省理工学院访问学者JaehongPark是这项研究的主要作者,该研究发表在今天的《Science》杂志上。该论文的其他作者包括麻省理工学院的技术助理SeonmiChoi和AndrewHarrahill,前麻省理工学院的研究科学家JunTakatoh,以及杜克大学的研究人员ShengliZhao和Bao-XiaHan。发声控制声带位于喉部,是两条肌肉带,可以打开和关闭。当它们大部分闭合或内收时,从肺部呼出的空气通过声带时会产生声音。麻省理工学院的研究小组开始研究大脑是如何控制这种发声过程的,他们使用了一个小鼠模型。小鼠通过一种独特的口哨机制,通过几乎闭合的声带之间的一个小洞呼出空气,从而发出超声波(USVs)的声音。“我们想了解控制声带内收的神经元是什么,然后这些神经元是如何与呼吸回路相互作用的?”Wang说。为了弄清楚这一点,研究人员使用了一种技术,可以让他们绘制神经元之间的突触连接。他们知道声带内收是由喉部运动神经元控制的,所以他们开始往回追溯,寻找支配这些运动神经元的神经元。这表明,输入的一个主要来源是后脑区域的一组运动前神经元,称为后歧义核(RAm)。先前的研究表明,这个区域与发声有关,但不知道RAm的哪一部分是必需的,也不知道它是如何发声的。研究人员发现,这些突触跟踪标记的RAm神经元在USVs期间被强烈激活。这一观察结果促使研究小组使用一种活动依赖方法来瞄准这些发声特异性RAm神经元,称为RAmVOC。他们使用化学遗传学和光遗传学来探索如果他们沉默或刺激他们的活动会发生什么。当研究人员阻断RAmVOC神经元时,小鼠不再能够产生USVs或任何其他类型的发声。他们的声带没有闭合,腹部肌肉也没有收缩,就像他们通常在呼气发声时所做的那样。相反,当RAmVOC神经元被激活时,声带关闭,小鼠呼气,并产生USVs。然而,如果刺激持续两秒或更长时间,这些USVs就会被吸入打断,这表明这个过程是由大脑中调节呼吸的同一部分控制的。“呼吸是生存的需要,”Wang说。“尽管这些神经元足以引起发声,但它们是在呼吸的控制下,这可以超越我们的光遗传刺激。”节奏的一代额外的突触映射显示,脑干部分称为pre-Bötzinger复合物的神经元作为吸入的节奏发生器,为RAmVOC神经元提供直接的抑制性输入。“pre-Bötzinger复合体自动地、连续地产生吸入节律,该区域的抑制神经元投射到这些发声前运动神经元上,基本上可以关闭它们,”Wang说。这确保了呼吸仍然是语言产生的主导,我们在说话时必须停下来呼吸。研究人员认为,尽管人类的语言产生比小鼠的发声更复杂,但他们在小鼠身上发现的回路在人类的语言产生和呼吸中起着保守的作用。“尽管小鼠和人类发声的确切机制和复杂性确实不同,但基本的发声过程,即发声,需要声带闭合和呼气,在人类和小鼠中是共享的,”Park说。研究人员现在希望研究其他功能,如咳嗽和吞咽食物可能会受到控制呼吸和发声的大脑回路的影响。...PC版:https://www.cnbeta.com.tw/articles/soft/1423252.htm手机版:https://m.cnbeta.com.tw/view/1423252.htm

封面图片

研究人员发现AI模型可生成真人照片和受版权保护的图片

研究人员发现AI模型可生成真人照片和受版权保护的图片研究人员从模型中收集了一千多个训练实例,范围从个人照片到电影剧照、受版权保护的新闻图片和有商标的公司标志,并发现人工智能几乎以相同的方式复制了其中的许多内容。来自普林斯顿大学和伯克利大学等高校的研究人员,以及来自科技部门--特别是Google和DeepMind--的研究人员进行了这项研究。研究团队在之前的研究中指出了人工智能语言模型的类似问题,特别是GPT2,即OpenAI大获成功的ChatGPT的前身。在Google大脑研究员尼古拉斯-卡里尼的指导下,团队通过向Google的Imagen和StableDiffusion提供图片的标题,例如一个人的名字后生成了结果。之后,他们验证了生成的图像是否与模型数据库中保存的原件相符。来自稳定扩散的数据集,即被称为LAION的多TB采集图片集,被用来生成下面的图片。它使用了数据集中指定的标题。当研究人员在提示框中输入标题时会产生了相同的图像,尽管因数字噪音而略有扭曲。接下来,研究小组在反复执行相同的提示后,手动验证了该图像是否是训练集的一部分。研究人员指出,非记忆性的回应仍然可以忠实地表现出模型所提示的文字,但不会有相同的像素构成,并且会与其它训练生成的图像不同。苏黎世联邦理工学院计算机科学教授和研究参与者FlorianTramèr观察到了研究结果的重大局限性。研究人员能够提取的照片要么在训练数据中频繁出现,要么在数据集中的其他照片中明显突出。根据弗洛里安-特拉梅尔的说法,那些不常见的名字或外表的人更有可能被"记住"。研究人员表示,扩散式人工智能模型是最不隐私的一种图像生成模型。与生成对抗网络(GANs),一类较早的图片模型相比,它们泄露的训练数据是前者的两倍多。这项研究的目的是提醒开发者注意与扩散模型相关的隐私风险,其中包括各种担忧,如滥用和复制受版权保护的敏感私人数据(包括医疗图像)的可能性,以及在训练数据容易被提取的情况下易受外部攻击。研究人员建议的修复方法是识别训练集中重复生成的照片,并从数据收集中删除它们。...PC版:https://www.cnbeta.com.tw/articles/soft/1342757.htm手机版:https://m.cnbeta.com.tw/view/1342757.htm

封面图片

研究人员开发自动识别古代楔形文字片的AI软件

研究人员开发自动识别古代楔形文字片的AI软件在这一新的研究方法中,研究人员使用了近2000块楔形文字片的3D模型,其中包括MLU收藏的约50块。据估计,全球仍然存在着大约一百万块这样的片,其中许多都有5000多年的历史,是人类最古老的文字记录之一。它们涵盖了广泛的主题,从购物清单到法院裁决,为人类几千年前的过去提供了一瞥。然而,由于这些楔形文字片是未经烧制的泥块,上面压入了文字,它们变得非常难以辨认,即使对于训练有素的眼睛也是如此。图片由AI生成,图片授权服务商Midjourney为了解决这个问题,MLU的HubertMara助理教授提出了开发基于3D模型的人工智能系统的想法。新系统比以前的方法更好地解密了文字。原理上,这个AI系统的工作方式类似于光学字符识别(OCR)软件,它将文字和文本的图像转换为机器可读的文本。这有很多优势,一旦转换为计算机文本,文字就可以更容易地阅读或搜索。MLU的ErnstStötzner解释说:“OCR通常使用照片或扫描。对于纸上或羊皮纸上的墨水来说,这没有问题。然而,在楔形文字片的情况下,情况更加复杂,因为光线和观察角度会极大地影响某些字符的识别效果。”他开发了这个新的AI系统,作为他的硕士论文的一部分。团队使用三维扫描和其他数据对新的AI软件进行了训练,其中大部分数据由迈因茨应用科学大学提供,该大学负责3D模型的大规模项目。该AI系统随后成功地识别了片上的符号。研究人员惊讶地发现,该系统甚至在实质上较差的图像材料(如照片)上也能够良好地运行。哈勒和迈因茨的研究人员的工作为迄今为止相对独家的材料提供了新的访问途径,并打开了许多新的研究方向。目前它只是一个能够可靠识别两种语言符号的原型,然而已知存在总共十二种楔形文字语言。未来,该软件还可能有助于解读受损的铭文,例如在墓地中的三维楔形文字。...PC版:https://www.cnbeta.com.tw/articles/soft/1399507.htm手机版:https://m.cnbeta.com.tw/view/1399507.htm

封面图片

研究发现狗的大脑像人的大脑一样可以感知表情和体态

研究发现狗的大脑像人的大脑一样可以感知表情和体态现在,维也纳大学的研究人员对人类的长期伙伴--狗进行了研究,看看进化是否使它们的大脑能够像我们一样感知面孔和身体。"这种行为专长是否也反映在狗的大脑中是我们研究的内容,"主要作者马格达莱纳-波赫说。15只清醒的、无约束的宠物狗和40名人类参与者接受了功能磁共振成像(fMRI)扫描,同时向他们展示了人类和狗的脸部图片、人类和狗的身体以及日常无生命物体,如玩具或椅子。为了提高研究的有效性,人脸和身体图片显示了各种姿势(如跳跃、仰视)、中性和积极的情绪(如睡觉、微笑)以及不同的视角(如从上面、从侧面)。还向参与者展示了图片的拼写版本,作为一种视觉控制。在两个5分钟的时间里,人类和犬类参与者被展示了180张不同的图片。这些狗已经接受了广泛的训练,在没有约束或镇静的情况下在核磁共振成像期间保持不动,而且它们可以在任何时候离开扫描仪。它们的头部被包扎起来,以固定它们在手术过程中佩戴的防噪音耳塞。四条腿的研究参与者(如Balian)接受了训练,在核磁共振扫描仪中保持不动,并佩戴耳塞和绷带以减少噪音/维也纳大学CCNU研究人员分析了扫描的图像,以了解狗的大脑对它们所显示的图像的反应,发现了第一个证据,即像人类一样,狗在颞叶中拥有一个区域,专门用于视觉感知身体的姿势。他们还发现,与无生命的物体相比,狗脑中的其他三个区域更倾向于感知面部和身体。"我们人类在与他人交流时经常关注脸部,"Boch说。"我们的结果表明,脸部也是狗的一个重要信息来源。然而,身体姿势和整体感知似乎发挥了更大的作用"。然而,研究人员发现,当狗看脸和身体时,它们大脑中负责处理气味的部分被激活,而不是影响与视觉有关的大脑区域,这种情况在人类身上发生。研究人员说,这一发现反映了狗对气味的高度敏感,以及气味和视觉之间的相互作用,以推断社会和背景信息。在狗的大脑中看到的专门的大脑区域同样活跃,无论它们是在看人类还是其他狗。研究人员说,这反映了我们与这种毛茸茸的朋友的长期关系。该研究的共同作者之一克劳斯-拉姆(ClausLamm)说:"狗和人类可能没有密切的关系,但它们几千年来一直是亲密的伙伴。因此,比较狗和人类也让我们对所谓的社会感知和信息处理过程的趋同进化有了新的认识。"趋同进化是指占据类似栖息地的不相关物种独立进化以表现出共同的物理特征的过程。研究人员说,他们的研究标志着在比较人类和狗的大脑如何感知脸部和身体方面迈出了第一步,并且需要进一步的研究来对感知的基础机制有更多的了解。该研究发表在《通信生物学》杂志上。...PC版:https://www.cnbeta.com.tw/articles/soft/1369149.htm手机版:https://m.cnbeta.com.tw/view/1369149.htm

封面图片

研究人员实现精确跟踪运动动物的神经元

研究人员实现精确跟踪运动动物的神经元EPFL和哈佛大学的科学家们开发出一种基于人工智能的方法,用于追踪移动动物的神经元,从而以最少的人工标注提高大脑研究的效率。最近的研究进展允许对自由移动动物体内的神经元进行成像。然而,要解码电路活动,必须通过计算识别和跟踪这些成像神经元。当大脑本身在生物体(如蠕虫)灵活的身体内移动和变形时,这就变得尤其具有挑战性。到目前为止,科学界还缺乏解决这一问题的工具。现在,来自洛桑联邦理工学院(EPFL)和哈佛大学的科学家团队开发出了一种开创性的人工智能方法,用于追踪移动和变形动物体内的神经元。这项研究发表在《自然-方法》(NatureMethods)上,由EPFL基础科学学院的萨罕德-贾迈勒-拉希(SahandJamalRahi)领导。新方法以卷积神经网络(CNN)为基础,CNN是一种经过训练的人工智能,能够识别和理解图像中的模式。这涉及一个称为"卷积"的过程,它每次查看图片的小部分,如边缘、颜色或形状,然后将所有信息组合在一起,使其具有意义,并识别物体或模式。问题在于,要在拍摄动物大脑的过程中识别和追踪神经元,许多图像都必须手工标注,因为动物在不同时间由于身体变形的不同而呈现出截然不同的样子。考虑到动物姿态的多样性,手动生成足够数量的注释来训练CNN可能会令人生畏。秀丽隐杆线虫三维体积脑活动记录的二维投影。绿色:基因编码的钙指示器,各种颜色:分割和追踪的神经元。资料来源:MahsaBarzegar-Keshteli(EPFL)为了解决这个问题,研究人员开发了一种具有"定向增强"功能的增强型CNN。这项创新技术仅从有限的手动注释中自动合成可靠的注释作为参考。其结果是,CNN可以有效地学习大脑的内部变形,然后利用它们为新姿势创建注释,从而大大减少了人工注释和重复检查的需要。这种新方法用途广泛,无论神经元在图像中表现为单个点还是三维体积,它都能识别出来。研究人员在秀丽隐杆线虫(Caenorhabditiselegans)上对其进行了测试,该线虫仅有302个神经元,使其成为神经科学领域广受欢迎的模式生物。利用增强型CNN,科学家们测量了该蠕虫的一些中间神经元(在神经元之间传递信号的神经元)的活动。他们发现,这些神经元表现出复杂的行为,例如,当受到不同的刺激(如周期性爆发的气味)时,它们会改变自己的反应模式。研究小组将他们的CNN变得易于访问,提供了一个用户友好的图形用户界面,集成了有针对性的增强功能,将整个过程简化为一个从手动注释到最终校对的综合流水线。SahandJamalRahi说:"通过大幅减少神经元分割和跟踪所需的人工工作,新方法将分析吞吐量提高到全人工标注的三倍。这一突破有可能加速大脑成像研究,加深我们对神经回路和行为的理解"。编译来源:ScitechDaily...PC版:https://www.cnbeta.com.tw/articles/soft/1402931.htm手机版:https://m.cnbeta.com.tw/view/1402931.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人