AI 新知: 像大脑一样学习的多模态(极简版起源故事)

AI 新知: 像大脑一样学习的多模态(极简版起源故事) 近日,微软放出了多模态大语言模型的重要论文《Language Is Not All You Need 》。预示着今年AI 的下一个重大突破。 那么,什么是多模态学习, 有没有一种人人皆可理解的方式,让更多人参与着技术民主化的浪潮呢? 答案是乐观和肯定的。 以下内容来自Jeff Dean 去年在TED 做的分享,面向所有人。无需担心技术理解力,更依赖你对大脑本身的好奇心。 原始链接: Jeff Dean 二十多年前加入谷歌,领导着谷歌的人工智能研究与健康部门。 核心内容摘要如下: (这是我的几点解读,供非专业人士参考) 神经网络的机器学习突破是来自科学界对大脑的运作规律的理解(它是自下而上的) 算力是重要且有效的,深度学习突破了识别猫咪、机器翻译到 AlphaGO 等单一任务 AI的单一任务导向的训练是极为低效的,可以请想象成我们从小失去听觉、嗅觉、味觉(去观看电影的感受) 多模态的思想,是进一步模拟大脑运作,就像生物拥有多种感觉来整合认知世界 像大脑一样多个区域进行超高效率的协作,是学习真正的「奥义」;AI的多模态即对大脑深度的模仿。 部分讲稿如下(适当删减,以便于文字阅读): 1/ 人工智能可以做什么? 在过去的十年间,AI 在帮助计算机识别物体、 理解语言和谈话方面 取得的巨大进步。 以往的天方夜谭 现在一一成为现实。计算机视觉来说, 在过去的十年中,电脑快速地发展出了‘看’的能力 。这在计算机运用上 具有变革性的影响。 还有一些了不起的实际应用。 可以通过机器学习预测洪水、翻译一百多种语言、预测和诊断疾病。 2/ 让我们来看看构成当代人工智能系统 基础的两个关键元素。 首先是神经网络,它是解决这些难题的一项重大突破。 第二个是运算能力。 驱动神经网络运作实际需要大量的运算能力, 在过去的十五年, 我们做到了使其减半,那也是整个人工智能得以发展至此的原因之一。Jeff Dean 认为我们做错了几件事~ 3/ AI 小历史。 数十年前几乎从计算机科学最早出现, 人们就想建造可以识别语言及理解谈话的电脑。最初的方法一般是人们手动写下完成难题所需的算法, 但成效一般。 过去的十五年间, 一个方法出其不意地 一次性解决了所有难题: 神经网络。 神经网络并非一个新想法。 背后的理念出现于1960和70年代。 神经网络如同其字面意思一样, 是一连串互相连接的神经元。 它们大致上效仿了人体真正神经元的特性。 4/ 神经网络如何计算? 这种系统中的一个独立神经元, 拥有一组输入信息,每组输入信息有对应的比重,神经元的信息输出就等于那些输入信息乘以它们对应的比重。 其实挺简单的, 无数神经元协同运作,就可以学习复杂的东西。 我们如何在神经网络中学习的? 其实,在学习过程中, 比重在不断被微调, 增强一些东西的影响,削弱其他的影响。 5/ Jeff Dean对神经网络的兴趣, 始于1990年本科阶段时学到的一门相关课程。 那时,神经网络在精细问题的解决上取得了惊人的成果, 但还达不到完成真实世界中重要工作的程度。 他觉得我们可能只是需要更强的运算能力。 明尼苏达大学当时有一个32位处理器。Jeff Dean想:“如果有更强的运算能力, 我们真能用神经网络干点大事。” 所以决定以神经网络的并行训练 作为毕业论文的课题,理念是将电脑或电脑系统中 所有的处理器 运用到同一件任务上,用来训练神经网络。 32位处理器,哇, 我们肯定能用它做点大事。 但我错了。 6/ Jeff Dean 意识到如果想用神经网络做些引人注目的事情, 所需的算力大概是 90年代算力的一百万倍。但从大概2005年开始,多亏了摩尔定律, 我们真的开始拥有算力了,世界上一些大学里的研究员们开始成功用神经网络完成各种任务。和其他几个在谷歌的同事听闻了这些成功事例, 于是决定启动一个项目,训练大型神经网络。 7/ 用油管视频里随机截取的一千万帧照片对其进行训练。 这个系统发展出了能够识别所有不同种类物体的能力,然后因为是油管的关系, 所以它发展出了识别猫的能力。油管上全是猫。 但让它如此引人注目的是从未有人告诉过这个系统猫到底是什么。 仅仅依靠数据的形态规律, 它就能自己琢磨出来猫究竟是什么。 8/ 在那个时候, 我们还对如何打造一个更适合神经网络运算所需的计算机硬件感兴趣。 神经网络运算有两个特性。 第一个是它们对精准度要求很低。 几个有效位就够了, 不需要六七个那么多。 第二个是所有算法都普遍由多个 不同的矩阵和向量的运算组成。 它会非常适用于神经网络运算, 虽然你无法用它做太多别的事,这是我们制作的第一个成品,TPU v1。 “TPU”是张量处理器的意思。 多年来,这一技术运用于谷歌搜索、翻译、以及AlphaGo围棋比赛, 所以李世石和柯洁可能没意识到,他们其实是在和TPU架构比赛。 9/ 我们仍然做错了很多事, 讲三件我们做错的事情, 以及如何修正他们。 第一个是,现如今的大部分神经网络 只被训练进行单一种类的任务。 你训练它去做一件你很关心的事情, 但这是一项非常繁重的工作。 你需要搜索数据组, 选择这个问题所需的网络架构, 接着随机分配起始比重, 然后为调整比重进行大量运算。 到最后,如果你幸运的话,可以得到一个非常适用于你关心的问题的模型。 但如果你一直这样做, 到最后会得到几千个独立的模型,每个可能都很有用,但都只针对某个单一类型的问题。 10/ 想一想人类是怎样学习的。 想象我们沉浸于钻研园艺, 尝试垂直水培园艺。 无需为此重新学习一遍,我已经掌握的有关植物的知识。 知道怎么把植物放进洞里,怎么浇水,以及植物需要光照, 我只需要整合这些知识用以学习新的技术。 (大脑整合了不同维度的知识和模型) 11/ 电脑也可以这样运作,但目前还未实现。为了避免每次学习新东西时忘记之前的知识,我们可以训练一个多任务处理模型,该模型的每个部分都有自己的专长,能够完成成千上万种不同的任务。假设我们有一个能完成一千种任务的模型,当第一千零一种任务出现时,我们可以整合已有的和新任务相关的知识,更快地完成这项新任务。就像你面临新的问题时,能够快速识别已知并能够帮助解决这些新问题的知识一样。 12/ 第二个问题是, 大部分现今的模型只能应对一种形态的数据, 图片、文字或语音, 但无法做到一网打尽。 但想一想人类如何在这世上生活。 你不断地动用你所有的感官去学习,去做出反应, 去搞清楚现在应该做什么。 这样显然更加合理, 我们也可以用同样的方式建造模型。 13/ 我们可以建造一个可以接收 所有不同种类数据的模型, 文字,图像,语音, 然后把它们融合在一起, 这样无论这个模型看到文字“豹子”, 看到豹子的视频,还是听到有人说出“豹子”这个词 它都会触发同样的反应: 一个豹子的概念 可以应对很多种不同的数据输入项, 甚至是非人工的输入项, 例如基因序列, 3D点云数据,当然也包括 图片、文字和影像。 14/ 第三个问题是现有人工智能模型过于稠密,这导致我们在执行某项任务时必须完全激活整个模型。与之相反,人脑的不同区块专注于不同的工作。我们可以制造一种激活反应较稀松的模型,训练时,模型可以学习哪个区块适用于哪个领域。此类模型高效,因为我们只使用完成任务所需的区块。解决这三个问题后,我们可以训练几个通用模型,能够应对成千上万件事情,并整合不同数据形态。我们已经制造了一种符合以上条件的模型,叫做“Pathways”。 15/ 我们的理念是这个模型可以完成成千上万种不同类型的任务, 然后我们可以逐步增加新的任务, 它也可以同时处理各种形态的数据, 然后逐步学习新技能, 并按需为不同任务启动不同区块。 我们对此感到非常兴奋, 我们认为这将是人工智能 系统建造迈出的重要一步。 16/ 浅谈一下什么是可信赖的AI。我们要确保强大的人工智能系统造福所有人,但也要考虑公平性、可解释性、私密性和安全性。为训练这些模型完成成千上万种任务,我们需要大量数据,并确保数据的采集代表不同的社群和情况。数据担忧只是可靠人工智能这个议题的一部分。2018年,谷歌发表了开发此类科技时应注意的人工智能守则。 17/ 这帮助指导了我们在研究领域和产品中使用人工智能。这对于思考复杂问题和在社会中应用人工智能非常有帮助和重要。我们不断更新这些准则,它们是现在研究的热点领域。从只能识别数据中的模式到通用智能系统,它们赋予我们解决人类面临的重大问题的能力。例如,我们可以诊断更多疾病,设计出更好的药品,优化教育系统,解决全球变暖等复杂问题。这些系统需要来自世界各地的多学科专家共同协作。 18/ 将人工智能和你所在的领域相结合, 从而推动产业的进程。 我看到了许多计算机科学的优势, 以及在过去的几十年中计算机科学 如何帮助几百万人更好地理解世界。 今天的人工智能拥有帮助数十亿人的潜力。 我们真的生活在一个振奋人心的时代。 谢谢。 Invalid media:

相关推荐

封面图片

微软为 AI 初学者推出免费网课:为期 12 周,共 24 节课

微软为 AI 初学者推出免费网课:为期 12 周,共 24 节课 该课程是对人工智能的“大起底”,微软在网课中探讨了神经网络和深度学习的相关原理及知识,可令用户知悉用于处理图像和文本的神经架构,并了解到一些“不那么流行”的人工智能方法。在本课程中,大家可以学习到: ▪人工智能的不同方法:包括知识表示和推理(GOFAI)的“老式”符号方法。 ▪神经网络和深度学习:将使用流行框架 TensorFlow 和 PyTorch 中的代码来介绍模型背后的构成概念。 ▪用于处理图像和文本的神经架构:微软将介绍最近的模型,但可能缺乏一些最先进的模型。 ▪不太流行的人工智能方法:如遗传算法和多智能体系统。来源 , 来自:雷锋 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

封面图片

OpenAI发表研究论文 介绍了一种逆向工程AI模型工作原理的方法

OpenAI发表研究论文 介绍了一种逆向工程AI模型工作原理的方法 在论文中,该公司的研究人员提出了一种窥探为 ChatGPT 提供动力的人工智能模型内部的方法。他们设计了一种方法来识别模型如何存储某些概念包括那些可能导致人工智能系统行为失常的概念。虽然这项研究使 OpenAI 在控制人工智能方面的工作更加引人注目,但也凸显了该公司最近的动荡。新研究由 OpenAI最近解散的"超对齐"团队完成,该团队致力于研究技术的长期风险。前小组的共同负责人伊利亚-苏茨克沃(Ilya Sutskever)和扬-莱克(Jan Leike)均已离开OpenAI,并被列为共同作者。苏茨克沃是OpenAI的创始人之一,曾任首席科学家,去年11月,董事会成员投票解雇了首席执行官山姆-奥特曼(Sam Altman),引发了几天的混乱,最终奥特曼重返领导岗位。ChatGPT 由一个名为 GPT 的大型语言模型系列提供支持,该模型基于一种被称为人工神经网络的机器学习方法。这些数学网络通过分析示例数据显示出了学习有用任务的强大能力,但它们的工作原理无法像传统计算机程序那样被轻易检查。人工神经网络中各层"神经元"之间复杂的相互作用,使得逆向分析 ChatGPT 这样的系统为何会得出特定的反应极具挑战性。这项工作背后的研究人员在一篇随附的博文中写道:"与大多数人类创造物不同,我们并不真正了解神经网络的内部运作。一些著名的人工智能研究人员认为,包括 ChatGPT 在内的最强大的人工智能模型或许可以用来设计生化武器和协调网络攻击。一个更长期的担忧是,人工智能模型可能会选择隐藏信息或以有害的方式行事,以实现它们的目标。"OpenAI 的这篇新论文概述了一种技术,该技术借助额外的机器学习模型,识别代表机器学习系统内部特定概念的模式,从而稍稍降低了神秘感。创新的关键在于通过识别概念来完善用于窥探系统内部的网络,从而提高效率。OpenAI 通过在其最大的人工智能模型之一 GPT-4 中识别代表概念的模式证明了这种方法。该公司发布了与可解释性工作相关的代码,以及一个可视化工具,用于查看不同句子中的单词如何激活 GPT-4 和另一个模型中的概念,包括亵渎和色情内容。了解一个模型是如何表现某些概念的,这将有助于减少与不受欢迎的行为相关的概念,使人工智能系统保持正常运行。它还可以调整人工智能系统,使其偏向于某些主题或想法。尽管 LLM 无法被轻易解读,但越来越多的研究表明,它们可以被穿透,从而揭示出有用的信息。由亚马逊和Google支持的 OpenAI 竞争对手 Anthropic 上个月也发表了类似的人工智能可解释性研究成果。为了演示如何调整人工智能系统的行为,该公司的研究人员创造了一个痴迷于旧金山金门大桥的聊天机器人。有时,只需让人工只能机器人解释其推理过程,就能获得深刻的见解。东北大学从事人工智能可解释性研究的教授大卫-鲍(David Bau)在谈到 OpenAI 的新研究时说:"这是令人兴奋的进展。"作为一个领域,我们需要学习如何更好地理解和审视这些大型模型。"鲍说,OpenAI 团队的主要创新在于展示了一种配置小型神经网络的更有效方法,该网络可用于理解大型神经网络的组成部分。但他也指出,这项技术还需要改进,以使其更加可靠。要利用这些方法创造出完全可以理解的解释,还有很多工作要做。"鲍是美国政府资助的一项名为"国家深度推理结构"(National Deep Inference Fabric)的工作的一部分,这项工作将向学术研究人员提供云计算资源,以便他们也能探索特别强大的人工智能模型。他说:"我们需要想办法让科学家即使不在这些大公司工作,也能从事这项工作。"OpenAI 的研究人员在论文中承认,要改进他们的方法还需要进一步的工作,但他们也表示,希望这种方法能带来控制人工智能模型的实用方法。他们写道:"我们希望有一天,可解释性能为我们提供推理模型安全性和鲁棒性的新方法,并通过为强大的人工智能模型的行为提供强有力的保证,大大增加我们对它们的信任。"阅读论文全文: ... PC版: 手机版:

封面图片

【书名】学习力跃迁:像AI一样迭代自己

【书名】学习力跃迁:像AI一样迭代自己 【作者】田俊国 【格式】#epub #mobi #azw3 #pdf 【分类】#自我提升 #人工智能 【简介】本书系统讲述了人工智能背景下自然人学习方式的转变与应对之策,从人工智能对传统学习方式的挑战入手,逐章深入剖析了学习的本质、学习力的提升方法以及与“书、人、事、众、己”对话的重要性。 下载 频道 群组 商务

封面图片

资源零基础入门实战深度学习Pytorch

资源零基础入门实战深度学习Pytorch 资源简介:本课程旨在帮助零基础学员掌握PyTorch深度学习框架。通过实战项目,学员将学习神经网络基础、模型训练和调优技巧。逐步掌握深度学习核心概念,为未来在人工智能领域打下坚实基础。 链接:【夸克网盘】点击获取 关键词:#付费专栏 #Pytorch 频道:@yunpanpan 投稿:@zaihuaboxbot 资源搜索请在下方评论区即可

封面图片

《零基础入门实战深度学习Pytorch》

《零基础入门实战深度学习Pytorch》 描述:本课程旨在帮助零基础学员掌握PyTorch深度学习框架。通过实战项目,学员将学习神经网络基础、模型训练和调优技巧。逐步掌握深度学习核心概念,为未来在人工智能领域打下坚实基础。 链接:https://www.alipan.com/s/fBr4PwD9ooR 大小:2.73 GB 标签:#pytorch #教程 来自:雷锋 版权:版权反馈/DMCA 频道:@shareAliyun 群组:@aliyundriveShare 投稿:@aliyun_share_bot

封面图片

科学家发现婴儿大脑与人工智能模型惊人相似

科学家发现婴儿大脑与人工智能模型惊人相似 与许多动物相比,人类在出生后很长一段时间内都是无助的。许多动物,如马和鸡,出生当天就能行走。这种漫长的无助期使人类婴儿处于危险之中,也给父母带来了巨大的负担,但令人惊讶的是,这种无助期却经受住了进化的压力。跨物种研究的启示"自 20 世纪 60 年代起,科学家们就认为人类婴儿表现出的无助感是由于出生时的限制造成的。他们认为,人类婴儿头大,必须早产,导致大脑发育不成熟,无助期长达一岁。"认知神经科学教授、论文第一作者罗德里-库萨克(Rhodri Cusack)教授解释说。研究团队由库萨克教授、美国奥本大学克里斯蒂娜-查韦特教授和 DeepMind 高级人工智能研究员 Marc'Aurelio Ranzato 博士组成,库萨克教授利用神经成像技术测量婴儿大脑和心智的发育情况;克里斯蒂娜-查韦特教授负责比较不同物种的大脑发育情况;DeepMind 高级人工智能研究员 Marc'Aurelio Ranzato 博士负责比较不同物种的大脑发育情况。"我们的研究比较了不同动物物种的大脑发育情况。它借鉴了一个长期项目时间转换"(Translating Time),该项目将不同物种的相应年龄等同起来,从而确定人类大脑在出生时比许多其他物种更加成熟。"研究人员利用脑成像技术发现,人类婴儿大脑中的许多系统已经开始运作,并能处理来自感官的丰富信息流。这与人们长期以来认为婴儿大脑的许多系统尚未发育成熟,无法发挥作用的观点相矛盾。研究小组随后将人类的学习与最新的机器学习模型进行了比较,在后者中,深度神经网络受益于"无助"的预训练期。在过去,人工智能模型是直接根据所需的任务进行训练的,例如训练自动驾驶汽车识别它们在道路上看到的东西。但现在,模型最初都是经过预先训练,以便在海量数据中发现模式,而不执行任何重要任务。由此产生的基础模型随后用于学习特定任务。研究发现,这种方法最终会加快新任务的学习速度,并提高性能。对未来人工智能发展的影响"我们提出,人类婴儿也同样利用婴儿期的'无助'期进行预训练,学习强大的基础模型,并在以后的生活中以高性能和快速泛化来支撑认知。这与近年来在生成式人工智能领域取得重大突破的强大机器学习模型非常相似,例如OpenAI的ChatGPT或Google的Gemini,"库萨克教授解释道。研究人员表示,未来对婴儿学习方式的研究很可能会启发下一代人工智能模型。"虽然人工智能取得了重大突破,但基础模型比婴儿消耗大量能源,需要的数据也多得多。了解婴儿是如何学习的,可能会对下一代人工智能模型有所启发。"他最后说:"下一步的研究将是直接比较大脑和人工智能的学习情况。"编译自/scitechdailyDOI: 10.1016/j.tics.2024.05.001 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人