3Blue1Brown 刚出了 Transformer 的系列科普视频,做得很好。之前看过不少讲 Transformer 的课程

3Blue1Brown 刚出了 Transformer 的系列科普视频,做得很好。之前看过不少讲 Transformer 的课程和文章,包括李宏毅老师的课程在内,最后都陷在矩阵运算的过程里,几乎没有能把 K、Q、V三个矩阵的象征意义讲清楚的。3Blue1Brown通过自己最擅长的动画和类比,把这套 Attention 的原理讲得比较浅显和直白。 具体来说,“Attention 像是问每个 vector 一连串问题,然后根据这串问题的答案来更新自己。” Query 矩阵就像是在问:"Are you in English?", “Are you a noun?”, "Do you refer to a person?", "Are you a number?", "Is your tone positive?" 等等,Key 矩阵就像是 vector 对这个问题的答案,而 Value 矩阵则代表向量自己根据这个答案和相关性权重进行的自我调整。整个过程有点像是物理中的受力分析,每个 Attention Head 代表一种力,通过 Q 和 K 找到所有施力的对象,再通过 V 来计算受力的大小, 最后,把多个 Attention Head 代表的多个力进行加总,计算出合力的方向和大小,作用在最后一个Vector上,从而指向 next embedding。之所以叫 transformer,就是指各个不同的力汇总在一起,将原本的 vector 扭曲到了一个新的方向上。 相比之前的 RNN、LSTM 之类的模型,Transformer 的强大在于其支持并发计算。细想之下,这种并行的自注意机制颠覆了语言中的时间观,顺序不再重要。这让我想起《你一生的故事》/ 《降临》里七肢桶的语言 - 把完整的生命在眼前一下子同时铺开,没有先后,没有早晚,没有时间。类似的,Sora 中的所谓 spacetime patches,索性把空间也和时间打包在一起,颇像是爱因斯坦相对论里对“时空”的理解。或许,所谓的时间、空间,其实都是伪概念,只不过是 tokens/patches 的一种分布方式而已。还挺有趣的。

相关推荐

封面图片

#人型 #机器人 #投资 #具身智能

#人型 #机器人 #投资 #具身智能 现在大家都在看人型机器人和具身智能,但都没搞明白投资具身机器人到底是投资什么。 现在我们看到大部分的投资,讲的故事都是说五年内会有居家性的机器人卖到消费者手上,但如果我们看现在实际的案例和学术理论这种假设是基本上没法成立的。 现在机器人技术上能解决的比较好的,就是1)如何在不同的环境能够维持平衡并且行动,这个包括轮式,双足、四足;2)还有就是不同自由度的机器臂进行预定好的,提前设置的,提前规划的移动。这种技术已经非常成熟了,所以在工业场景进行简单的搬运、组装、上下料,这个完全没有任何问题。 但是如果要进行在居家环境里面进行稍微比分拣不同东西更复杂的操作的话,现在还没有任何模型能够胜任。甚至现在去进行这些复杂动作的数积集和模型框架都不成熟。 现在generative人工智能之所以这么火,是因为在学术界有两个很大的突破,一个是attention is all you need (transformer), 另一个是latent diffusion。那大家可以想一想,在机器人和现实世界的互动中,就现在的理论知识去解决这个问题够吗? 这个突破还没出现。 那投资人实际应该去投资的是什么呢?答案是5年前类似openai的公司,openai在过去五年期间我一直关注,大家可能忘了,他们做了很多理论的突破,都没有寻求变现,而是去验证模型本身的可行性。我第一次关注到他们是在游戏里面,他们用强化学习模型打赢了星际争霸的韩国冠军。这个没有进行任何变现的技术突破,在后来的GPT 3.5模型的收敛和人工矫正aligment效果上面是有趣大贡献的,就是大家现在所谓的RLHF。第二次关注到他们是基因序列模型,Alpha fold,这个在医疗领域,当时是轰轰烈烈的大突破,但他们也没有将它进行直接变现。第三次关注到他们是GPT3语言大模型的发布,但这个模型出来后,他们也没有进行变现。我想说的是,学术领域的突破到实际应用的落地是需要接受很长一段时间的没有任何变现的(没有任何收入的)积累。

封面图片

AI 新知: 像大脑一样学习的多模态(极简版起源故事)

AI 新知: 像大脑一样学习的多模态(极简版起源故事) 近日,微软放出了多模态大语言模型的重要论文《Language Is Not All You Need 》。预示着今年AI 的下一个重大突破。 那么,什么是多模态学习, 有没有一种人人皆可理解的方式,让更多人参与着技术民主化的浪潮呢? 答案是乐观和肯定的。 以下内容来自Jeff Dean 去年在TED 做的分享,面向所有人。无需担心技术理解力,更依赖你对大脑本身的好奇心。 原始链接: Jeff Dean 二十多年前加入谷歌,领导着谷歌的人工智能研究与健康部门。 核心内容摘要如下: (这是我的几点解读,供非专业人士参考) 神经网络的机器学习突破是来自科学界对大脑的运作规律的理解(它是自下而上的) 算力是重要且有效的,深度学习突破了识别猫咪、机器翻译到 AlphaGO 等单一任务 AI的单一任务导向的训练是极为低效的,可以请想象成我们从小失去听觉、嗅觉、味觉(去观看电影的感受) 多模态的思想,是进一步模拟大脑运作,就像生物拥有多种感觉来整合认知世界 像大脑一样多个区域进行超高效率的协作,是学习真正的「奥义」;AI的多模态即对大脑深度的模仿。 部分讲稿如下(适当删减,以便于文字阅读): 1/ 人工智能可以做什么? 在过去的十年间,AI 在帮助计算机识别物体、 理解语言和谈话方面 取得的巨大进步。 以往的天方夜谭 现在一一成为现实。计算机视觉来说, 在过去的十年中,电脑快速地发展出了‘看’的能力 。这在计算机运用上 具有变革性的影响。 还有一些了不起的实际应用。 可以通过机器学习预测洪水、翻译一百多种语言、预测和诊断疾病。 2/ 让我们来看看构成当代人工智能系统 基础的两个关键元素。 首先是神经网络,它是解决这些难题的一项重大突破。 第二个是运算能力。 驱动神经网络运作实际需要大量的运算能力, 在过去的十五年, 我们做到了使其减半,那也是整个人工智能得以发展至此的原因之一。Jeff Dean 认为我们做错了几件事~ 3/ AI 小历史。 数十年前几乎从计算机科学最早出现, 人们就想建造可以识别语言及理解谈话的电脑。最初的方法一般是人们手动写下完成难题所需的算法, 但成效一般。 过去的十五年间, 一个方法出其不意地 一次性解决了所有难题: 神经网络。 神经网络并非一个新想法。 背后的理念出现于1960和70年代。 神经网络如同其字面意思一样, 是一连串互相连接的神经元。 它们大致上效仿了人体真正神经元的特性。 4/ 神经网络如何计算? 这种系统中的一个独立神经元, 拥有一组输入信息,每组输入信息有对应的比重,神经元的信息输出就等于那些输入信息乘以它们对应的比重。 其实挺简单的, 无数神经元协同运作,就可以学习复杂的东西。 我们如何在神经网络中学习的? 其实,在学习过程中, 比重在不断被微调, 增强一些东西的影响,削弱其他的影响。 5/ Jeff Dean对神经网络的兴趣, 始于1990年本科阶段时学到的一门相关课程。 那时,神经网络在精细问题的解决上取得了惊人的成果, 但还达不到完成真实世界中重要工作的程度。 他觉得我们可能只是需要更强的运算能力。 明尼苏达大学当时有一个32位处理器。Jeff Dean想:“如果有更强的运算能力, 我们真能用神经网络干点大事。” 所以决定以神经网络的并行训练 作为毕业论文的课题,理念是将电脑或电脑系统中 所有的处理器 运用到同一件任务上,用来训练神经网络。 32位处理器,哇, 我们肯定能用它做点大事。 但我错了。 6/ Jeff Dean 意识到如果想用神经网络做些引人注目的事情, 所需的算力大概是 90年代算力的一百万倍。但从大概2005年开始,多亏了摩尔定律, 我们真的开始拥有算力了,世界上一些大学里的研究员们开始成功用神经网络完成各种任务。和其他几个在谷歌的同事听闻了这些成功事例, 于是决定启动一个项目,训练大型神经网络。 7/ 用油管视频里随机截取的一千万帧照片对其进行训练。 这个系统发展出了能够识别所有不同种类物体的能力,然后因为是油管的关系, 所以它发展出了识别猫的能力。油管上全是猫。 但让它如此引人注目的是从未有人告诉过这个系统猫到底是什么。 仅仅依靠数据的形态规律, 它就能自己琢磨出来猫究竟是什么。 8/ 在那个时候, 我们还对如何打造一个更适合神经网络运算所需的计算机硬件感兴趣。 神经网络运算有两个特性。 第一个是它们对精准度要求很低。 几个有效位就够了, 不需要六七个那么多。 第二个是所有算法都普遍由多个 不同的矩阵和向量的运算组成。 它会非常适用于神经网络运算, 虽然你无法用它做太多别的事,这是我们制作的第一个成品,TPU v1。 “TPU”是张量处理器的意思。 多年来,这一技术运用于谷歌搜索、翻译、以及AlphaGo围棋比赛, 所以李世石和柯洁可能没意识到,他们其实是在和TPU架构比赛。 9/ 我们仍然做错了很多事, 讲三件我们做错的事情, 以及如何修正他们。 第一个是,现如今的大部分神经网络 只被训练进行单一种类的任务。 你训练它去做一件你很关心的事情, 但这是一项非常繁重的工作。 你需要搜索数据组, 选择这个问题所需的网络架构, 接着随机分配起始比重, 然后为调整比重进行大量运算。 到最后,如果你幸运的话,可以得到一个非常适用于你关心的问题的模型。 但如果你一直这样做, 到最后会得到几千个独立的模型,每个可能都很有用,但都只针对某个单一类型的问题。 10/ 想一想人类是怎样学习的。 想象我们沉浸于钻研园艺, 尝试垂直水培园艺。 无需为此重新学习一遍,我已经掌握的有关植物的知识。 知道怎么把植物放进洞里,怎么浇水,以及植物需要光照, 我只需要整合这些知识用以学习新的技术。 (大脑整合了不同维度的知识和模型) 11/ 电脑也可以这样运作,但目前还未实现。为了避免每次学习新东西时忘记之前的知识,我们可以训练一个多任务处理模型,该模型的每个部分都有自己的专长,能够完成成千上万种不同的任务。假设我们有一个能完成一千种任务的模型,当第一千零一种任务出现时,我们可以整合已有的和新任务相关的知识,更快地完成这项新任务。就像你面临新的问题时,能够快速识别已知并能够帮助解决这些新问题的知识一样。 12/ 第二个问题是, 大部分现今的模型只能应对一种形态的数据, 图片、文字或语音, 但无法做到一网打尽。 但想一想人类如何在这世上生活。 你不断地动用你所有的感官去学习,去做出反应, 去搞清楚现在应该做什么。 这样显然更加合理, 我们也可以用同样的方式建造模型。 13/ 我们可以建造一个可以接收 所有不同种类数据的模型, 文字,图像,语音, 然后把它们融合在一起, 这样无论这个模型看到文字“豹子”, 看到豹子的视频,还是听到有人说出“豹子”这个词 它都会触发同样的反应: 一个豹子的概念 可以应对很多种不同的数据输入项, 甚至是非人工的输入项, 例如基因序列, 3D点云数据,当然也包括 图片、文字和影像。 14/ 第三个问题是现有人工智能模型过于稠密,这导致我们在执行某项任务时必须完全激活整个模型。与之相反,人脑的不同区块专注于不同的工作。我们可以制造一种激活反应较稀松的模型,训练时,模型可以学习哪个区块适用于哪个领域。此类模型高效,因为我们只使用完成任务所需的区块。解决这三个问题后,我们可以训练几个通用模型,能够应对成千上万件事情,并整合不同数据形态。我们已经制造了一种符合以上条件的模型,叫做“Pathways”。 15/ 我们的理念是这个模型可以完成成千上万种不同类型的任务, 然后我们可以逐步增加新的任务, 它也可以同时处理各种形态的数据, 然后逐步学习新技能, 并按需为不同任务启动不同区块。 我们对此感到非常兴奋, 我们认为这将是人工智能 系统建造迈出的重要一步。 16/ 浅谈一下什么是可信赖的AI。我们要确保强大的人工智能系统造福所有人,但也要考虑公平性、可解释性、私密性和安全性。为训练这些模型完成成千上万种任务,我们需要大量数据,并确保数据的采集代表不同的社群和情况。数据担忧只是可靠人工智能这个议题的一部分。2018年,谷歌发表了开发此类科技时应注意的人工智能守则。 17/ 这帮助指导了我们在研究领域和产品中使用人工智能。这对于思考复杂问题和在社会中应用人工智能非常有帮助和重要。我们不断更新这些准则,它们是现在研究的热点领域。从只能识别数据中的模式到通用智能系统,它们赋予我们解决人类面临的重大问题的能力。例如,我们可以诊断更多疾病,设计出更好的药品,优化教育系统,解决全球变暖等复杂问题。这些系统需要来自世界各地的多学科专家共同协作。 18/ 将人工智能和你所在的领域相结合, 从而推动产业的进程。 我看到了许多计算机科学的优势, 以及在过去的几十年中计算机科学 如何帮助几百万人更好地理解世界。 今天的人工智能拥有帮助数十亿人的潜力。 我们真的生活在一个振奋人心的时代。 谢谢。 Invalid media:

封面图片

收入翻三倍,市值还在猛涨:英伟达成了“地球上最重要的股票”

收入翻三倍,市值还在猛涨:英伟达成了“地球上最重要的股票” 比起微软、Google这些需要时间验证AI技术带来实际收益的公司,英伟达的业绩能更直观反映如今生成式工智能赛场的竞争势头,投资者们甚至没留下任何容错余地,等待这份“必须”大超预期的成绩单。而黄教主也果然不负众望,在当日美股盘后第N次报告了“井喷”式业务增长,各项关键数据又双叒叕创纪录了。英伟达业绩开花:只是太强    英伟达Q4的总营收达到221亿美元,远高于206亿美元华尔街预期,比上季度增长22%,同比增长265%。净利润122.9 亿美元,与去年同期的14.1亿美元相比飙升769%。调整后每股收益5.15美元,高于LSEG预测的4.64美元。整个2024财年收入增长126%,达到历史性的609亿美元,全年净利润297亿美元。英伟达股价在过去一年增长252%,今年迄今已上涨50%,凭借一己之力贡献了纳斯达克100指数三分之一的涨幅。尽管昨天许多金融机构提示出现仓位警告信号,引发公司股价大跳水,今天Q4财报一出美股盘后还是大涨7%,告诉你没有最高,只有更高。网友们也从这样:变成了这样:St. James’s Place首席投资官Justin Onuekwusi把英伟达业绩比作全球周期的晴雨表,感叹 “股票市场已经集中到了一家公司就可能产生宏观效应的程度” 。而对于身处这场人工智能革命的每个人来说,此次英伟达超预期的业绩表现更像是对AI技术持续发展的鼓舞和提振最强的芯片依旧供不应求,更多公司在前进,蓬勃的市场迫切需要更多燃料。数据中心再破纪录英伟达CEO黄仁勋表示,加速计算和生成式人工智能已经达到引爆点。四季度公司收入冠军数据中心将184亿美元揽入怀中,比上一季度增长27%,同比翻超4倍。部门全年收入提升217%,达到破纪录的475亿美元。据外媒称,作为大语言模型训练的黄金标准,英伟达在全球人工智能芯片市场的总份额预计最高已达90%,意味着竞争对手需要数年的时间才能追赶。仅Meta一家就称今年年底前会购入35万张H100,暗示将向英伟达芯片狂砸近 90 亿美元巨额投资公司每产生一美元的芯片销售额,就能挤出更多的利润。在财报发布前,英伟达还向外界递出三个“胡萝卜”:其中最新鲜的就是昨天夜间宣布与Google合作推出的大语言模型Gemma。它基于与Gemini相同的技术构建,完全公开可商用。Gemma在英伟达的数据中心和RTX AI PC平台上进行了优化,在多项基准测试上都超越了Llama2、Mistral 7b等主流开放模型。被视为Google在英伟达加持下加入开源战局的关键动作。上周,英伟达也迈出“自家版本ChatGPT”的第一步:面向 GeForce RTX 30 系列和 40 系列显卡用户推出本地部署的定制AI聊天机器人Chat With RTX ,让用户可以在全程无联网的情况下与英伟达显卡聊天。Chat With RTX支持包括文本、pdf、doc和 .xml 在内的多种文件格式,利用 RTX GPU 上的 NVIDIA Tensor core 来加快查询速度。用户可以轻松地将桌面端上的资料当成数据集,连接到 Mistral 或 Llama 2 等开源大型语言模型,获取带有上下文的答案。虽然Chat with RTX 还是一个初代产品,暂时不适合于生产,实测中也被诟病得不轻,但如同 Sam Altman计划带领OpenAI进军7万亿芯片产业一样,黄教主领导英伟达开辟本地AI战场,将官方硬件资源和AI调用一键打包,是实力宣誓,也昭示着公司又多了一条新的赚钱路径。另外,英伟达昨天也重磅宣告了五年来首次回归线下,即将于3月18日召开的GTC 2024大会。这个为期4天,被英伟达自称为“The #1 AI Conference for Developers”的开发者大会包含900 多场演讲和20 多场技术讲座,黄仁勋将在主题演讲上发布公司重要技术进展。知情人士称他可能会释出更多有关B100的新细节。作为英伟达拟推出的下一代AI芯片,B100的推理速度据称要比H100快3倍。分析师认为B100的定价将比H100至少高出10%-30%,需求可能会持续到至少2025年中后期。另一个吊人胃口的新闻是由黄教主亲自主持的小组环节,大模型开山巨作“Attention Is All You Need”论文的全部八位作者将悉数到场,深入讨论生成式AI。这个阵容可谓极度吸睛了,英伟达真的会玩。英伟达还能立于不败多久不过,关于英伟达面临挑战的状况也是老生常谈了。除了老对手AMD,Meta、亚马逊、Alphabet都在开发自己的AI芯片,并且OpenAI建造半导体帝国的劲头势不可挡。同时,试图弯道超车撼动英伟达芯片王座的公司也不在少数。例如最近刚刷爆网络的Groq LPU,这家公司更是“喊话”英伟达,称在执行大模型推理任务中LPU可以取代GPU,速度提升约20倍。不过一个现实情况是,不论是巨头们的自研芯片还是Groq都更加专业化,目的性更为明确,或是需要“特调”才能使用,而英伟达的芯片则更加通用,短期内仍稳稳维持自家的技术护城河。对于英伟达,在股票交易市场,股民们一边感叹现在已经高攀不起,一边在追悔中又迎来更高的股价。方舟投资CEO“木头姐” Cathie Wood最近减持了约450万美元的英伟达股票,认为市场对它的期待值过高,英伟达可能无法满足,且随着竞争加剧以及库存调整,英伟达将面临更多挑战。各大投资机构一再提醒没有一直赚钱的股票,要警惕泡沫。有意思的是,这与当下人们对生成式AI的态度微妙地一致。似乎总是觉得已经到达了想象的临界,或是其实并没有那么强大,但很快,又有超越想象的技术问世,攻破心理防线。在AI时代,任何事物都经历着探索边界的过程。英伟达在人工智能上的引领并非一朝一夕。马斯克昨天在X发文,追忆2016年黄仁勋将英伟达历时5年打造的世界上第一个AI超级计算机DGX-1捐赠给当时的OpenAI,彼时ChatGPT还没有诞生。而细心的网友也感叹着,“伊利亚当时还有头发”。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人