DeepMind 写的一篇论文:Formal Algorithms for Transformers,试图用精确的数学概念和伪代

DeepMind写的一篇论文:,试图用精确的数学概念和伪代码算法来解释所有Transformer类的机器学习算法和训练算法,其中以OpenAI的GPT3和DeepMind自己的Gopher为例用一句话总结大致就是:以词汇表为集合空间的token序列概率分布预测矩阵叠加注意力musk的向量计算,其中还会用到稀疏结构

相关推荐

封面图片

微软和 Deepmind 的一篇论文探讨利用 LLM 从设计生成代码,这个实践经验对想做相关 Design2Code 工具的很有

微软和Deepmind的一篇论文探讨利用LLM从设计生成代码,这个实践经验对想做相关Design2Code工具的很有参考性。我整理了一下里面对我们自己通过LLM生成代码可能有用的提示词和经验。感兴趣可以看看。他们发现第一次生成的网页通常质量不太行,但是第二次增强提示之后GPT-4V生成网页代码质量明显变好,下面是对应提示词。第一次代码生成提示词:假设你是一位精通HTML和CSS的网页开发专家。当用户提供一张网页的截图给你时,你的任务是创建一个HTML文件。这个文件需要用HTML和CSS编码来精确还原截图中的网站设计。重要的是,所有的CSS样式代码都要直接写在HTML文件里,而不是链接到其他文件。如果原网页中有图片,你可以用一个名为"rick.jpg"的图片作为所有图片的替代品。即便网页中的某些图片已经被蓝色的矩形占位符替代了,你同样需要使用"rick.jpg"作为这些位置的图片。记住,你的HTML文件中不应包含任何外部文件的链接。此外,这个任务不需要你使用JavaScript编写动态交互脚本。你的重点应该放在复原网页元素的大小、文本、位置、颜色以及整体布局上。最终,你需要提供完整的HTML文件内容,其中包含了所有必要的CSS样式代码。增强提示词:作为一名擅长HTML和CSS的网页开发高手,你面临的挑战是修改一个已有的HTML文件。这个文件是用来构建一个网页的,但它目前有一些缺失或错误的部分,使得它与原网页有所不同。我将向你展示我想要创建的网页原型和目前HTML实现的网页效果。同时,我也会提供你我想在网页中包含的所有文本。你的任务是仔细比较这两个网页,并根据提供的文本内容,修改原始的HTML代码。你需要确保新的实现在外观上与参考网页完全一致。在编码时,要保证HTML代码语法正确,能够生成一个结构完整的网页。对于需要图片的地方,你可以暂时用一个名为"rick.jpg"的图片作为占位符。在进行代码修订时,请特别注意网页元素的大小、文本内容、位置布局和颜色等方面,确保最终的布局和原网页高度相似。完成后,请直接提供新修订的HTML文件内容,无需附加任何解释。LLM通过设计生成代码未来重点和研究方向:◆为多模态大语言模型开发更有效的提示技巧,尤其是在处理复杂网页设计时,例如通过分步骤生成网页的不同部分。

封面图片

Nature:DeepMind大模型突破60年数学难题 解法超出人类已有认知

Nature:DeepMind大模型突破60年数学难题解法超出人类已有认知这项技术名为FunSearch,其中的Fun是函数(Function)一词的简写。利用大模型解决长期存在的科学难题,产生以前不存在的可验证且有价值*的新信息。在Nature论文配套的新闻解读中,DeepMind负责人称“我们使用大模型的方式是当做创造力引擎”。这是第一次有人证明基于大模型的系统可以超越数学家和计算机科学家的认知。它不仅新颖,而且比当今存在的任何其他东西都更有效。针对这项成果,有网友感慨:如果这是真的,那可是人类自火之后最重要的发现了。那么,FunSearch都解决了哪些问题呢?找到NP-hard问题更优解法DeepMind具体展示了两类问题,它们都属于NP-hard问题。在学界看来,没有而且可能永远也不会有一种算法能在所有情况下都在多项式时间内找到NP-hard问题的精确解。面对这样的问题,研究者通常会寻找近似解或适用于特定情况的有效算法。具体到FunSearch,它解决的第一类NP-hard问题是Capset问题,是上限集问题的一种,它的描述是这样的:在一个n维空间中的每个维度上都有等距的n个点(共n^n个,比如3维就是3*3*3),从中找出尽可能多的点构成一个集合,要求集合中任选3个点均不共线,这样的集合中最多有多少个点?如果看上去有些难以理解,不妨再了解一下Capset问题的前身——上世纪70年代遗传学家MarshaFalco发明的一套卡牌游戏。这套卡牌游戏中一共有81张牌,每张牌中都有1至3个颜色图案,同一张牌中的图案颜色、形状和阴影完都全相同。这套牌一共有3种颜色、3种形状和3种阴影,加上图案数量的不同,一共有3*3*3*3=81张,玩家需要翻开一些纸牌,找到3张牌的特殊组合。如果把这种“特殊组合”的具体方式用离散几何形式进行表达,就得到了Capset问题。Capset问题同样诞生于70年代,由牛津大学数学家RonGraham提出,而第一个重要结果直到90年代才出现。2007年,陶哲轩在一篇博客文章中提到,这是他最喜欢的开放式数学问题。在FunSearch出现之前,Capset问题最重大的突破是美国数学家JordanEllenberg和荷兰数学家DionGijswijt于2016年提出的。通过多项式方法,Ellenberg和Gijswijt将n>6时(n≤6时可精确找到最大集合)此类问题解的上确界缩小到了2.756^n。同样在n>6时,下确界的较新数字则是2.218^n,由布里斯托大学博士生FredTyrrell在2022年提出。但这个下确界仅仅存在于理论上——当n=8时,人类能构建出的最大集合中只有496个点,而按照Tyrrell的结论,点的数量应不少于585.7个。FunSearch则将集合规模扩大到了512个点——虽然和理论值依旧存在差距,但仍被视为20年来在此问题上最重大的突破。同时,Capset集合大小的下确界也被FunSearch提高到了2.2202^n。第二类是在线装箱问题:假设有一组容量为C的标准集装箱和n个物品序列(物品大小不超过C),这些物品按一定顺序到达。“在线”是指操作者无法事先看到所有的物品,但必须在物品到达时立刻决定将物品装入哪个集装箱。最终的目标,是使所用集装箱数量尽可能小。在线装箱问题引起广泛研究是从上世纪70年代开始的,最早更是可以追溯到1831年高斯所研究的布局问题。经过近200年的研究,仍然没有成熟的理论和有效的数值计算方法。传统上常用的贪心算法包括FirstFit和BestFit两种:FirstFit是指将每个物品放入第一个能容纳它的箱子中。BestFit则是将每个物品放入能容纳它的且箱子中剩余空间最小的箱子。而FunSearch则提出了新的算法,该算法在OR和Weibull两个测试数据集中,所用集装箱的数量均大幅下降。特别是在当测试集物品数目达到10万时,FunSearch找到的方案,消耗集装箱数量只比理论下界多出了0.03%。(下表中的数据表示与理论下界的差异,数字越小表现越好)那么,FunSearch是如何实现的呢?搜索“程序”而不是“答案”整体上看,FunSearch的工作流程是一个迭代过程,核心是搜索能解决问题的程序,而不是问题答案本身。搜索,正是DeepMind自AlphaGo以来一直坚持探索的路线。联合创始人ShaneLegg曾在一次访谈中作出解释:AlphaGo击败李世石的关键“第37步”从何而来?不是来自人类对弈数据,而是来自对概率空间的搜索。当前大模型只是模仿、混合不同的训练数据,要想产生真正的创造力并超越目前的架构,就需要结合搜索。回到最新成果FunSearch,系统当中有一个程序库,每次迭代时,系统会从其中搜索初始程序并输入大模型(实验用PaLM2,其他只要支持代码也兼容)。大模型在此基础上构建生成新的程序,并交给自动评估系统,得分最高的程序会被加入程序库,从而实现自我循环。其中,评估系统会根据用户的问题生成测试用例,然后判断候选程序的输出是否正确。根据复杂程度不同,判断正误的方法既包括直接检查输出值,也包括对相关函数进行调用。同时评估系统还设置有容错逻辑,避免超时等问题影响整体流程。最终,系统会根据备选程序在这些测试用例上的行为给出整体评分,为结果生成和后续程序库更新提供依据。论文合著者威斯康星大学麦迪逊分校的JordanEllenberg认为,FunSearch的一个重要特点是,人们可以看到AI产生的成功解决方案并从中学习,与之前AI的黑箱模式完全不同。对我来说最令人兴奋的是建立人机协作的新模式,我不希望用它们来替代人类数学家,而是作为力量倍增器。...PC版:https://www.cnbeta.com.tw/articles/soft/1404741.htm手机版:https://m.cnbeta.com.tw/view/1404741.htm

封面图片

下棋下哭柯洁的DeepMind 这次要让生物界地震?

下棋下哭柯洁的DeepMind这次要让生物界地震?生物体内几乎所有的分子结构,它都可以预测。这意味着生物医学研究从此开了真·上帝视角,任何生物分子作用机理都将从黑盒中打开,变成透视模式。不少媒体和网友开始欢呼,21世纪,这下真要成生物的世纪了……要看懂这次新发布的AlphaFold3有多牛,咱们就得先知道,DeepMind和它的AlphaFold,曾给了分子生物圈多大的震撼……我们在九年义务教育里都学过,生物体内最多的物质就是蛋白质,而要搞清楚生物分子的底层原理,就必须知道每个蛋白质具体长啥样。这么说吧,在AlphaFold之前,大伙们预测蛋白质结构主要两种办法,一是用X光照蛋白质晶体,也就是先拍片子再分析片子,再来搞懂它长啥样。二是核磁共振(NMR)光谱,拍出大体形状轮廓,再推测它的结构。这些传统办法不仅慢,适用范围小,需要不断试错,还费钱,每拍一次片子就花好几万美金,抵一辆小米su7。这也是为啥蛋白质研究方向生物学家,费钱且需要大量经验……只有那些经验的老师傅,蛋白质仙人,才能更快猜到蛋白质的准确形状,少拍点片子。所以人们就琢磨,这种需要经验总结的工作能不能靠AI解决呢?DeepMind就来干这事了,为了克服传统拍片子的问题,第一代AlphaFold选择技术路线的时候就摊牌了:不拍片子!蛋白质既然由氨基酸构成,初代AlphaFold用的方法就是,利用来自各处公开的已知蛋白质结构,把这些蛋白质中每一对氨基酸的距离,链接角度,汇总起来做成一张图,AI用神经网络消化完他们,再让AI做出自己的预测。而2018年第一代AlphaFold一经发布,就技惊四座,力压一众实验室老师傅,获得第13届蛋白质结构预测大赛(CASP)冠军。AI,很神奇吧。不过,初代AlphaFold有个问题,它更依赖局部数据的特征来训练,它不太能提取到较远元素之间的关系。就好像一个只会写短文,但学不会写长篇小说的作家。问题是,很多蛋白质分子有长距离的依赖性,这让初代AlphaFold的实力就有点捉襟见肘了。好在2020年发布的AlphaFold2.0,用上后来在ChatGPT上大火的Transformer模型。Transformer模型的注意力机制,则完美解决了长距离氨基酸的问题,进步有多大呢?2018年蛋白质结构预测大赛里1.0版本准确度得分不到60分,但是2020年大赛里2.0版本拿到了惊人的92.4分,它能生成的范围已经涵盖了人类已知蛋白质的98%,更重要的是它完全开源。可以说,2.0版本已经基本解决了单链蛋白质的预测问题,到2021年,基于2.0改版的AlphaFold-Multimer发布,也支持上了多链,准确度上也取得了突破,蛋白质之间作用的预测准确率超过70%。所以现在很多公司也用上了它们,甚至助力了国外一些新冠疫苗研发。但在DeepMind看来,蛋白质结构预测上的胜利,还远远没发挥完AI的潜力,因为生物体内的复杂分子结构不止有蛋白质,还有核酸,小分子配体等等,这就好比你花了十年时间学刻钥匙开锁技术,结果一出师,发现大家用的都是指纹锁密码锁,用传统钥匙的人太少了!所以这次AlphaFold3,他们更新了一个更牛逼的全方位模型,不仅能预测蛋白质DNARNA等各种小分子,还能揭示他们之间的互相作用。那这是怎么干的呢?答案是,他们用了Diffusion。对,就是大名鼎鼎的扩散模型,在AI绘画大火的时候,想必大家就听说过。它的原理就是把原图像不断打码,再让AI学会预测这些马赛克的生成过程,然后反过来实现从马赛克到图像的生成。不过,就像AI画画生成不好手指,Sora椅子视频会穿模一样,Diffusion加持下的AlphaFold3也会预测错误,特别是在一些长得相似难以区分的结构上,比如各位高中有机化学里学过的手性分子。所以在这些容易出错的地方,DeepMind用了一个叫做交叉蒸馏的操作,说白了就是让有Transform模型的2代版本先预测,再把预测数据添加到AlphaFold3的训练中,也就是相当于让2代扮演教师,领着3代去做,这样就能减少预测失误。生成的效果有多好?直接看官方图吧AlphaFold3对7BBV-酶(存在于一种土壤真菌体内)的预测,其中酶蛋白(蓝色)、离子(黄色球体)和单糖(黄色)与真实结构(灰色)几乎重合AlphaFold3对感冒病毒刺突蛋白(蓝色)与抗体(绿松石色)和单糖(黄色)相互作用时的结构预测,与真实结构准确匹配(灰色的)AlphaFold3对蛋白复合物的预测,其中蛋白质(蓝色)与DNA(粉色)结合,预测模型与实验测定的真实分子结构(灰色)近乎完美匹配除了生成质量相当哇塞,精度也是遥遥领先的原子级。在蛋白质与核酸配体的模拟上全面优于其他产品,抗原抗体的模拟也同样优秀。而操作AlphaFold3就更容易了。用ChatGPT,咱还得想办法提个好问题、写好提示词,而在AlphaFold3,你只需要输入一些分子列表,它就能预测出它们是如何组合在一起的。试想一下,原先需要花大量时间精力和资金才能观察到的现象,现在只需要在网站输入参数再单击,几分钟后就能产生极高清晰度和准确度的生物大分子模型。甚至细胞系统内部的生化过程,现象,DNA如何发挥作用,药物和激素的反应如何进行,也全都能在极短时间内被整明白。这些遥遥领先的数据,和大家的热情好像都在说:这次发布已经不是跨越式进步了,而是革命性的突破,整个传统生物医疗的科研方式,似乎都要被改变了。不过世超觉得,乐观是好的,但是科学这玩意儿除了乐观,要的还得是中肯和严谨。在各路媒体和网友都在“炸裂”“颠覆”“改变世界”的时候,圈内对的不少大佬,也发表了些对AlphaFold3的评价。比如颜宁教授团队就发现,3.0版本在一个糖蛋白预测中就翻车了,表现甚至不如前代版本。也有不少科学家吐槽3.0相比2.0它还不开源了,使用次数也有限制。甚至,还有人质疑DeepMind的老板Hassabis,他自己就创立过一家“专注人工智能的药物公司”,号称要“利用人工智能重新定义药物发现”,但从2021年到,今天他们还没有推出任何药物。当然这就有点在尬黑了,毕竟药物研发过程中,蛋白质结构问题只是其中一小部分,这并不能对药物研发进度产生决定性影响……总之,世超觉得AlphaFold的三代产品确实喜人,但在生命科学的漫漫实践长路上,它依旧有着不少难题需要去突破。不过说到底,进步总还是好事,希望DeepMind能再多搞点,搞快点吧。...PC版:https://www.cnbeta.com.tw/articles/soft/1430464.htm手机版:https://m.cnbeta.com.tw/view/1430464.htm

封面图片

ChatGPT官宣提升了“真实性”和“数学能力”

ChatGPT官宣提升了“真实性”和“数学能力”大概是考虑到了这一点,ChatGPT刚刚宣布了一次重要更新:提升了“真实性”和“数学能力”。本次是ChatGPT自去年11月推出以来的第三次更新,但由于“更新说明”过于模糊,人们还需要经历一个对新能力的探索过程。几日前,计算机科学家、Wolfram语言之父StephenWolfram将理工科神器WolframAlpha与ChatGPT结合起来,为后者注入超强计算知识实现互补,效果相当不错。那么,这次更新之后的ChatGPT数学能力可与其一战吗?看起来……对比的结果不尽如人意:“只能说神经网络不是用来干这个的”,SebastianRaschka都觉得无奈了。还有人发现,升级后的ChatGPT“脾气逐渐暴躁”:“你数学是哪位老师教的?”面对一道十以内加减法的题目,它的语气像极了辅导孩子作业的家长。这也许是“偶然现象”?看来数学是真难。不管怎么说,我们可以期待一波后续的有趣Demo了。太卷了:ChatGPT和它的竞争者们“未来6到12个月将带来实验的爆炸式增长,一旦公司能够使用OpenAI的API在ChatGPT之上构建。出现的杀手级用例可能是围绕生成式AI对知识管理的影响。”NicolaMoriniBianzino。在最近的一次公开活动上,安永全球首席技术官NicolaMoriniBianzino表示,目前还没出现在企业中使用ChatGPT的“杀手级”用例。但这种状态可能很快就会改变,他预测未来6到12个月将带来大量实验,尤其是当公司能够使用OpenAI的API在ChatGPT上构建之后。Bianzino将生成式AI对知识管理的影响描述为“AI的辩证法”。“知识公司倾向于以一种非常扁平的二维方式存储知识,这使得访问、互动和对话变得困难。我们在20、30、40年前尝试构建专家系统。这并不是很顺利,因为它们太死板了。我认为这项技术有望克服专家系统存在的许多问题。”NicolaMoriniBianzino表示。与此同时,ChatGPT的竞争者们也不断涌现,这个赛道变得越来越“卷”。从Anthropic公司的Claude、DeepMind公司的Sparrow、Google公司的LAMDA到CharacterAI,每天似乎都有新竞争者步入赛场。Anthropic是一家旧金山的初创公司,由几位离开OpenAI的研究人员于2021年创立。公司成立不到一年后就宣布了高达5.8亿美元的融资,上周五还被报道即将增加3亿美元融资。这家公司开发了一个名为“Claude”的AI聊天机器人,目前通过Slack集成在封闭测试版中可用,据报道它与ChatGPT相似,甚至有一些改进。Anthropic描述自身的使命为“致力于构建可靠、可解释和可操纵的AI系统”。DeepMind同样是这条赛道上不可忽视的力量。这家公司在9月份的一篇论文中介绍了“Sparrow”,被誉为“朝着创建更安全、偏差更小的机器学习系统迈出的重要一步”。Sparrow是“一种有用的对话智能体,可以降低不安全和不适当答案的风险”,旨在“与用户交谈、回答问题并在有助于查找证据”。不过,DeepMind的安全研究员、Sparrow论文的主要作者GeoffreyIrving表示,DeepMind认为Sparrow是一个基于研究的概念验证模型,尚未准备好部署。在两周前的《时代周刊》文章中,该公司的首席执行官兼联合创始人DemisHassabis表示,DeepMind正在考虑在2023年的某个时候发布其聊天机器人Sparrow的“私人测试版”。如此一来,公司就可以开发基于强化学习的功能,比如引用来源——这是ChatGPT所没有的能力。再说到Google的LaMDA,这一模型曾在去年夏天引发过热议——Google工程师BlakeLemoine因声称LaMDA具有感知能力而被解雇。即使不像Lemoine认为的那样,LaMDA仍被认为是ChatGPT最大的竞争对手之一。Google在2021年发布的博客文章中表示,LaMDA的对话技巧“已经酝酿多年”。与ChatGPT一样,LaMDA建立在Transformer架构之上,也接受过对话方面的训练。根据Google的说法,“在训练期间,LaMDA发现了一些将开放式对话与其他形式的语言区分开来的细微差别。”《纽约时报》在1月20日的一篇报道中提到,Google创始人LarryPage和SergeyBrin上个月会见了公司高管,讨论了ChatGPT可能对Google1490亿美元的搜索业务构成的威胁。Google发言人在一份声明中表示:“我们继续在内部测试我们的AI技术,以确保它有用且安全,我们期待尽快与外部分享更多经验。”另外一位颇具实力的玩家则是CharacterAI,这家公司由Transformer论文作者之一NoamShazeer创办,逐渐为人熟知。该公司推出的AI聊天机器人技术允许用户与任何人聊天或进行角色扮演,比如模仿伊丽莎白女王和莎士比亚等历史人物。目前该技术是免费使用的,Character正在“研究用户如何与之互动,然后再制定具体的创收计划。”传百度将发布类似ChatGPT的聊天机器人更能引起国内AI从业者关注的是,据路透社、彭博社等多家外媒报道称,百度公司计划在3月份推出类似于OpenAI的ChatGPT的人工智能聊天机器人服务。消息人士称,百度计划在用户提出搜索请求时整合聊天机器人生成的结果,而不仅仅是链接。“该工具尚未命名,将嵌入在主搜索服务中,用户将返回对话风格的搜索结果。”在去年12月在一次内部讨论中,百度CEO李彦宏曾分享自己对ChatGPT的看法:“把这么酷的技术变成人人需要的产品”才是最难的,希望百度新的一年“至少能有一个高成长、有创新的业务,真正的aboveandbeyondourexpectation”。而据《科创板日报》1月30日报道,百度内部确有推出类似ChatGPT聊天机器人的规划,但具体时间并不精确。百度CEO李彦宏对于该项目的定位是“引领搜索体验的代际变革”。他在内部指出,相关技术已达到临界点,百度在其中有较大的机会。检测利器:让大型语言模型生成的文本无处隐藏ChatGPT的能力纵然强大,但同时它在学校作业、论文发表等领域的滥用已经引发了人们广泛的担忧。因此,学界开始探索检测ChatGPT等大型语言模型(LLM)生成文本的方法和工具。马里兰大学几位研究者对ChatGPT等语言模型输出的水印进行了研究。在论文《AWatermarkforLargeLanguageModels》,他们提出了一种高效水印框架,水印的嵌入对文本质量的影响忽略不计,可以使用高效的开源算法进行检测,而无需访问语言模型的API或参数。本文方法可以检测到比较短的合成文本(少至25个tokens),同时使得人类文本在统计学上不可能被标记为机器生成。斯坦福大学几位研究者在论文《DetectGPT:Zero-ShotMachine-GeneratedTextDetectionusingProbabilityCurvature》中,证明了从LLM中采样的文本倾向于占据模型对数概率函数的负曲率区域。利用这一观察结果,他们定义了一个基于曲率的新标准,来判断一段文章是否由给定的LLM生成。研究者将他们的方法称为DetectGPT,它不需要训练单独的分类器、收集真实或生成段落的数据集以及显式地为生成文本加水印。DetectGPT仅使用感兴趣模型计算的对数概率和另一通用预训练语言模型(如T5)生成段落的随机扰动。结果发现,DetectGPT比当前模型样本检测的零样本方法更具辨别力,尤其是将20B参数GPT-NeoX生成的假新闻报道检测从最强零样本基线的0.81AUROC提升到了0.95AUROC。未来将公布代码和数据。DetectGPT检测GPT-3生成文本的示意图。除了以论文形式展现的检测方案,也有个人推出了强大的检测工具。比如一位来自HiveAI、致力于ChatGPT检测器研究的ML工程师,其方案能够识别ChatGPT、GPT-3和其他流行AI引擎生成的文本。从内部基准测试结果来看,该方案效果明显优于GPTZero和OpenAIGPT2OutputDetector等类似方法。在内部数据集上,模型平衡准确...PC版:https://www.cnbeta.com.tw/articles/soft/1341913.htm手机版:https://m.cnbeta.com.tw/view/1341913.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人