UC伯克利教授:2030年GPT可执行人类180万年工作 一天学2500年知识
UC伯克利教授:2030年GPT可执行人类180万年工作一天学2500年知识为了更好地进行预测,Jacob查询了各种来源的信息,包括经验缩放定律、对未来计算和数据可用性的预测、特定基准的改进速度、当前系统的经验推理速度,以及未来可能的并行性改进。概括来看,Jacob认为,GPT2030会在以下几个方面超过人类工作者。1.编程、黑客任务、数学、蛋白质设计。2.工作和思考的速度:预计GPT2030每分钟处理的单词是人类的5倍,而每FLOP都多5倍的话,总共就是125倍。3.GPT2030可以进行任意复制,并进行并行运算。算力足够的话,它足以完成人类需要执行180万年的工作,结合2中的结论,这些工作只需2.4个月,就能完成。4.由于具有相同的模型权重,GPT的副本之间可以共享知识,实现快速的并行学习。因此,GPT可以在1天内学完人类需要学2500年的知识。5.除了文本和图像,GPT还能接受其它模态的训练,甚至包括各种违反直觉的方式,比如分子结构、网络流量、低级机器码、天文图像和脑部扫描。因此,它可能会对我们经验有限的领域具有很强的直觉把握,甚至会形成我们没有的概念。当然,除了飞跃的性能,Jacob表示,GPT的滥用问题也会更加严重,并行化和高速将使模型严重威胁网络安全。它的快速并行学习还会转向人类行为,而因为自己已经掌握了“千年”的经验,它想要操控和误导人类也会很轻易。在加速方面,最大的瓶颈是GPT的自主性。在数学研究这种可以自动检查工作的领域,Jacob预测,GPT2030将超过大多数专业数学家。在机器学习领域,他预测GPT将能独立完成实验并生成图表和论文,但还是需要人类科研者给出具体指导、评估结果。在这两种情况下,GPT2030都将是科研过程中不可或缺的一部分。Jacob表示,他对GPT2030特性的预测并不是从今天的系统中直观得出的,它们可能是错误的,因为ML在2030年会是什么样子,还存在很大的不确定性。然而,无论GPT2030会是什么样子,Jacob都相信,它至少是一个更好版本的GPT-4。所以,我们现在就该为AI可能造成的影响(比如影响1万亿美元、1000万人的生命,或者对人类社会进程造成重大破坏)做好准备,而不是在7年以后。01特定能力GPT2030应该会具有超人的编码、黑客和数学能力。在阅读和处理大型语料库,以获取模式和见解以及回忆事实的能力方面,它都会能力惊人。因为AlphaFold和AlphaZero在蛋白质结构预测和游戏方面都具有超人的能力,GPT2030显然也可以,比如让它在与AlphaFold/AlphaZero模型相似的数据上进行多模态训练。编程能力GPT-4在LeetCode问题上的表现优于训练截止后的人类基线,并通过了几家大型科技公司的模拟面试。他们的进步速度也很快,从GPT-3到GPT-4,直接跃升了19%。在更具挑战性的CodeForces竞赛中,GPT-4的表现较差,但AlphaCode与CodeForces竞争对手的中值水平相当。在更难的APPS数据集上,Parcel进一步超越了AlphaCode(7.8%->25.5%)。展望未来,预测平台Metaculus给出的中位数是2027年,届时在APPS上将有80%的AI,将超越除了最优秀程序员之外的所有人类。黑客Jacob预测,GPT2030的黑客能力将随着编程能力的提高而提高,而且,ML模型可以比人类更有规模、更认真地搜索大型代码库中的漏洞。事实上,ChatGPT早已被用于帮助生成漏洞。ChatGPT生成的网络钓鱼邮件数学Minerva在竞赛数学基准(MATH)上的准确率达到50%,优于大多数人类竞争对手。而且,它的进步速度很快(一年内>30%),而且通过自动形式化、减少算法错误、改进思维链和更好的数据的加持,取得了显著的成果。Metaculus预测,到2025年GPT的数学成绩将达到92%,AI在国际数学奥赛中获得金牌的中位数为2028年,能够比肩全世界成绩最拔尖的高中生。Jacob个人预计,GPT2030在证明定理方面将优于大多数专业数学家。信息处理回忆事实和处理大型语料库,是语言模型的记忆能力和大型上下文窗口的自然结果。根据经验,GPT-4在MMLU上的准确率达到86%,这是一套广泛的标准化考试,包括律师考试、MCAT以及大学数学、物理、生物化学和哲学;即使考虑到可能存在测试污染,这也超出了任何人类的知识广度。关于大型语料库,有研究人员使用GPT-3构建了一个系统,该系统发现了大型文本数据集中的几种以前未知的模式,以及某篇工作中的缩放率,这表明模型很快就会成为“超人”。这两项工作都利用了LLM的大型上下文窗口,目前该窗口已超过100,000个token,并且还在不断增长。更一般地说,机器学习模型具有与人类不同的技能特征,因为人类和机器学习适应的是非常不同的数据源(前者是通过进化,后者是通过海量的互联网数据)。当模型在视频识别等任务上达到人类水平时,它们在许多其他任务(例如数学、编程和黑客攻击)上可能会成为超人。此外,随着时间的推移,会出现更大的模型和更好的数据,这会让模型功能变得更为强大,不太可能低于人类水平。虽然当前的深度学习方法可能在某些领域达不到人类水平,但在数学这类人类进化并不擅长的领域,它们很可能会显著超越人类。02推理速度为了研究ML模型的速度,研究人员将测量ML模型生成文本的速度,以每分钟想到380个单词的人类思维速度为基准。使用OpenAI的chatcompletionsAPI,GPT-3.5每分钟可以生成1200个单词(wpm),而GPT-4可以生成370wpm,截至2023年4月上旬。像Pythia-12B这样的小型开源模型,通过在A100GPU上使用开箱即用的工具,至少可以生成1350个单词wpm,,通过进一步优化,可能还会达到2倍。因此,如果我们考虑截至4月份的OpenAI模型,它要么大约是人类速度的3倍,要么等于人类速度。因为加速推理存在强大的商业化压力,未来模型的推理速度还会更快。事实上,根据FabienRoger的跟踪数据,在撰写本文之前的一周,GPT-4的速度已经提高到约540wpm(12个token/秒);这表明空间仍然很大。Steinhard的中位数预测是,模型每分钟生成的单词数将是人类的5倍(范围:[0.5x,20x]),这大致是进一步增加的实际收益会递减的地方。重要的是,机器学习模型的速度不是固定的。模型的串行推理速度可以提高k^2,但代价是吞吐量降低k倍(换句话说,模型的$$k^3$$并行副本可以替换为速度快$$k^2$$倍的单个模型)这可以通过并行平铺方案来完成,理论上该方案甚至适用于$$k^2$$这样的大值,可能至少为100,甚至更多。因此,通过设置k=5,可以将5倍人类速度的模型,加速到125倍的人类速度。当然,速度并不一定与质量相匹配:GPT2030将具有与人类不同的技能特征,在一些我们认为容易的任务上,它会失败,而在我们认为困难的任务上,它会表现出色。因此,我们不应将GPT2030视为“加速的人类”,而应将其视为有潜力发展出一些违反直觉技能的“超级加速工人”。尽管如此,加速仍然很有用。对于提速125倍的语言模型,只要在GPT2030的技能范围之内,我们需要一天时间的学会的认知动作,它可能在几分钟内就会完成。运用前面提到的黑客攻击,机器学习系统可以快速生成漏洞或攻击,而人类却生成得很缓慢。03吞吐量和并行副本模型可以根据可用的计算和内存任意复制,因此它们可以快速完成任何可以有效并行的工作。此外,一旦一个模型被微调到特别有效,更改就可以立即传播到其他实例。模型还可以针对特定的任务进行蒸馏,从而运行得更快、更便宜。一旦模型经过训练,可能会有足够的资源来运行模型的多个副本。因为训练模型就需要运行它的许多并行副本,并且组织在部署时,仍然拥有这些资源。因此,我们可以通...PC版:https://www.cnbeta.com.tw/articles/soft/1376713.htm手机版:https://m.cnbeta.com.tw/view/1376713.htm