AI狂飙70年背后原因大揭秘 4张图揭露算法进化之谜

AI狂飙70年背后原因大揭秘4张图揭露算法进化之谜就在上周,美国参议院司法委员会开展了关于监管AI的听证会。在会上,著名AI初创公司Anthropic的CEODarioAmodei表示说:了解AI最重要的一件事,就是知道它的发展速度有多快。最近,《时代周刊》就发了一篇文章,用四张图告诉我们,AI的发展速度为什么不会放缓。人类正在被AI超越如今,AI在许多任务中超越了人类,人类在新任务中被超越的速度也在增加。下图是SOTA模型在基准测试上相对于人类的表现。测试的能力分别是手写识别(MNIST)、语音识别(Switchboard)、图像识别(ImageNet)、阅读理解(SQuAD1.1&SQuAD2.0)、语言理解(GLUE)、常识完成(HellaSwag)、小学数学(GSK8k)、代码生成(HumanEval)。人类的表现被设定为100%人们通常会认为,科学和技术进步在根本上是不可预测的,驱动它们的是一种在事后才变得更清晰的洞察力。但我们可以预见,AI系统的进步是由三个输入(计算、数据和算法)的进步推动的。过去70年的大部分进步,都是研究人员使用更大的算力训练AI系统的结果。系统被提供了更多数据,或者存在更强的算法,有效地减少了获得相同结果所需的计算或数据量。只要了解这三个因素在过去是如何推动了人工智能的进步,我们就会理解为什么大多数AI从业者预计AI的进展不会放缓。计算量的增加第一个人工神经网络PerceptronMarkI开发于1957年,它可以分辨一张卡片的标记是在左侧还是右侧。拥有1000个人工神经元的MarkI,训练一次大概需要7x10^5次操作。而70多年后OpenAI发布的大语言模型GPT-4,训练一次大概需要21x10^24次操作。计算量的增加,不仅让AI系统可以从更多的数据中学到更多的示例,而且还可以更详细地对变量之间的关系进行建模,从而得出更准确、更细致的结论。自1965年以来,摩尔定律(集成电路中的晶体管数量大约每两年翻一番)意味着算力的价格一直在稳步下降。不过,研究机构Epoch的主任JaimeSevilla表示,这时的研究人员更专注于开发构建AI系统的新技术,而不是关注使用多少计算来训练这些系统。然而,情况在2010年左右发生了变化——研究人员发现‘训练模型越大,表现效果越好’。从那时起,他们便开始花费越来越多的资金,来训练规模更大的模型。训练AI系统需要昂贵的专用芯片,开发者要么构建自己的计算基础设施,要么向云计算服务商付费,访问他们的基础设施。随着这一支出的不断增长,再加上摩尔定律带来的成本下降,AI模型也能够在越来越强大的算力上进行训练。据OpenAICEOSamAltman透露,GPT-4的训练成本超过了1亿美元。作为业界的两个顶流,OpenAI和Anthropic已经分别从投资者那里筹集了数十亿美元,用于支付训练AI系统的计算费用,并各自与财力雄厚的科技巨头(微软、谷歌)建立了合作伙伴关系。自1950年以来,用于训练AI系统的计算量一直在增加;到2010年,增长率也增加了数据量的增长AI系统的工作原理是,构建训练数据中变量之间的关系模型。无论是单词‘home’与单词‘run’相邻的可能性,还是基因序列与蛋白质折叠之间的模式,即蛋白质以其三维形态取得功能的过程。一般来说,数据越多AI系统就有越多信息来建立数据中变量之间准确的关系模型,从而提高性能。例如,一个被提供更多文本的语言模型将拥有更多以‘run’跟随‘home’出现的句子示例。因为在描述棒球比赛或强调成功的句子中,这种词序更为常见。关于PerceptronMarkI的原始研究论文指出,它仅使用了六个数据点进行训练。相比之下,由Meta在2023年发布的大语言模型LLaMA,则使用了约10亿个数据点进行训练——比PerceptronMarkI增加了超过1.6亿倍。其中,这些数据包括,67%的CommonCrawl数据,4.5%的GitHub,以及4.5%的维基百科。在过去的70年中,用于训练AI模型的数据量急剧增加训练数据大小是指用于训练AI模型的数据量,表示可供模型学习的示例数。每个领域都有一个特定的数据点输入单元,例如用于训练视觉模型的图像、用于语言模型的单词,和用于游戏模型的时间步长。这意味着系统只能在同一领域内进行比较。算法的进步算法是定义要执行的操作序列的规则或指令集,它决定了AI系统如何准确地利用算力来建模给定的数据之间的关系。除了使用越来越多的算力在更多数据上训练AI之外,研究人员还在寻找在寻找如何用更少的资源获得更多的效益。Epoch的研究发现,‘每九个月,更好的算法的引入,相当于让计算预算翻番。’训练模型的帕累托边界,以实现知名模型随时间推移的性能而算法进步也就是意味着,模型可以凭借着更少的计算和数据,达到相同的性能水平。下图是在六个不同年份中,在图像识别测试中达到80.9%的准确度所需的计算量和数据点数。对于在1万亿个数据点上训练的模型,2021年训练的模型所需的计算量比2012年训练的模型少~16,500倍。在图像识别测试中,达到80.9%准确率所需的计算量和数据量调查涉及的是ImageNet基准测试上的ResNeXt-101计算机视觉系统,计算以FLOP为单位,数据以训练集中的图像数量来衡量。AI的下一个阶段根据Sevilla的预测,研究人员用于训练系统的计算量很可能在一段时间内继续以目前的加速度增长,企业在训练AI系统上花费的资金也会增加,而随着计算成本的持续下降,效率也会提高。直到个时刻,继续增加计算量只能略微提高性能为止。在此之后,计算量将继续增加,但速度会放慢。而这完全是因为摩尔定律导致计算成本下降。目前,AI系统(如LLaMA)所使用的数据来自互联网。在以往,能输入AI系统多少数据量,主要取决于有多少算力。而最近训练AI系统所需的数据量的爆炸性增长,已经超过了互联网上新文本数据的生产速度。因此,Epoch预测,研究人员将在2026年用尽高质量的语言数据。不过,开发AI系统的人对这个问题似乎不太担心。在3月份参加LunarSociety的播客节目时,OpenAI的首席科学家IlyaSutskever表示:‘我们的数据情况还不错。还有很多可用的数据。’在7月份参加HardFork播客节目时,DarioAmodei估计:‘在数据不足的情况下,这种扩展可能有10%的几率会受到影响。’Sevilla也相信,数据的不足并不会阻止AI的进一步发展,例如找到使用低质量语言数据的方法。因为与计算不同,数据不足以前并没有成为AI发展的瓶颈。他预计,在创新方面,研究人员将很可能会发现很多简单的方法来解决这个问题。到目前为止,算法的大部分改进,都源于如何更高效地利用算力这一目标。Epoch发现,过去超过四分之三的算法进步,都是被用来弥补计算的不足。未来,随着数据成为AI训练发展的瓶颈,可能会有更多的算法改进,被用来弥补数据上的不足。综合以上三个方面,包括Sevilla在内的专家们预计,AI进展将在未来几年内继续以惊人的速度进行。计算量将继续增加,因为公司投入更多资金,底层技术也变得更加便宜。互联网上剩余有用的数据将被用于训练AI模型,研究人员将继续找到训练和运行AI系统的更高效方法,从而更好地利用算力和数据。而AI在这些十年的发展趋势,也将继续延续下去。当然,这种趋势也让很多AI专家感到担忧。在参议院委员会听证会上,AnthropicCEOAmodei提出,如果AI再继续进步下去,两到三年内,普通人都可以获得即使是专家也无法获得的科学知识了。这可能造成的网络安全、核技术、化学、生物学等领域造成的严重破坏和滥用,谁都无法想象。...PC版:https://www.cnbeta.com.tw/articles/soft/1379237.htm手机版:https://m.cnbeta.com.tw/view/1379237.htm

相关推荐

封面图片

揭秘ChatGPT背后的肮脏秘密 AI巨头要牺牲环境吗?

揭秘ChatGPT背后的肮脏秘密AI巨头要牺牲环境吗?外媒指出,构建高性能人工智能搜索引擎的竞赛很可能需要计算能力的大幅提升,它所产生的后果将是科技公司所需能源和碳排放量的大幅增加。英国萨里大学网络安全教授艾伦·伍德沃德(AlanWoodward)表示:“已经有大量资源被用于索引和搜索互联网内容,但人工智能的整合需要一种不同的火力。它需要处理能力、存储和高效搜索。每当我们看到在线处理的步骤变化时,我们就会看到大型处理中心所需的电力和冷却资源的显著增加。我认为人工智能的整合可能是会走这一步。”碳排放大增训练大型语言模型(LLMs)意味着在大量数据中解析和计算链接,这就是为什么它们往往是由拥有大量资源的公司开发的原因,比如为微软必应搜索提供动力的ChatGPT,为Google聊天机器人“巴德”(Bard)提供支持的那些语言模型。“训练这些模型需要大量的计算能力,”西班牙科鲁尼亚大学(UniversityofCoruña)计算机科学家卡洛斯·戈麦兹·罗德里古兹(CarlosGómez-Rodríguez)表示,“现在,只有大型科技公司才能训练他们。”微软已在必应中整合ChatGPT尽管OpenAI和Google都没有透露其产品的计算成本是多少,但研究人员发布的第三方分析预计,ChatGPT部分依赖的GPT-3模型的训练会消耗1287兆瓦时电力,产生550多吨的二氧化碳当量,相当于一个人在纽约和旧金山之间往返550次。“这个数字看起来没有那么糟糕,但你必须考虑到这样一个事实:你不仅要训练它,还要执行它,为数百万用户服务。”罗德里古兹表示。而且,把ChatGPT作为一个独立产品使用与把它整合到必应中还有很大不同。投行瑞银预计,ChatGPT日均独立访问用户为1300万。相比之下,必应每天要处理5亿次搜索。加拿大数据中心公司QScale联合创始人马丁·布查德(MartinBouchard)认为,根据他对微软和Google搜索计划的了解,在搜索过程中添加生成式人工智能,需要“每次搜索至少增加4到5倍的计算量”。为了满足搜索引擎用户的需求,企业必须做出改变。“如果他们要经常重新训练模型,并添加更多参数之类的东西,这是一个完全不同的规模,”布查德表示,“这将需要在硬件上进行大量投资。我们现有的数据中心和基础设施将无法应对生成式人工智能的消耗。它们对性能的需求太高了。”如何减少碳排放?根据国际能源署发布的数据,数据中心的温室气体排放量已经占到全球温室气体排放量的1%左右。随着云计算需求的增长,这一数字预计还会上升,但运营搜索引擎的公司已承诺减少它们对全球变暖的净贡献。微软已经承诺到2050年实现碳负排放,该公司计划今年购买150万吨碳信用额。碳信用又称碳权,是指排放1吨二氧化碳当量的温室气体的权利。Google承诺到2030年在其整个业务和价值链实现净零排放。对于这些巨头来说,减少将人工智能整合到搜索中的环境足迹和能源成本的一个方式就是将数据中心转移到更清洁的能源上,并重新设计神经网络让让变得更高效,减少所谓的“推断时间”,也就是算法处理新数据所需的计算能力。“我们必须研究如何减少这种大型模型所需要的推断时间,”谢菲尔德大学自然语言处理讲师纳菲斯·萨达特·莫萨维(NafiseSadatMoosavi)表示,她致力于自然语言处理的可持续性研究,“现在是关注效率方面的好时机。”Google发言人简·帕克(JanePark)表示,Google最初发布的“巴德”版本是一个由轻量级大型语言模型支持的版本。“我们还发表了一项研究,详细介绍了最先进语言模型的能源成本,包括早期和更大版本的LAMDA,”帕克称,“我们的研究结果表明,将高效的模型、处理器和数据中心与清洁能源相结合,可以将机器学习系统的碳足迹减少1000倍。”...PC版:https://www.cnbeta.com.tw/articles/soft/1344011.htm手机版:https://m.cnbeta.com.tw/view/1344011.htm

封面图片

【开课吧】AI算法落地与工程部署实战

名称:【开课吧】AI算法落地与工程部署实战描述:人工智能(AI)已经成为了当今科技领域的热门话题,但将AI算法应用到实际生产环境中并不是一件容易的事情。AI算法的落地和工程部署需要考虑多种因素,其中包括数据准备、模型选择、计算资源分配、安全性等方面。链接:https://www.aliyundrive.com/s/oLDndY9qqb6大小:未统计标签:#知识#学习来自:雷锋版权:频道:@shareAliyun群组:@aliyundriveShare投稿:@aliyun_share_bot

封面图片

蚂蚁集团开放 AI 安全检测平台:集成 1000 多件专利、40 余种主流对抗算法9

蚂蚁集团开放AI安全检测平台:集成1000多件专利、40余种主流对抗算法9月1日下午,在上海“2022世界人工智能大会-可信AI论坛”现场,中国信通院、清华大学、蚂蚁集团联合发布AI安全检测平台“蚁鉴”,面向AI模型开发者提供从模型对抗测试到防御加固的一站式测评解决方案,帮助开发者一键识别和挖掘模型漏洞,打造更安全可靠的AI。记者了解到,这也是行业首个面向工业场景全数据类型的AI安全检测产品。该平台基于蚂蚁多年的风险对抗实践,集1000多件可信AI专利于一身,融合了自研的智能博弈对抗技术,可以实现文本、图像、表格、序列等不同数据类型的自动化测试、量化评分和安全性增强。蚂蚁集团大安全技术部总裁李俊奎介绍,该平台内嵌了自研的AI安全计算引擎,计算性能提升了数十倍;内置了40余种国内外主流及自研的攻击算法模型,通过模拟黑产及自动进化攻击手段,对AI模型“检测—防御—升级”,可有效发现AI模型漏洞,减少系统性风险;此外,该平台覆盖了对模型未知情况下的“随机噪声”、“迁移攻击”等攻击样本,更符合工业界应用的攻击评测基准。李俊奎说,该平台支持零编码测评,用户上传待测模型,选择攻击算法后,平台可自动化评估AI安全风险,全面加固模型算法。该平台现已开放AI模型鲁棒性测评,未来持续增加模型可解释性、算法公平性、隐私保护等特性的检测服务。来自:雷锋频道:@kejiqu群组:@kejiquchat投稿:@kejiqubot

封面图片

AI爬虫工具是一种使用人工智能算法自动从网站收集数据的工具。

AI爬虫工具是一种使用人工智能算法自动从网站收集数据的工具。可以从任何不需要身份验证或登录凭据的网站收集数据,而且抓取的数据量没有限制。只需输入URL和您要抓取的项目,剩下的就交给我们的AI抓取工具。我们的AI抓取工具使用先进的算法准确收集数据,因此您可以对结果充满信心。借助我们的AI抓取工具,您可以自动化数据收集过程并腾出时间专注于其他任务。我们的AI抓取工具可让您轻松自定义数据收集偏好以满足您的需求。PS:无法试用,不建议填账号信息去试用。Web:https://webscrapeai.com/

封面图片

Meta的新AI功能可以将文字提示变成视频

Meta的新AI功能可以将文字提示变成视频虽然效果相当粗糙,但该系统让人们看到了人工智能在该领域的未来步伐,它是今年引起广泛关注的文本到图像人工智能系统的明显进步。Meta公司宣布的Make-A-Video尚未向公众开放,这可能会促使其他人工智能实验室发布自己的版本。这也提出了一些重大的道德问题。仅在上个月,人工智能实验室OpenAI就向所有人提供了其最新的文本-图像人工智能系统DALL-E,而人工智能初创公司Stability.AI则推出了稳定的开源的文本-图像系统。但文本到视频的AI伴随着一些更大的挑战。首先,这些模型需要大量的计算能力。它们比大型文本到图像的人工智能模型的计算量还要大,后者使用数百万张图像进行训练,因为仅仅拼凑一个短视频就需要数百张图像。这意味着在可预见的未来,只有大型科技公司才有能力建立这些系统。它们的训练也比较棘手,因为没有大规模的高质量视频与文本配对的数据集。——

封面图片

字节发布的这个MegaScale估计只有超级大厂才有用,一个在超过一万个 GPU 上训练 LLM 的生产系统。#ai##llm#

字节发布的这个MegaScale估计只有超级大厂才有用,一个在超过一万个GPU上训练LLM的生产系统。整个系统涵盖了从模型块和优化器设计到计算与通信的重叠、运算符优化、数据管道以及网络性能调整的算法和系统组件。MegaScale在训练一个175B参数的LLM模型时,在12,288GPU上实现了55.2%的模型浮点运算利用率(ModelFLOPsUtilization,MFU),相比Megatron-LM提升了1.34倍。论文地址:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人