【摩尔线程CEO张建中:如何打破摩尔定律,18个月内推出首款GPU芯片?】摩尔线程芯片设计的关键部分来自苹果公司供应商、总部位于

【摩尔线程CEO张建中:如何打破摩尔定律,18个月内推出首款GPU芯片?】摩尔线程芯片设计的关键部分来自苹果公司供应商、总部位于英国的Imagination Technologies。这是一家全球主要IP授权商,其2017年被中资私募投资机构Canyon Bridge收购。 #抽屉IT

相关推荐

封面图片

Azure AI 入门 (三)摩尔定律,GPU与并行计算

Azure AI 入门 (三)摩尔定律,GPU与并行计算 摩尔定律(图一)是英特尔Intel创始人之一戈登·摩尔的经验之谈,其核心内容为:集成电路IC相同面积上可以容纳的晶体管Transistor数目在18个月到24个月便会增加一倍,因此处理器的性能大约每两年翻一倍,同时价格下降为之前的一半。 虽然名为“定律”,但其只是根据20世纪中后期的发展趋势归纳而成。进入21世纪以后,以英特尔为代表的中央处理器CPU的发展趋势渐渐慢于摩尔的预测的。仅依靠单颗处理器的速度提升已无法满足日渐复杂的计算任务,比如3维图形的渲染(3D rendering)。 因此,英伟达Nvidia在1999年提出了硬件图形处理器(Graphics Processing Unit)的概念,以大量的只能完成某些特殊任务的微处理器,代替少量的通用处理器。软件方面,并行计算也从专业科学领域逐渐向大众领域流行。用一个可能不是最恰当的比方,CPU像是由4位特级厨师组成的小组,可以完成任何烹饪任务,而GPU像是用同样工资请来的128位三明治店的员工。GPU不能做很多事,像完成一些特定的菜,但如果任务是制作2000人份的三明治,GPU一定可以依靠并行计算比CPU完成得快许多。 GPU与并行计算的普及,也使得云计算成为了可能。计算机科学家在设计计算任务时通常会首先考虑能否将大任务拆分成能同时进行的更小任务,从而可以同时运行在服务商提供的大量数目的CPU和GPU上。 图二 英伟达创始人黄仁勋 Jensen Huang

封面图片

清华大学研究超高速光电模拟芯片:“挣脱”摩尔定律,算力提升 3000 倍

清华大学研究超高速光电模拟芯片:“挣脱”摩尔定律,算力提升 3000 倍 清华大学自动化系戴琼海院士、吴嘉敏助理教授与电子工程系方璐副教授、乔飞副研究员联合攻关,提出了一种“挣脱”摩尔定律的全新计算架构:光电模拟芯片,算力达到目前高性能商用芯片的3000余倍。相关成果以“高速视觉任务中的纯模拟光电芯片”(All-analog photo-electronic chip for high-speed vision tasks)为题,以(article)形式发表在《自然》(Nature)期刊上。如果用交通工具的运行时间来类比芯片中信息流计算的时间,那么这枚芯片的出现,相当于将京广高铁8小时的运行时间缩短到8秒钟。 在这枚小小的芯片中,清华大学攻关团队创造性地提出了光电深度融合的计算框架。从最本质的物理原理出发,结合了基于电磁波空间传播的光计算,与基于基尔霍夫定律的纯模拟电子计算,“挣脱”传统芯片架构中数据转换速度、精度与功耗相互制约的物理瓶颈,在一枚芯片上突破大规模计算单元集成、高效非线性、高速光电接口三个国际难题。 实测表现下,光电融合芯片的系统级算力较现有的高性能芯片架构提升了数千倍。然而,如此惊人的算力,还只是这枚芯片诸多优势的其中之一。 在研发团队演示的智能视觉任务和交通场景计算中,光电融合芯片的系统级能效(单位能量可进行的运算数)实测达到了74.8 Peta-OPS/W,是现有高性能芯片的400万余倍。形象地说,原本供现有芯片工作一小时的电量,可供它工作500多年。

封面图片

NVIDIA“最强AI芯片”Blackwell B200 GPU令业内惊呼新的摩尔定律诞生

NVIDIA“最强AI芯片”Blackwell B200 GPU令业内惊呼新的摩尔定律诞生 在GTC直播中,黄仁勋左手举着 B200 GPU,右手举着 H100此外,将两个B200 GPU与单个Grace CPU 结合在一起的 GB200,可以为LLM推理工作负载提供30倍的性能,并且显著提高效率。黄仁勋还强调称:“与H100相比,GB200的成本和能耗降低了25倍!关于市场近期颇为关注的能源消耗问题,B200 GPU也交出了最新的答卷。黄仁勋表示,此前训练一个1.8 万亿参数模型,需要8000 个 Hopper GPU 并消耗15 MW电力。但如今,2000 个 Blackwell GPU就可以实现这一目标,耗电量仅为4MW。在拥有1750亿参数的GPT-3大模型基准测试中,GB200的性能是H100的7倍,训练速度是H100的4倍。值得一提的是,B200 GPU的重要进步之一,是采用了第二代Transformer引擎。它通过对每个神经元使用4位(20 petaflops FP4)而不是8位,直接将计算能力、带宽和模型参数规模翻了一倍。而只有当这些大量的GPU连接在一起时,第二个重要区别才会显现,那就是新一代NVLink交换机可以让576个GPU相互通信,双向带宽高达1.8TB/秒。而这就需要英伟达构建一个全新的网络交换芯片,其中包括500亿个晶体管和一些自己的板载计算:拥有3.6 teraflops FP8处理能力。在此之前,仅16个GPU组成的集群,就会耗费60%的时间用于相互通信,只有40%的时间能用于实际计算。一石激起千层浪,“最强AI芯片”的推出让网友纷纷赞叹。其中英伟达高级科学家Jim Fan直呼:Blackwell新王诞生,新的摩尔定律已经应运而生。DGX Grace-Blackwell GB200:单个机架的计算能力超过1 Exaflop。黄仁勋交付给OpenAI的第一台DGX是0.17 Petaflops。GPT-4的1.8T参数可在2000个Blackwell上完成90天的训练。还有网友感叹:1000倍成就达成!Blackwell标志着在短短8年内,NVIDIA AI 芯片的计算能力实现了提升1000倍的历史性成就。2016 年,“Pascal”芯片的计算能力仅为19 teraflops,而今天Blackwell的计算能力已经达到了 20000 teraflops。相关文章:全程回顾黄仁勋GTC演讲:Blackwell架构B200芯片登场英伟达扩大与中国车企合作 为比亚迪提供下一代车载芯片英伟达进军机器人领域 发布世界首款人形机器人通用基础模型台积电、新思科技首次采用NVIDIA计算光刻平台:最快加速60倍NVIDIA共享虚拟现实环境技术将应用于苹果Vision Pro黄仁勋GTC演讲全文:最强AI芯片Blackwell问世 推理能力提升30倍 ... PC版: 手机版:

封面图片

大模型增速远超摩尔定律 MIT最新研究:人类快要喂不饱AI了

大模型增速远超摩尔定律 MIT最新研究:人类快要喂不饱AI了 论文地址: 蓝点表示中心估计值或范围; 蓝色三角形对应于不同大小(范围从1K到1B)的问题的倍增时间; 紫色虚线对应于摩尔定律表示的2年倍增时间。摩尔定律和比尔盖茨摩尔定律(Moore's law)是一种经验或者观察结果,表示集成电路(IC)中的晶体管数量大约每两年翻一番。1965年,仙童半导体(Fairchild Semiconductor)和英特尔的联合创始人Gordon Moore假设集成电路的组件数量每年翻一番,并预测这种增长率将至少再持续十年。1975年,展望下一个十年,他将预测修改为每两年翻一番,复合年增长率(CAGR)为41%。虽然Moore没有使用经验证据来预测历史趋势将继续下去,但他的预测自1975年以来一直成立,所以也就成了“定律”。因为摩尔定律被半导体行业用于指导长期规划和设定研发目标,所以在某种程度上,成了一种自我实现预言。数字电子技术的进步,例如微处理器价格的降低、内存容量(RAM 和闪存)的增加、传感器的改进,甚至数码相机中像素的数量和大小,都与摩尔定律密切相关。数字电子的这些持续变化一直是技术和社会变革、生产力和经济增长的驱动力。不过光靠自我激励肯定是不行的,虽然行业专家没法对摩尔定律能持续多久达成共识,但根据微处理器架构师的报告,自2010年左右以来,整个行业的半导体发展速度已经放缓,略低于摩尔定律预测的速度。下面是维基百科给出的晶体管数量增长趋势图:到了2022年9月,英伟达首席执行官黄仁勋直言“摩尔定律已死”,不过英特尔首席执行官Pat Gelsinger则表示不同意。从下图我们可以看出,英特尔还在努力用各种技术和方法为自己老祖宗提出的定律续命,并表示,问题不大,你看我们还是直线没有弯。Andy and Bill's Law关于算力的增长,有一句话是这样说的:“安迪给的,比尔都拿走(What Andy giveth, Bill taketh away)”。这反映了当时的英特尔首席执行官Andy Grove每次向市场推出新芯片时,微软的CEO比尔·盖茨(Bill Gates)都会通过升级软件来吃掉芯片提升的性能。而以后吃掉芯片算力的就是大模型了,而且根据MIT的这项研究,大模型以后根本吃不饱。研究方法如何定义LLM的能力提升?首先,研究人员对模型的能力进行了量化。基本的思想就是:如果一种算法或架构在基准测试中以一半的计算量获得相同的结果,那么就可以说,它比另一种算法或架构好两倍。有了比赛规则之后,研究人员招募了200多个语言模型来参加比赛,同时为了确保公平公正,比赛所用的数据集是WikiText-103和WikiText-2以及Penn Treebank,代表了多年来用于评估语言模型的高质量文本数据。专注于语言模型开发过程中使用的既定基准,为比较新旧模型提供了连续性。需要注意的是,这里只量化了预训练模型的能力,没有考虑一些“训练后增强”手段,比如思维链提示(COT)、微调技术的改进或者集成搜索的方法(RAG)。模型定义研究人员通过拟合一个满足两个关键目标的模型来评估其性能水平:(1)模型必须与之前关于神经标度定律的工作大致一致;(2)模型应允许分解提高性能的主要因素,例如提高模型中数据或自由参数的使用效率。这里采用的核心方法类似于之前提出的缩放定律,将Dense Transformer的训练损失L与其参数N的数量和训练数据集大小D相关联:其中L是数据集上每个token的交叉熵损失,E、A、B、α和β是常数。E表示数据集的“不可减少损失”,而第二项和第三项分别代表由于模型或数据集的有限性而导致的错误。因为随着时间的推移,实现相同性能水平所需的资源(N 和 D)会减少。为了衡量这一点,作者在模型中引入了“有效数据”和“有效模型大小”的概念:其中的Y表示年份,前面的系数表示进展率,代入上面的缩放定律,可以得到:通过这个公式,就可以估计随着时间的推移,实现相同性能水平所需的更少资源(N和D)的速度。数据集参与测评的包含400多个在WikiText-103(WT103)、WikiText-2(WT2)和Penn Treebank(PTB)上评估的语言模型,其中约60%可用于分析。研究人员首先从大约200篇不同的论文中检索了相关的评估信息,又额外使用框架执行了25个模型的评估。然后,考虑数据的子集,其中包含拟合模型结构所需的信息:token级测试困惑度(决定交叉熵损失)、发布日期、模型参数数量和训练数据集大小,最终筛选出231个模型供分析。这231个语言模型,跨越了超过8个数量级的计算,上图中的每个形状代表一个模型。形状的大小与训练期间使用的计算成正比,困惑度评估来自于现有文献以及作者自己的评估测试。在某些情况下,会从同一篇论文中检索到多个模型,为了避免自相关带来的问题,这里每篇论文最多只选择三个模型。实证结果根据缩放定律,以及作者引入的有效数据、有效参数和有效计算的定义来进行评估,结果表明:有效计算的中位倍增时间为8.4个月,95%置信区间为4.5至14.3个月。上图表示通过交叉验证选择的模型的算法进度估计值。图a显示了倍增时间的汇总估计值,图b显示了从左到右按交叉验证性能递减(MSE测试损耗增加)排序。上图比较了2016年至2020年前后的算法有效计算的估计倍增时间。相对于前期,后期的倍增时间较短,表明在该截止年之后算法进步速度加快。参考资料: ... PC版: 手机版:

封面图片

若考虑成本因素 摩尔定律实际上已失效10年

若考虑成本因素 摩尔定律实际上已失效10年 1965 年,已故英特尔公司联合创始人戈登-摩尔(Gordon Moore)提出了电路板上每平方英寸的晶体管数量大约每两年翻一番的理论。以他的名字命名的这一理论在此后近 60 年的时间里基本保持不变,但最近却持续面临动荡。2014 年,MonolithIC 首席执行官 Zvi Or-Bach 指出,1 亿门晶体管的成本此前一直在稳步下降,在当时的 28nm 节点跌至谷底。据《半导体文摘》(Semiconductor Digest)报道,Shah 在 2023 年 IEDM 大会上发言时,用一张图表支持了 Or-Bach 的说法,该图表显示,1 亿门晶体管的价格从那时起一直保持平稳,这表明晶体管在过去十年中并没有变得更便宜。尽管芯片制造商不断缩小半导体,并将更多半导体封装到功能越来越强大的芯片上,但价格和功耗却在增加。自2017年以来,NVIDIA公司首席执行官黄仁勋曾多次宣称摩尔定律已死,试图解释这一趋势,他表示,更强大的硬件将不可避免地花费更多成本,需要更多能源。最近,有人指责 NVIDIA 首席执行官为 NVIDIA 显卡价格上涨找借口。与此同时,AMD和英特尔的负责人承认摩尔定律至少已经放缓,但声称他们仍然可以通过 3D 封装等创新技术实现有意义的性能和效率提升。Or-Bach 和后来的 Shah 的分析可能与台积电的晶圆涨价相吻合,2014 年 28 纳米之后,台积电的晶圆涨价速度急剧加快。据 DigiTimes 报道,随着 2016 年 10nm 制程的推出,这家台湾巨头的单晶圆成本在随后的两年里翻了一番。据该媒体估计,最新的 3nm 晶圆成本可能达到 20000 美元。随着台积电及其竞争对手在未来几年将目标转向 2 纳米和 1 纳米,进一步的分析表明,半导体行业近期的增长主要来自晶圆价格的上涨。尽管过去几年晶圆销量下降,但台积电晶圆的平均价格却持续上涨。 ... PC版: 手机版:

封面图片

英特尔CEO:别听老黄瞎忽悠 摩尔定律依然有效

英特尔CEO:别听老黄瞎忽悠 摩尔定律依然有效 他说:“与黄仁勋让你们相信的不同,摩尔定律依然活着,而且还活得很好。”基辛格同时强调,作为PC芯片的领先供应商,英特尔将在AI的普及中发挥重要作用。他说:“我认为,它就像25年前的互联网,规模和潜力庞大。我们相信,这是推动半导体行业在2030年之前达到1万亿美元的动力。”在本届台北国际电脑展上,英特尔展示了其最新的至强6(Xeon 6)数据中心处理器。该处理器具有更高效的内核,将使运营商能够将给定任务所需的空间减少到前一代硬件的1/3。盖辛格还称,英特尔的Gaud系统将由戴尔和英业达(Inventec)等合作伙伴提供。Gaud系统将英特尔的芯片编译成多处理器套件,专门用于处理生成式AI的训练。一套配备八个英特尔Gaud 2加速器的套装售价为65,000美元,而由八个英特尔Gaud 3加速器组成的功能更强大的套件将标价12.5万美元。英特尔预计,这两款产品都比竞争对手的产品更实惠。这些Gaudi 3集群中的每一个都由8192个加速器组成,英特尔预计,与同等规模的英伟达H100 GPU集群相比,英特尔产品的AI模型训练时间最多快40%。另外,在执行AI推理任务方面,Gaudi 3的执行速度将比英伟达的H100快一倍,这是从Meta和Mistral等流行模型的测试结果中得出的结论。但是,这些优势可能还不足以推翻英伟达在数据中心AI处理方面的领先地位。Next Curve的分析师Leonard Lee称:“每个加速器的表现不再是最重要的事情。英伟达的最大优势在于拥有一个凝聚和集成的生态系统,以及像NVLink这样的专有技术,确保其计算集群作为一个整体工作。”几十年来,英特尔一直领导着计算机行业。但由于逐渐落后于竞争对手,其营收在过去两年里有所下滑。三年前,基辛格被任命为英特尔CEO,肩负着重新夺回芯片设计和制造领导地位的使命。虽然英特尔的销售额已经停止萎缩,但分析师预计还不会迅速反弹。据预计,英特尔今年的营收将比2021年减少200亿美元。与此同时,英伟达的销售额预计将翻一番,AMD的增长率也将超过10%,这两家公司均更好地利用了AI计算硬件的开支狂潮。基辛格称:“这是我们职业生涯中最重要的时刻。”他重申了英特尔与合作伙伴合作的重要性,并称“我们是为这一刻而生的。” ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人