世界第一AI芯片“WSE-3”升级4万亿晶体管、90万核心

世界第一AI芯片“WSE-3”升级4万亿晶体管、90万核心 2021年的第二代WSE-2升级台积电7nm工艺,面积不变还是46225平方毫米,晶体管增至2.6万亿个,核心数增至85万个,缓存扩至40GB,内存带宽20PB/s,互连带宽220Pb/s。如今的第三代WSE-3再次升级为台积电5nm工艺,面积没说但应该差不多,毕竟需要一块晶圆才能造出一颗芯片,不可能再大太多了。晶体管数量继续增加达到惊人的4万亿个,AI核心数量进一步增加到90万个,缓存容量达到44GB,外部搭配内存容量可选1.5TB、12TB、1200TB。乍一看,核心数量、缓存容量增加的不多,但性能实现了飞跃,峰值AI算力高达125PFlops,也就是每秒12.5亿亿次浮点计算,堪比顶级超算。它可以训练相当于GPT-4、Gemini十几倍的下一代AI大模型,能在单一逻辑内存空间内存储24万亿参数,无需分区或者重构。用它来训练1万亿参数大模型的速度,相当于用GPU训练10亿参数。四颗并联,它能在一天之内完成700亿参数的调教,而且支持最多2048路互连,一天就可以完成Llama 700亿参数的训练。WSE-3的具体功耗、价格没公布,根据上代的情况看应该在200多万美元。 ... PC版: 手机版:

相关推荐

封面图片

【世界第一AI芯片WSE-3面世,一天就可以完成Llama 700亿参数的训练】

【世界第一AI芯片WSE-3面世,一天就可以完成Llama 700亿参数的训练】 #美国 加州半导体公司Cerebras Systems发布第三代晶圆级AI加速芯片“WSE-3”(Wafer Scale Engine 3),规格参数更加疯狂,而且在功耗、价格不变的前提下性能翻了一番。WSE-3再次升级为台积电5nm工艺,面积没说但应该差不多,然而,晶体管数量继续增加达到惊人的4万亿个,AI核心数量进一步增加到90万个,缓存容量达到44GB,外部搭配内存容量可选1.5TB、12TB、1200TB。核心数量、缓存容量增加的不多,但性能实现了飞跃,峰值AI算力高达125PFlops,也就是每秒12.5亿亿次浮点计算,堪比顶级超算。它可以训练相当于GPT-4、Gemini十几倍的下一代AI大模型,能在单一逻辑内存空间内存储24万亿参数,无需分区或者重构。四颗并联,它能在一天之内完成700亿参数的调教,而且支持最多2048路互连,一天就可以完成Llama 700亿参数的训练。WSE-3的具体功耗、价格没公布,根据上代的情况看应该在200多万美元。

封面图片

最强AI芯片WSE-3发布:4万亿个晶体管,90万核,125 PetaFLOPS算力

最强AI芯片WSE-3发布:4万亿个晶体管,90万核,125 PetaFLOPS算力 基于 5nm 的4万亿晶体管WSE-3专为训练业界最大的 AI 模型而构建,为Cerebras CS-3 AI 超级计算机提供动力,通过900,000 个 AI优化计算核心提供 125 petaflops 的峰值 AI性能。一颗惊人的芯片,约等于62颗H100Cerebras Systems表示,这款新器件使用台积电的5nm工艺打造,包含 4 万亿个晶体管;90万个AI核心;44GB 片上 SRAM;;外部存储器为1.5TB、12TB或1.2PB;峰值性能为 125 FP16 PetaFLOPS。Ceberas 的 WSE-3 将用于训练一些业界最大的人工智能模型,能训练多达 24 万亿个参数的 AI 模型;其打造的集群规模高达 2048 个 CS-3 系统。值得一提的是,当 Cerebras 提到内存时,他们谈论的更多是 SRAM,而不是片外 HBM3E 或 DDR5。内存与核心一起分布,目的是使数据和计算尽可能接近。为了展示这颗新芯片的规模,Cerebras 还将其与英伟达的H100进行了对比。除了将这款巨型芯片推向市场之外,Cerebras 取得成功的原因之一是它所做的事情与 NVIDIA 不同。NVIDIA、AMD、英特尔等公司采用大型台积电晶圆并将其切成更小的部分来制造芯片,而 Cerebras 将晶圆保留在一起。在当今的集群中,可能有数以万计的 GPU 或 AI 加速器来处理一个问题,将芯片数量减少 50 倍以上可以降低互连和网络成本以及功耗。在具有 Infiniband、以太网、PCIe 和 NVLink 交换机的 NVIDIA GPU 集群中,大量的电力和成本花费在重新链接芯片上。Cerebras 通过将整个芯片保持在一起来解决这个问题。凭借 WSE-3,Cerebras 可以继续生产世界上最大的单芯片。它呈正方形,边长为 21.5 厘米,几乎使用整个 300 毫米硅片来制造一个芯片。你可以在WSE芯片的相继推出中看到摩尔定律的作用。第一个于 2019 年首次亮相,采用台积电的 16 纳米技术制造。对于 2021 年推出的 WSE-2,Cerebras 转而采用台积电的 7 纳米工艺。WSE-3 采用这家代工巨头的 5 纳米技术制造。自第一个巨型芯片问世以来,晶体管的数量增加了两倍多。与此同时,它们的用途也发生了变化。例如,芯片上的人工智能核心数量已显着趋于平稳,内存量和内部带宽也是如此。尽管如此,每秒浮点运算(flops)方面的性能改进已经超过了所有其他指标。需要注意的一点是,Cerebras 使用片上内存,而不是 NVIDIA 的封装内存,因此我们不会以 H100 上的 80GB HBM3 为例。最新的 Cerebras 软件框架为PyTorch 2.0 和最新的 AI 模型和技术(如多模态模型、视觉转换器、专家混合和扩散)提供原生支持。Cerebras 仍然是唯一为动态和非结构化稀疏性提供本机硬件加速的平台,将训练速度提高了8 倍。您可能已经看到 Cerebras 表示其平台比 NVIDIA 的平台更易于使用。造成这种情况的一个重要原因是 Cerebras 存储权重和激活的方式,并且它不必扩展到系统中的多个 GPU,然后扩展到集群中的多个 GPU 服务器。除了代码更改很容易之外,Cerebras 表示它的训练速度比 Meta GPU 集群更快。当然,目前这似乎是理论上的 Cerebras CS-3 集群,因为我们没有听说有任何 2048 个 CS-3 集群启动并运行,而 Meta 已经有了 AI GPU 集群。总体而言,这里发生了很多事情,但我们知道的一件事是,如今越来越多的人使用基于 NVIDIA 的集群。Cerebras Systems进一步指出,由于每个组件都针对 AI 工作进行了优化,CS-3 比任何其他系统都能以更小的空间和更低的功耗提供更高的计算性能。虽然 GPU 功耗逐代翻倍,但 CS-3 的性能翻倍,功耗却保持不变。CS-3具有卓越的易用性,与适用于大模型的GPU 相比, CS-3需要的代码减少 97% ,并且能够在纯数据并行模式下训练从 1B 到24T 参数的模型。GPT -3大小的模型的标准实现在 Cerebras 上只需要 565 行代码这同样也是行业记录。一个庞大的系统,冷却超乎想象Cerebras CS-3 是第三代 Wafer Scale 系统。其顶部具有 MTP/MPO 光纤连接,以及用于冷却的电源、风扇和冗余泵。Cerebras Systems在新闻稿中指出,如上所述,CS-3拥有高达 1.2 PB的巨大内存系统,旨在训练比 GPT-4 和 Gemini 大 10 倍的下一代前沿模型。24 万亿参数模型可以存储在单个逻辑内存空间中,无需分区或重构,从而极大地简化了训练工作流程并提高了开发人员的工作效率。在 CS-3 上训练一万亿参数模型就像在 GPU 上训练十亿参数模型一样简单。CS-3专为满足企业和超大规模需求而打造。紧凑的四系统配置可以在一天内微调 70B 模型,而使用 2048 个系统进行全面调整,Llama 70B 可以在一天内从头开始训练这对于生成 AI 来说是前所未有的壮举。Cerebras 需要为巨型芯片提供电力、数据和冷却,同时还要管理相对较大区域的热膨胀等问题。这是该公司的另一项重大工程胜利。芯片内部采用液体冷却,热量可以通过风扇或设施水排出。该系统及其新芯片在相同的功耗和价格下实现了大约 2 倍的性能飞跃。从第一代的 16 纳米到如今的 5 纳米,Cerebras 从每个工艺步骤中都获得了巨大的优势。与具有八个 NVIDIA H100 GPU 以及内部 NVSwitch 和 PCIe 交换机的 NVIDIA DGX H100 系统相比,它只是一个更大的构建块。这是带有 Supermicro 1U 服务器的 CS-3。这是另一个使用 Supermciro 1U 服务器拍摄的 Cerebras 集群。Cerebras 通常使用 AMD EPYC 来获得更高的核心数量,这可能是因为 Cerebras 团队的很多成员来自被 AMD 收购的 SeaMicro。我们在这次迭代中注意到的一点是,Cerebras 也有 HPE 服务器的解决方案。这有点奇怪,因为一般来说,Supermicro BigTwin 比 HPE 的 2U 4 节点产品领先一步。看待 Cerebras CS-2/CS-3 的一种方式是,它们是巨大的计算机器,但许多数据预处理、集群级任务等都发生在传统的 x86 计算上,以提供优化的人工智能芯片。由于这是一个液冷数据中心,因此风冷 HPE 服务器配备了来自 Legrand 子品牌 ColdLogik 的后门热交换器设置。这是 Cerebras 如何利用液冷设施的一个很好的例子,但它不必为每个服务器节点配备冷板。这一代的一大特点是更大的集群,多达 2048 个 CS-3,可实现高达 256 exaFLOPs 的 AI 计算。12PB 内存是一款高端超大规模 SKU,专为快速训练 GPT-5 尺寸模型而设计。Cerebras 还可以缩小到类似于单个 CS-2 的规模,并支持服务器和网络。部分内存不仅是片上内存(44GB),还包括支持服务器中的内存。因此,Cerebras 集群可以训练比以前更大的模型。关于整个系统,在SC22的时候,该公司就曾基于 Cerebras CS-2 的系统展示了看起来像一堆金属的东西,其中有一些印刷电路板伸出来。该公司称其为发动机组(Engine Block)。在 Cerebras 看来,这是一项巨大的工程壮举。弄清楚如何封装、供电和冷却大型芯片是一个关键的工程挑战。让代工厂制造特殊的晶圆是一回事,让晶圆开机、不过热并做有用的工作是另一回事。这是另一边的样子。当我们谈论由于密度而必须转向液体冷却的服务器时,我们谈论的是 2kW/U 服务器或可能具有 8x800W 或 8x1kW 部件的加速器托盘。对于 WSE/WSE-2,所有电力和冷却都需要传输到单个大晶圆上,这意味着即使是不同材料的热膨胀率等因素也很重要。另一个含义是,实际上该组件上的所有部件都采用液冷方式。最上面一排木板非常密集。展位上的 Cerebras 代表告诉我,这些是电源,这是有道理的,因为我们看到它们的连接器密度相对较低。Cerebras Condor Galaxy 的更新在去年七月,Cerebras 宣布其 CS-2 系统取得重大胜利。它拥有一台价值 1 亿美元的人工智能超级计算机,正在与阿布扎比的 G42 一起使用。这里的关键是,这不仅仅是一个 IT 合作伙伴,也是一个客户。当前的第一阶段有 32 个 CS-2 和超过 550 个 AMD EPYC 7003“Milan”CPU(注:Cerebras 首席执行官 Andrew... PC版: 手机版:

封面图片

台积电规划1nm芯片制造工艺,计划到 2030 年实现 1 万亿晶体管的单个芯片封装

台积电规划1nm芯片制造工艺,计划到 2030 年实现 1 万亿晶体管的单个芯片封装 据 Tom's Hardware 报道,在本月举行的 IEDM 2023 会议上,台积电制定了提供包含 1 万亿个晶体管的芯片封装路线,这一计划与英特尔去年透露的规划类似。 当然,1 万亿晶体管是来自单个芯片封装上的 3D 封装小芯片集合,但台积电也在致力于开发单个芯片 2000 亿晶体管。 为了实现这一目标,该公司重申正在致力于 2nm 级 N2 和 N2P 生产节点,以及 1.4nm 级 A14 和 1nm 级 A10 制造工艺,预计将于 2030 年完成。 ,

封面图片

一万亿晶体管GPU将到来 台积电董事长撰文解读

一万亿晶体管GPU将到来 台积电董事长撰文解读 值得一提的是,本文署名作者MARK LIU(刘德音)和H.-S. PHILIP WONG,其中刘德音是台积电董事长。H.-S Philip Wong则是斯坦福大学工程学院教授、台积电首席科学家。在这里,我们将此文翻译出来,以飨读者。以下为文章正文:1997 年,IBM 深蓝超级计算机击败了国际象棋世界冠军Garry Kasparov。这是超级计算机技术的突破性演示,也是对高性能计算有一天可能超越人类智能水平的首次展示。在接下来的10年里,我们开始将人工智能用于许多实际任务,例如面部识别、语言翻译以及推荐电影和商品。再过十五年,人工智能已经发展到可以“合成知识”(synthesize knowledge)的地步。生成式人工智能,如ChatGPT和Stable Diffusion,可以创作诗歌、创作艺术品、诊断疾病、编写总结报告和计算机代码,甚至可以设计与人类制造的集成电路相媲美的集成电路。人工智能成为所有人类事业的数字助手,面临着巨大的机遇。ChatGPT是人工智能如何使高性能计算的使用民主化、为社会中的每个人带来好处的一个很好的例子。所有这些奇妙的人工智能应用都归功于三个因素:高效机器学习算法的创新、训练神经网络的大量数据的可用性,以及通过半导体技术的进步实现节能计算的进步。尽管它无处不在,但对生成式人工智能革命的最后贡献却没有得到应有的认可。在过去的三十年里,人工智能的重大里程碑都是由当时领先的半导体技术实现的,没有它就不可能实现。Deep Blue 采用 0.6 微米和 0.35 微米节点芯片制造技术的混合实现;赢得 ImageNet 竞赛的深度神经网络并开启了当前机器学习时代的设备使了用 40 纳米技术打造的芯片;AlphaGo 使用 28 纳米技术征服了围棋游戏;ChatGPT 的初始版本是在采用 5 纳米技术构建的计算机上进行训练的。;ChatGPT 的最新版本由使用更先进的4 纳米技术的服务器提供支持。所涉及的计算机系统的每一层,从软件和算法到架构、电路设计和设备技术,都充当人工智能性能的乘数。但可以公平地说,基础晶体管器件技术推动了上面各层的进步。如果人工智能革命要以目前的速度继续下去,它将需要半导体行业做出更多贡献。十年内,它将需要一个 1 万亿晶体管的 GPU,也就是说,GPU 的设备数量是当今典型设备数量的 10 倍。AI 模型大小的不断增长,让人工智能训练所需的计算和内存访问在过去五年中增加了几个数量级。例如,训练GPT-3需要相当于一整天每秒超过 50 亿次的计算操作(即 5,000 petaflops /天),以及 3 万亿字节 (3 TB) 的内存容量。新的生成式人工智能应用程序所需的计算能力和内存访问都在持续快速增长。我们现在需要回答一个紧迫的问题:半导体技术如何跟上步伐?从集成器件到集成小芯片自集成电路发明以来,半导体技术一直致力于缩小特征尺寸,以便我们可以将更多晶体管塞进缩略图大小的芯片中。如今,集成度已经上升了一个层次;我们正在超越 2D 缩放进入3D 系统集成。我们现在正在将许多芯片组合成一个紧密集成、大规模互连的系统。这是半导体技术集成的范式转变。在人工智能时代,系统的能力与系统中集成的晶体管数量成正比。主要限制之一是光刻芯片制造工具被设计用于制造不超过约 800 平方毫米的 IC,即所谓的光罩限制(reticle limit)。但我们现在可以将集成系统的尺寸扩展到光刻掩模版极限之外。通过将多个芯片连接到更大的中介层(一块内置互连的硅片)上,我们可以集成一个系统,该系统包含的设备数量比单个芯片上可能包含的设备数量要多得多。例如,台积电的CoWoS(chip-on-wafer-on-substrate )技术就可以容纳多达六个掩模版区域的计算芯片,以及十几个高带宽内存(HBM)芯片。CoWoS是台积电的硅晶圆上芯片先进封装技术,目前已在产品中得到应用。示例包括 NVIDIA Ampere 和 Hopper GPU。当中每一个都由一个 GPU 芯片和六个高带宽内存立方体组成,全部位于硅中介层上。计算 GPU 芯片的尺寸大约是芯片制造工具当前允许的尺寸。Ampere有540亿个晶体管,Hopper有800亿个。从 7 纳米技术到更密集的 4 纳米技术的转变使得在基本相同的面积上封装的晶体管数量增加了 50%。Ampere 和 Hopper 是当今大型语言模型 ( LLM ) 训练的主力。训练 ChatGPT 需要数万个这样的处理器。HBM 是对 AI 日益重要的另一项关键半导体技术的一个例子:通过将芯片堆叠在一起来集成系统的能力,我们在台积电称之为SoIC (system-on-integrated-chips) 。HBM 由控制逻辑 IC顶部的一堆垂直互连的 DRAM 芯片组成。它使用称为硅通孔 (TSV) 的垂直互连来让信号通过每个芯片和焊料凸点以形成存储芯片之间的连接。如今,高性能 GPU广泛使用 HBM 。展望未来,3D SoIC 技术可以为当今的传统 HBM 技术提供“无凸块替代方案”(bumpless alternative),在堆叠芯片之间提供更密集的垂直互连。最近的进展表明,HBM 测试结构采用混合键合技术堆叠了 12 层芯片,这种铜对铜连接的密度高于焊料凸块所能提供的密度。该存储系统在低温下粘合在较大的基础逻辑芯片之上,总厚度仅为 600 µm。对于由大量运行大型人工智能模型的芯片组成的高性能计算系统,高速有线通信可能会很快限制计算速度。如今,光学互连已被用于连接数据中心的服务器机架。我们很快就会需要基于硅光子学的光学接口,并与 GPU 和 CPU 封装在一起。这将允许扩大能源效率和面积效率的带宽,以实现直接的光学 GPU 到 GPU 通信,这样数百台服务器就可以充当具有统一内存的单个巨型 GPU。由于人工智能应用的需求,硅光子将成为半导体行业最重要的使能技术之一。迈向万亿晶体管 GPU如前所述,用于 AI 训练的典型 GPU 芯片已经达到了标线区域极限(reticle field limit)。他们的晶体管数量约为1000亿个。晶体管数量增加趋势的持续将需要多个芯片通过 2.5D 或 3D 集成互连来执行计算。通过 CoWoS 或 SoIC 以及相关的先进封装技术集成多个芯片,可以使每个系统的晶体管总数比压缩到单个芯片中的晶体管总数大得多。如AMD MI 300A 就是采用这样的技术制造的。AMD MI300A 加速处理器单元不仅利用了CoWoS,还利用了台积电的 3D 技术SoIC。MI300A结合了 GPU 和 CPU内核,旨在处理最大的人工智能工作负载。GPU为AI执行密集的矩阵乘法运算,而CPU控制整个系统的运算,高带宽存储器(HBM)统一为两者服务。采用 5 纳米技术构建的 9 个计算芯片堆叠在 4 个 6 纳米技术基础芯片之上,这些芯片专用于缓存和 I/O 流量。基础芯片和 HBM 位于硅中介层之上。处理器的计算部分由 1500 亿个晶体管组成。我们预测,十年内,多芯片 GPU 将拥有超过 1 万亿个晶体管。我们需要在 3D 堆栈中将所有这些小芯片连接在一起,但幸运的是,业界已经能够快速缩小垂直互连的间距,从而增加连接密度。而且还有足够的空间容纳更多。我们认为互连密度没有理由不能增长一个数量级,甚至更高。GPU 的节能性能趋势那么,所有这些创新的硬件技术如何提高系统的性能呢?如果我们观察一个称为节能性能的指标的稳步改进,我们就可以看到服务器 GPU 中已经存在的趋势。EEP 是系统能源效率和速度(the energy efficiency and speed of a system)的综合衡量标准。过去 15 年来,半导体行业的能效性能每两年就提高了三倍左右。我们相信这一趋势将以历史速度持续下去。它将受到多方面创新的推动,包括新材料、器件和集成技术、极紫外(EUV)光刻、电路设计、系统架构设计以及所有这些技术元素的共同优化等。特别是,EEP 的增加将通过我们在此讨论的... PC版: 手机版:

封面图片

1000+亿晶体管怪物 Intel GPU Max诞生一年半就被放弃

1000+亿晶体管怪物 Intel GPU Max诞生一年半就被放弃 据最新曝料,Intel已经告知合作伙伴,GPU Max系列将逐步停产退市,Intel AI加速器的重点将放在Guadi 2/3系列,还有明年的第二代GPU Max Falcon Shores。Ponte Vecchio GPU Max当年是Raja Koduri力推的项目,采用了5种不同制造工艺、47个不同模块,晶体管数量超过1000亿个,配备最多128个Xe-HPC高性能计算核心、128个光追核心、64MB一级缓存、108MB二级缓存、128GB HBM高带宽内存,满血功耗600W。Gaudi 3则是独立的AI加速器,不久前刚刚发布,升级台积电5nm工艺,配备了8个矩阵引擎、64个张量核心、96MB SRAM缓存、1024-bit 128GB HBM2E内存,满血功耗达900W。Intel声称,它相比上代拥有2倍的FP8 AI算力、4倍的BF16 AI算力、2倍的网络带宽、1.5倍的内存带宽,而对比NVIDIA H100 LLM推理性能领先50%、训练时间快40%。针对中国市场,Gaudi 3将提供特殊版本,功耗最高限制在450W。Falcon Shores最初规划融合CPU、GPU,就像AMD Instinct MI300A,但后来改为纯GPU方案,融合设计则后续再说。 ... PC版: 手机版:

封面图片

专家认为半导体行业将在本十年末实现1万亿晶体管芯片的目标

专家认为半导体行业将在本十年末实现1万亿晶体管芯片的目标 台积电等公司对半导体集成表现出极大的乐观,计划在未来十年内实现万亿个晶体管的目标,并将其视为迈向未来的重要一步。据他们称,3D SoIC技术的出现将对晶体管的集成起到至关重要的作用,因为现在光刻工具的能力比以往任何时候都强,使业界可以将多个芯片连接到一个更大的中间件上。目前,NVIDIA最近公布的 Blackwell GPU 架构的晶体管数量为 2,080 亿个,这意味着未来十年内该行业的晶体管数量有望达到这个数字的 5 倍。此外,互联技术也将在其中发挥重要作用,因为通过 CoWoS 等先进封装技术实现 2.5D 或 3D 集成后,专家们可以在每个系统中堆叠数量更多的晶体管,而不仅仅是将它们安装到单个芯片上。同样,台积电在最近举行的 IEDM 大会上透露,该公司计划到 2030 年通过 3D 异质集成技术提供超过一万亿个晶体管,这意味着在性能提升方面,预计未来会有显著的数字增长,因为半导体行业的发展远不止节点缩小这么简单。对我们和半导体行业来说,未来确实充满希望,随着人工智能浪潮的到来,创新之火将蔓延到每个技术领域,最终为消费者和客户市场打开新的大门。您可以从IEEE Spectrum了解更多。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人