相关推荐

台积电规划1nm芯片制造工艺，计划到 2030 年实现 1 万亿晶体管的单个芯片封装

台积电规划1nm芯片制造工艺，计划到 2030 年实现 1 万亿晶体管的单个芯片封装据 Tom's Hardware 报道，在本月举行的 IEDM 2023 会议上，台积电制定了提供包含 1 万亿个晶体管的芯片封装路线，这一计划与英特尔去年透露的规划类似。当然，1 万亿晶体管是来自单个芯片封装上的 3D 封装小芯片集合，但台积电也在致力于开发单个芯片 2000 亿晶体管。为了实现这一目标，该公司重申正在致力于 2nm 级 N2 和 N2P 生产节点，以及 1.4nm 级 A14 和 1nm 级 A10 制造工艺，预计将于 2030 年完成。，

GTC 2024硬件一览：史上最强AI芯片GB200发布高达2080亿晶体管

GTC 2024硬件一览：史上最强AI芯片GB200发布高达2080亿晶体管今年的GTC峰会主题完全围绕AI展开，2个小时的时间，老黄又一次带来了AI的变革时刻。当然除了老黄的开幕演讲外，后面还有900多场鼓舞人心的会议在等着你。同时此次GTC大会还吸引了超过200家展商，汇聚了数千名不同行业领域的从业人员一同参与。丰富多彩的技术分享、越见非凡的创新技术，称它是AI的盛会都不为过。想必你也好奇老黄究竟在GTC上带来了什么惊喜吧，别着急，本篇带你一睹GTC峰会上的那些硬件产品。见证AI的变革时刻峰会伊始，我们熟悉的皮衣刀客准时出场。一上来就直奔今天的主题AI，并表示“加速式计算机的生产力已经到达了一个转折点，生成式AI正在加速发展，而我们需要以一种全新的方式进行计算，才能够进一步提高计算机生产力。”并且还贴心的展示了其自己亲手画出的关于计算机生产力的演变流程，最后一项正是今天的重点！改变形态的Blackwell GPU没错，老黄在GTC宣布推出新一代GPU Blackwell。这里先介绍一下Blackwell架构，此前NVIDIA推出的显卡一般是两种架构，其中游戏显卡例如我们熟悉的RTX 40系则是Ada Lovelace架构，而面向AI、大数据等应用的专业级显卡则采用Hopper 架构。而老黄在大会上则表示“Blackwell不是一个芯片，它是一个平台的名字。”意思是Blackwell架构将同时用于以上两种类型的产品。借助这一架构，NVIDIA将推出涵盖多个应用领域的显卡，即RTX 50系显卡也会是这个架构。并且从老黄手上的芯片可以看出，新的Blackwell GPU的体积明显比上代Hopper GPU要更大一些。至于这个架构名字的由来，则要追溯到美国科学院首位黑人院士、加州大学伯克利分校首位黑人终身教授戴维·布莱克维尔（David Blackwell），它是著名的数学家、统计学家，不过很可惜的是这位教授在2010年因病去世。恐怖的2080亿晶体管言归正传，让我们继续关注此次Blackwell GPU。“我们需要更大的GPU，如果不能更大，就把更多GPU组合在一起，变成更大的虚拟GPU。”老黄在GTC上也确实这么干了。Blackwell架构的首个GPU为B200，由于目前4nm制程工艺已经接近极限，所以NVIDIA也玩起了“拼图”，B200采用台积电的 4 纳米（4NP）工艺蚀刻而成，由两个芯片通过NVLink 5.0组合在一起，以10TB每秒的满血带宽互联，总的晶体管数量更是达到了恐怖的2080 亿。第二代Transformer引擎除了芯片形态的变化外，Blackwell还有5大创新，首先就是第二代Transformer引擎。它支持FP4和FP6精度计算。得益于此，Blackwell GPU的FP4与FP6分别是Hopper的5倍与2.5倍。第五代NVLink互连第五代NVLink互连则是将多个Blackwell GPU组合起来的重要工具。它与传统的PCIe交换机不同，NVLink带宽有限，可以在服务器内的GPU之间实现高速直接互连。目前第五代NVLink可每个GPU 提供了1.8TB/s双向吞吐量，确保多达576个GPU之间的无缝高速通信。RAS可靠性引擎这个RAS可靠性引擎则是基于AI实现，Blackwell 透过专用的可靠性、可用性和可维护性 (RAS) 引擎，可增加智慧复原能力，及早辨认出可能发生的潜在故障，尽可能缩短停机时间。Secure AI安全AI功能Secure AI负责提供机密运算功能，同时Blackwell也是业界第一款支持EE-I/O的GPU，它可以在不影响性能的前提下，维护你的数据安全，这对于金融、医疗以及AI方面有极大作用。专用解压缩引擎最后一项创新技术则是关于解压缩层面，资料分析和资料库工作流程此前更多是仰赖CPU 进行运算。如果放到GPU中进行则可大幅提升端对端分析的效能，加速创造价值，同时降低成本。Blackwell配备了专用的解压缩引擎，使用过程中可以配合内置的Grace CPU实现每秒900 GB的双向频宽，并且还能兼顾最新的压缩格式 (如 LZ4、Snappy和Deflate等)。超级核弹GB200而两个B200 GPU与Grace CPU结合就成为今天“火热”的GB200超级芯片。这款超级芯片的性能更加惊人，你以为H100已经很快了？不！GB200更快，过去，在90天内训练一个1.8万亿参数的MoE架构GPT模型，需要8000个Hopper架构GPU。现在，你只要2000个Blackwell GPU就可以完成。官方称，在标准的1750亿参数GPT-3基准测试中，GB200的性能是H100的7倍，提供的训练算力是H100的4倍。不止是性能更快更强，Blackwell GPU还相当节能。还是同样的操作，90天内训练一个1.8万亿参数的MoE架构GPT模型，8000个Hopper GPU要耗费15兆瓦功耗，如今的Blackwell GPU仅需1/4的能耗就能实现。如果你需要更强劲的GPU，NVIDIA也面向有大型需求的企业提供成品服务，提供完整的服务器。例如：GB200 NVL72，它将36个CPU和72个GPU插入一个液冷机架中，总共可实现720 petaflops的AI训练性能或1,440 petaflops（1.4 exaflops）的推理。与相同数量的72个H100相比，GB200 NVL72的性能绝对是逆天的存在，大模型推理性能可以提升30倍，并且成本和能耗只有前者的1/25。当然，最炸裂的要数适用于 DGX GB200 的 DGX Superpod，它将八个GB200 NVL72合二为一，总共有288个CPU、576个GPU、240TB内存和11.5 exaflops的FP4计算能力。老黄更是在GTC上直言“DGX Superpod就是AI的革命工厂！”结语以上就是本次GTC 2024的硬件相关报道，可能有玩家会说，怎么没有游戏显卡？其实按照过往惯例，NVIDIA并没有在GTC上推出消费级显卡的习惯。不过本次NVIDIA在GTC 2024上推出的B100显卡所使用的架构是Blackwell，上面我们也讲过了，这是一个跨越数据中心与消费级产品的架构，这也就意味着我们熟悉的GeForce显卡应该也是同一架构的产品，不出意外的话，下半年我们就有望看到心心念念的RTX 50系显卡了！ ... PC版：手机版：

AMD将搭建由120万颗GPU驱动的全球最强AI超级计算机

AMD将搭建由120万颗GPU驱动的全球最强AI超级计算机 AMD 数据中心解决方案总经理 Forrest Norrod 在接受The Next Platform 采访时透露，他们收到了客户关于使用 120 万个 GPU 构建人工智能训练集群的真实询问。从这个角度来看，目前的人工智能训练集群通常使用数千个 GPU，通过高速互连连接到多个本地服务器机架上。目前正在考虑的人工智能开发规模是前所未有的。诺罗德说："正在筹建的一些训练集群确实强大得令人匪夷所思。事实上，目前已知用于训练人工智能模型的最大超级计算机是Frontier，它拥有37888个Radeon GPU，这使得AMD潜在的超级计算机比Frontier强大30倍。"当然，事情没那么简单。即使以目前的功率水平，在创建人工智能训练集群时也有大量隐患需要考虑。人工智能训练需要较低的延迟来提供及时的结果，需要消耗大量的电能，而且必须考虑到硬件故障，即使只有几千个 GPU 也不例外。大多数服务器的利用率在20%左右，并在远程机器上处理数千个小型异步作业。然而，人工智能培训的兴起正在导致服务器结构发生重大变化。为了跟上机器学习模型和算法的发展，人工智能数据中心必须配备专门为这项工作设计的大量计算能力。人工智能训练本质上是一项大型同步作业，需要集群中的每个节点尽可能快地来回传递信息。最有趣的是，这些数据来自 AMD，而 AMD 在 2023 年的数据中心 GPU 出货量中只占不到 2%。而占据另外 98% 市场份额的 NVIDIA 则对客户要求其开发的产品守口如瓶。作为市场领导者，我们只能想象他们正在开发什么。虽然拟议中的 120 万 GPU 超级计算机可能看起来有些离谱，但诺罗德称，"非常清醒的人"正在考虑在人工智能训练集群上花费多达千亿美元。这并不令人震惊，因为在过去几年里，人工智能在科技界的发展可谓突飞猛进。看来，企业已经准备好在人工智能和机器学习上投入巨资，以保持竞争力。 ... PC版：手机版：

AMD 造出最大芯片 Instinct MI300 加速卡，包含 128GB HBM3 显存和 1460 亿晶体管

一万亿晶体管GPU将到来台积电董事长撰文解读

一万亿晶体管GPU将到来台积电董事长撰文解读值得一提的是，本文署名作者MARK LIU（刘德音）和H.-S. PHILIP WONG，其中刘德音是台积电董事长。H.-S Philip Wong则是斯坦福大学工程学院教授、台积电首席科学家。在这里，我们将此文翻译出来，以飨读者。以下为文章正文：1997 年，IBM 深蓝超级计算机击败了国际象棋世界冠军Garry Kasparov。这是超级计算机技术的突破性演示，也是对高性能计算有一天可能超越人类智能水平的首次展示。在接下来的10年里，我们开始将人工智能用于许多实际任务，例如面部识别、语言翻译以及推荐电影和商品。再过十五年，人工智能已经发展到可以“合成知识”（synthesize knowledge）的地步。生成式人工智能，如ChatGPT和Stable Diffusion，可以创作诗歌、创作艺术品、诊断疾病、编写总结报告和计算机代码，甚至可以设计与人类制造的集成电路相媲美的集成电路。人工智能成为所有人类事业的数字助手，面临着巨大的机遇。ChatGPT是人工智能如何使高性能计算的使用民主化、为社会中的每个人带来好处的一个很好的例子。所有这些奇妙的人工智能应用都归功于三个因素：高效机器学习算法的创新、训练神经网络的大量数据的可用性，以及通过半导体技术的进步实现节能计算的进步。尽管它无处不在，但对生成式人工智能革命的最后贡献却没有得到应有的认可。在过去的三十年里，人工智能的重大里程碑都是由当时领先的半导体技术实现的，没有它就不可能实现。Deep Blue 采用 0.6 微米和 0.35 微米节点芯片制造技术的混合实现；赢得 ImageNet 竞赛的深度神经网络并开启了当前机器学习时代的设备使了用 40 纳米技术打造的芯片；AlphaGo 使用 28 纳米技术征服了围棋游戏；ChatGPT 的初始版本是在采用 5 纳米技术构建的计算机上进行训练的。；ChatGPT 的最新版本由使用更先进的4 纳米技术的服务器提供支持。所涉及的计算机系统的每一层，从软件和算法到架构、电路设计和设备技术，都充当人工智能性能的乘数。但可以公平地说，基础晶体管器件技术推动了上面各层的进步。如果人工智能革命要以目前的速度继续下去，它将需要半导体行业做出更多贡献。十年内，它将需要一个 1 万亿晶体管的 GPU，也就是说，GPU 的设备数量是当今典型设备数量的 10 倍。AI 模型大小的不断增长，让人工智能训练所需的计算和内存访问在过去五年中增加了几个数量级。例如，训练GPT-3需要相当于一整天每秒超过 50 亿次的计算操作（即 5,000 petaflops /天），以及 3 万亿字节 (3 TB) 的内存容量。新的生成式人工智能应用程序所需的计算能力和内存访问都在持续快速增长。我们现在需要回答一个紧迫的问题：半导体技术如何跟上步伐？从集成器件到集成小芯片自集成电路发明以来，半导体技术一直致力于缩小特征尺寸，以便我们可以将更多晶体管塞进缩略图大小的芯片中。如今，集成度已经上升了一个层次；我们正在超越 2D 缩放进入3D 系统集成。我们现在正在将许多芯片组合成一个紧密集成、大规模互连的系统。这是半导体技术集成的范式转变。在人工智能时代，系统的能力与系统中集成的晶体管数量成正比。主要限制之一是光刻芯片制造工具被设计用于制造不超过约 800 平方毫米的 IC，即所谓的光罩限制（reticle limit）。但我们现在可以将集成系统的尺寸扩展到光刻掩模版极限之外。通过将多个芯片连接到更大的中介层（一块内置互连的硅片）上，我们可以集成一个系统，该系统包含的设备数量比单个芯片上可能包含的设备数量要多得多。例如，台积电的CoWoS（chip-on-wafer-on-substrate ）技术就可以容纳多达六个掩模版区域的计算芯片，以及十几个高带宽内存（HBM）芯片。CoWoS是台积电的硅晶圆上芯片先进封装技术，目前已在产品中得到应用。示例包括 NVIDIA Ampere 和 Hopper GPU。当中每一个都由一个 GPU 芯片和六个高带宽内存立方体组成，全部位于硅中介层上。计算 GPU 芯片的尺寸大约是芯片制造工具当前允许的尺寸。Ampere有540亿个晶体管，Hopper有800亿个。从 7 纳米技术到更密集的 4 纳米技术的转变使得在基本相同的面积上封装的晶体管数量增加了 50%。Ampere 和 Hopper 是当今大型语言模型 ( LLM ) 训练的主力。训练 ChatGPT 需要数万个这样的处理器。HBM 是对 AI 日益重要的另一项关键半导体技术的一个例子：通过将芯片堆叠在一起来集成系统的能力，我们在台积电称之为SoIC (system-on-integrated-chips) 。HBM 由控制逻辑 IC顶部的一堆垂直互连的 DRAM 芯片组成。它使用称为硅通孔 (TSV) 的垂直互连来让信号通过每个芯片和焊料凸点以形成存储芯片之间的连接。如今，高性能 GPU广泛使用 HBM 。展望未来，3D SoIC 技术可以为当今的传统 HBM 技术提供“无凸块替代方案”（bumpless alternative），在堆叠芯片之间提供更密集的垂直互连。最近的进展表明，HBM 测试结构采用混合键合技术堆叠了 12 层芯片，这种铜对铜连接的密度高于焊料凸块所能提供的密度。该存储系统在低温下粘合在较大的基础逻辑芯片之上，总厚度仅为 600 µm。对于由大量运行大型人工智能模型的芯片组成的高性能计算系统，高速有线通信可能会很快限制计算速度。如今，光学互连已被用于连接数据中心的服务器机架。我们很快就会需要基于硅光子学的光学接口，并与 GPU 和 CPU 封装在一起。这将允许扩大能源效率和面积效率的带宽，以实现直接的光学 GPU 到 GPU 通信，这样数百台服务器就可以充当具有统一内存的单个巨型 GPU。由于人工智能应用的需求，硅光子将成为半导体行业最重要的使能技术之一。迈向万亿晶体管 GPU如前所述，用于 AI 训练的典型 GPU 芯片已经达到了标线区域极限（reticle field limit）。他们的晶体管数量约为1000亿个。晶体管数量增加趋势的持续将需要多个芯片通过 2.5D 或 3D 集成互连来执行计算。通过 CoWoS 或 SoIC 以及相关的先进封装技术集成多个芯片，可以使每个系统的晶体管总数比压缩到单个芯片中的晶体管总数大得多。如AMD MI 300A 就是采用这样的技术制造的。AMD MI300A 加速处理器单元不仅利用了CoWoS，还利用了台积电的 3D 技术SoIC。MI300A结合了 GPU 和 CPU内核，旨在处理最大的人工智能工作负载。GPU为AI执行密集的矩阵乘法运算，而CPU控制整个系统的运算，高带宽存储器（HBM）统一为两者服务。采用 5 纳米技术构建的 9 个计算芯片堆叠在 4 个 6 纳米技术基础芯片之上，这些芯片专用于缓存和 I/O 流量。基础芯片和 HBM 位于硅中介层之上。处理器的计算部分由 1500 亿个晶体管组成。我们预测，十年内，多芯片 GPU 将拥有超过 1 万亿个晶体管。我们需要在 3D 堆栈中将所有这些小芯片连接在一起，但幸运的是，业界已经能够快速缩小垂直互连的间距，从而增加连接密度。而且还有足够的空间容纳更多。我们认为互连密度没有理由不能增长一个数量级，甚至更高。GPU 的节能性能趋势那么，所有这些创新的硬件技术如何提高系统的性能呢？如果我们观察一个称为节能性能的指标的稳步改进，我们就可以看到服务器 GPU 中已经存在的趋势。EEP 是系统能源效率和速度（the energy efficiency and speed of a system）的综合衡量标准。过去 15 年来，半导体行业的能效性能每两年就提高了三倍左右。我们相信这一趋势将以历史速度持续下去。它将受到多方面创新的推动，包括新材料、器件和集成技术、极紫外（EUV）光刻、电路设计、系统架构设计以及所有这些技术元素的共同优化等。特别是，EEP 的增加将通过我们在此讨论的... PC版：手机版：

1000+亿晶体管怪物 Intel GPU Max诞生一年半就被放弃

1000+亿晶体管怪物 Intel GPU Max诞生一年半就被放弃据最新曝料，Intel已经告知合作伙伴，GPU Max系列将逐步停产退市，Intel AI加速器的重点将放在Guadi 2/3系列，还有明年的第二代GPU Max Falcon Shores。Ponte Vecchio GPU Max当年是Raja Koduri力推的项目，采用了5种不同制造工艺、47个不同模块，晶体管数量超过1000亿个，配备最多128个Xe-HPC高性能计算核心、128个光追核心、64MB一级缓存、108MB二级缓存、128GB HBM高带宽内存，满血功耗600W。Gaudi 3则是独立的AI加速器，不久前刚刚发布，升级台积电5nm工艺，配备了8个矩阵引擎、64个张量核心、96MB SRAM缓存、1024-bit 128GB HBM2E内存，满血功耗达900W。Intel声称，它相比上代拥有2倍的FP8 AI算力、4倍的BF16 AI算力、2倍的网络带宽、1.5倍的内存带宽，而对比NVIDIA H100 LLM推理性能领先50％、训练时间快40％。针对中国市场，Gaudi 3将提供特殊版本，功耗最高限制在450W。Falcon Shores最初规划融合CPU、GPU，就像AMD Instinct MI300A，但后来改为纯GPU方案，融合设计则后续再说。 ... PC版：手机版：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人