为什么英伟达、AWS、阿里都喜欢ARM的服务器CPU？

为什么英伟达、AWS、阿里都喜欢ARM的服务器CPU？“答案非常简单，通过和Arm合作，他们能够根据自己的用例和基础设施来打造并优化解决方案。”Arm高级副总裁兼基础设施事业部总经理MohamedAwad在2023ArmTechSymposia年度技术大会上表示。与超大规模云服务商同样喜欢Arm服务器CPU可定制化特性的还有最重要的AI芯片提供商之一——英伟达。在英伟达强大的GH200超级芯片中，包含了72颗ArmNeoverse核心，加上英伟达的GPU，GH200的AI性能较基于x86架构的系统可提升10倍。为了满足更多客户在基础设施建设中的定制化需求，Arm还有两个重要举措。为什么首选ArmNeoverseCPU？GH200GraceHopper超级芯片平台是英伟达今年5月发布的产品，专为处理海量的生成式AI任务而设计。拥有256个GH200超级芯片的NVIDIADGXGH200超级计算机，其AI性能提升到了惊人的Exaflop（每秒一百万万亿次次算）级别。如此强大的AI性能，关键在于系统架构的变革。基础设施领域的传统系统架构传统的服务器系统架构，内存通过PCIe，连接一个通用现成的CPU（也就是HostCPU），负责管理多个加速器。“这种传统架构是过去市场上唯一可用的架构。”MohamedAwad指出，“这个架构的问题在于，通用现成的CPU以及加速器之间的接口直接限制了产品最终的性能水平。因为所有的加速器都必须通过这个通用现成的CPU访问额外的内存，无法达到内存的一致性，加速器的性能无法被充分利用，也就无法很好地支持生成式AI的需求。”面向新的应用需求，基础设施领域出现了现代化的系统架构GH200超级芯片改变了传统架构，通过NVLink，让每一个CPU都单独和一个加速器相连，实现较强的内存一致性。其中的关键点之一就是可客制化的CPU，为此，借助这样的架构，英伟达能够充分发挥GPU的效率，根据实际场景和用例实现了性能的最大化。“只有了解最终用例，并且根据使用场景针对性地设计CPU，才能获得更好的效率，达到产品最佳的表现性能。”MohamedAwad进一步表示，“英伟达携手Arm，借助了Arm技术带来的灵活性，设计出他们所需要的芯片以进一步优化系统，同时充分利用Arm强大的软件生态系统。”接下来的问题是，英伟达提出的这种架构会成为生成式AI时代的主流吗？“现在判断一个CPU对一个GPU作为加速器是不是未来的主趋势，或唯一趋势，仍为时尚早。”MohamedAwad对雷峰网表示，“我们正处于计算加速的时代，在未来的架构当中，不管通过什么方式耦合，任何的通用CPU旁边都一定会有一个加速器。Arm的独特之处在于，能够帮助合作伙伴从头开始、根据所需构建定制化的CPU，做好CPU和加速器之间的连接。”由于x86提供的是标准的CPU芯片，所以GH200超级芯片平台中CPU最佳的选择只有ArmCPU，这也是ArmNeoverse受到欢迎的关键。也就是说，标准化的CPU不能满足基础设施的定制化需求，可定制化成了Arm在服务器市场的杀手锏。可定制化，Arm在服务器市场的“杀手锏”今年八月，Arm推出了ArmNeoverse计算子系统(CSS)，促使Arm生态系统通过更低的成本、更少的风险以及更短的时间，打造出专用芯片。ArmCSS的第一代产品ArmNeoverseCSSN2集成了NeoverseN2平台，并通过验证配置且优化了功耗、性能与面积(PPA)。“通过NeoverseCSS能够帮助我们的合作伙伴进一步降低投资，加速整个生态系统对我们解决方案的可访问性，同时加速合作伙伴产品的上市时间。”MohamedAwad表示。雷峰网(公众号：雷峰网)了解到，有Arm的客户通过使用NeoverseCSS，节省了长达80人/年的工程师时间。还有客户用了NeoverseCSS，项目从概念到流片仅用了13个月。微软近期发布的Cobalt100CPU，也是基于NeoverseCSS。“ArmNeoverse在中国市场，特别是基础设施领域，有很多客户，过去三、四年发展也非常强劲。”Arm中国区业务全球副总裁邹挺说，“Arm也积极参与数据中心、云计算等本土的生态、开源软件社区，包括龙蜥社区等，帮助这些社区能更好地融入Arm全球生态系统中。”MohamedAwad也强调，中国是Arm非常重要的市场之一，中国合作伙伴基于Arm架构芯片的总出货量已累计达300亿颗，Arm在中国有近400家技术授权客户，这个数字每个月还在不断攀升。Arm全球的生态也是满足客户差异化需求的关键所在，在NeoverseCSS的基础之上，Arm推出了全面设计(ArmTotalDesign)，进一步结合生态系统的力量，简化定制芯片的开发流程，并且让交付变得更加容易、便捷。Arm全面设计的推出，让ASIC设计公司可以快速启动设计项目，并随时可将其设计方案提供给所需的客户；IP供应商可以针对NeoverseCSS，进行预先集成、预先验证和预先优化高级IP；EDA合作伙伴可以无缝支持最先进的工具和流程，简化SoC设计；商业固件解决方案可早于芯片流片之前便开始开发；与此同时，NeoverseCSS的设计将经过专门优化，充分发挥领先的工艺节点的优势。显然，在基础设施追求差异化的时代，ArmNeoverseCSS和Arm全面设计是当下满足差异化需求的最佳选择。还要注意到，Arm已经转型为一家计算平台公司，如今Arm的全面计算解决方案(ArmTotalComputeSolutions)、ArmNeoverse平台、ArmCorstone以及SOAFEE等计算平台都已经被广泛应用于移动、基础设施、物联网以及汽车等领域。...PC版：https://www.cnbeta.com.tw/articles/soft/1401459.htm手机版：https://m.cnbeta.com.tw/view/1401459.htm

在Telegram中查看

相关推荐

Hot Chips 34：摆脱x86束缚英伟达详解Grace服务器CPU设计

HotChips34：摆脱x86束缚英伟达详解Grace服务器CPU设计在HotChips大会期间，英伟达详细介绍了该公司的GraceCPU设计。作为一种经典意义上的中央处理器，其旨在取代英特尔至强（Xeon）/AMD霄龙（EPYC）竞品，以在预先构建的高性能计算（HPC）服务器中扮演串行处理的角色——因为每台服务器的六张GPU加速卡需要通过CPU进行互连。（viaWCCFTech）据悉，该公司不仅研究了CPU层面的I/O与机器架构的瓶颈，还意识到了其计算服务器需要专门为这样的应用场景而定制中央处理器。得益于针对NVIDIAAPI的高度架构优化，GraceCPU就此应运而生。作为该公司首款服务器CPU产品，其效用可与Intel/AMD竞品一较高下。作为一款单芯片，其采用了台积电N4（4nmEUV）工艺制造，且英伟达将带有一两颗GraceCPU+一颗H100的板子称作Superchip或GraceHopper超级芯片。可知每个GraceCPU包含了一个900GB/s的交换结构，以及一个带宽达到PCIe5.0x16七倍的CoherentInterface接口。后者也是将相伴的H100或节点上相邻的超级芯片、与一致的内存访问连接起来的关键。GraceCPU的串行处理能力，由72核心的ARMv964-bitCPU提供，而一枚超级芯片则包含了144个核心。主内存采用了LPDDR5x接口（支持ECC），每个‘插槽’的带宽高达1TB/s——媲美超过24个通道的DDR5方案。此外具有68条PCIe5.0扮演了关键的串行IO接口角色，其主要被用于连接NVMe存储设备，且芯片的标称峰值TDP功耗达到了500W。随着GraceCPU的亮相，英伟达展示了该公司为企业和HPC应用场景设计大型多核处理器方面的强大工程实力。TechPowerUp指出：鉴于ARM已大幅缩小与x86-64平台的性能、效率和IPC表现差距，我们也不难理解绿厂为何没能拿到蓝厂的x86许可，原本它有望交付出与英特尔相媲美的企业级处理器。即便如此，英伟达的DGX计算节点、以及后续的更多预构建工作站/服务器（涵盖众多应用场景），势必将逐渐摆脱传统x86CPU、并用Grace及其继任者取而代之。相关文章:NVIDIA推出用于HPC和AI场景的Grace和GraceHopper超算芯片NVIDIAGrace处理器详情公布：功耗500W、性能不及Zen2...PC版：https://www.cnbeta.com/articles/soft/1308515.htm手机版：https://m.cnbeta.com/view/1308515.htm

Arm 发布基于 3nm 芯片工艺的新 CPU、GPU IP

Arm发布基于3nm芯片工艺的新CPU、GPUIP芯片设计公司Arm今日发布了针对旗舰智能手机的新一代CPU和GPUIP（设计方案）：Cortex-X925CPU、ImmortalisG925GPU。新产品均使用了其最新的Armv9架构，基于台积电3nm制程工艺方案，针对终端设备在AI应用上的性能进行设计优化。据官方介绍，新的CPU与GPUIP是目前旗下同类产品中性能最强的一代，新CPU性能提升36%；新GPU则将图形计算性能提升37%。两款产品最终通过Arm最新推出的终端计算子系统解决方案交付给客户。

英伟达将生产基于 Arm 的 PC 芯片，向英特尔发起重大新挑战

英伟达将生产基于Arm的PC芯片，向英特尔发起重大新挑战英伟达主导着人工智能计算芯片的市场。现在它要来挑战英特尔在个人电脑领域长期的主导地位。两位知情人士告诉路透社,英伟达已经悄悄开始设计可以运行微软Windows操作系统并使用Arm公司技术的中央处理器(CPU)。据两位知情人士透露，AMD公司也计划使用Arm技术为PC制造芯片。一位知情人士表示，英伟达和AMD最早可能会在2025年就开始销售PC芯片。英伟达和AMD将加入高通行列，高通自2016年开始就在为笔记本电脑制造基于Arm架构的芯片。——

联发科或将与英伟达开发 Arm 架构 AI PC 处理器

联发科或将与英伟达开发Arm架构AIPC处理器AIPC市场成长性看俏，联发科加足马力抢进，传出将携手英伟达开发Arm架构的AIPC处理器，预计第三季度完成设计定案（tapeout），第四季度进入验证，该款新芯片要价高达300美元。英伟达CEO黄仁勋将于6月2日台北国际电脑展开展前来台，有消息传出，联发科将在6月揭露与英伟达合作的AIPC处理器细节。（台湾经济日报）

英伟达计划推出采用 ARM 和 Blackwell 内核的 AI PC 芯片

英伟达计划推出采用ARM和Blackwell内核的AIPC芯片业内有传言称，英伟达正在准备推出一款将下一代Arm内核与其BlackwellGPU架构相结合的芯片，WindowsonARM领域的竞争可能会愈演愈烈。高通一直是推动基于Arm的Windows系统的主要芯片制造商。但高通与微软独占协议将于今年到期，微软将会向联发科等其他厂商开放授权。据悉，英伟达正在准备一款片上系统，将Arm的Cortex-X5核心设计与基于其最近推出的Blackwell架构的GPU相结合。Arm没有回应置评请求，英伟达称“没有什么可宣布的”。——

加速CPU设计，Arm再出新招

加速CPU设计，Arm再出新招在本周的HotChips2023上，ArmLtd在宣布（再次）上市后展示了其“Demeter”V2内核，该公司还推出了“Genesis”N2计算子系统，简称CSS智能包。（我们将单独深入探讨V2核心。）Genesis的这一努力有可能比过去更快地让ArmCPU进入该领域。多年来，Arm一直在朝着将成熟的CPU组装在一起以供客户修改并直接推向市场的目标迈进。早在2000年代末，当Arm接管智能手机时，服务器制造商正在考虑Arm架构如何改进基本上处于垄断地位的X86架构，服务器芯片设计人员从Arm架构许可开始，并开始使用它。这是一种非常昂贵且耗时的创建服务器芯片的方法，尽管比从定制ISA开始要好，但由于大量的软件移植工作，世界无法容忍定制ISA。在Broadcom、高通、AMD和三星等老牌半导体巨头以及Calxeda和AppliedMicro等初创公司多次尝试Arm服务器芯片失败后，以及Cavium凭借其ThunderX和ThunderX2CPU取得了一些有限的成功后，Arm决定将其推出。Neoverse的工作于2018年10月推出，它不仅提供了服务器芯片核心的路线图，还提供了参考架构，用于将这些核心转变为适当的CPU，并混合了其他Arm知识产权（例如片上芯片）网状互连和第三方内存、PCI-Express控制器和以太网控制器。这些Neoverse设计是针对台积电的特定工艺节点量身定制的，这使得服务器芯片制造商更容易更快地采取行动。我们从来不确定Neoverse是否比架构许可证更便宜或更贵。你可以用多种不同的方式来论证它。Neoverse完成了更多的工作，但与Arm架构许可证相比，自由度有限。也许更重要的是，正如我们所说，如果Arm不能比开源的RISC-VISA和设计更便宜，那么它可以更快。由于客户不耐烦，Arm无论如何都必须更快。以下是2022年9月公布的最新Neoverse路线图：最初，只有一个内核系列-N系列-但Arm将其分为三个内核系列和三个相应的平台，每个平台都针对系统市场的不同部分。N系列核心和平台针对主流服务器工作负载，其中每瓦性能驱动设计，而V系列具有更重的矢量处理，针对计算密集型工作负载，例如AI训练和推理以及HPC模拟和建模。E系列旨在实现吞吐量计算，并且不仅针对更高的每瓦性能进行了优化，而且还以比N系列更低的热封装实现了最大吞吐量。现在不仅有三个系列的内核和平台，还有两种方法：DIY和CSS。所以现在新的Neoverse路线图看起来像是硬塞进去了CSS选项：我们已经为我们所知的每个核心和平台添加了代号。Neoverse的努力让芯片公司在设计上取得了优势，而且许多公司已经做到了。富士通的A64FX芯片比当前任何供应商都早得多（比Neoverse的努力早了很多年），并且在许多方面都可以被视为“Kronos”V0实现，因为它发明了可扩展矢量扩展并将其带入了-IntelAVX-512的位向量极限。亚马逊在其Graviton1芯片中使用了原始Neoverse堆栈中的“Maya”CortexA72，在其Graviton2芯片中使用了“Ares”N1，在其Graviton3芯片中使用了“Zeus”V1。十多年前，NVIDIA最初使用其Arm架构许可来创建“Denver”服务器处理器，但已改用“Grace”CPU芯片的V2内核现在即将上市。AmpereComputing的Altra和AltraMaxArmCPU中使用N1内核，但现在正在开发定制内核。显然，阿里巴巴已经为其倚天710处理器定制了Armv9核心，如果这是真的，那么NVIDIA的Grace并没有市场上第一个Armv9核心。印度政府正在其“Aum”A48Z处理器中使用V1内核。还有其他的，但这些是最重要的。他们都花费了大量资金来创建Arm服务器芯片。但这既关乎时间，也关乎金钱。众所周知，爱因斯坦证明了时间就是疯狂的金钱，也证明了能量就是疯狂的物质。正如Arm产品管理高级总监JeffDefilippi在HotChips上的Arm演讲之前解释的那样，随着摩尔定律的耗尽，对专用芯片的需求不断增长，芯片设计人员面临的压力也在不断增加。正如上图所示，随着晶体管尺寸的缩小，设计芯片的成本也在上升，而在7纳米节点之后，每个晶体管的制造成本也在上升，但该图没有显示这一点。Arm的CSS知识产权包旨在加快设计速度，从时间就是金钱的意义上来说，至少可以将金钱转化为节省的时间，正如爱因斯坦所证明的那样，这既是节省的金钱，也是通过早期销售获得的金钱。（我们假设CSS的成本比常规IP许可更高，因为它包含更多内容，但风险要低得多，而且成本和风险的乘积（不是总和，而是乘积，因为这些是乘法效应而不是累积效应）因此较低.)从概念上讲，CSS包如下所示：以下是它与SoC许可、IP许可和架构许可的比较：“本质上，该产品是Arm拼接在一起的多核设计，”Defilippi解释道。“这就是互连、CPU、虚拟化IP要求-我们将它们缝合在一起，进行验证，并将其作为生产就绪的RTL可交付成果交付给我们的客户。除了RTL之外，我们还提供与之相关的额外好处：我们提供实现包、平面图、实现脚本以及达到该性能所需的物理IP库以及设计所需的功耗范围。领先的技术。我们提供完整的软件参考堆栈。因此，这包括从固件、电源管理、系统管理、系统所需的运行时安全性等一切内容。我们提供参考堆栈，以确保软件开发从第一天开始，并且我们的客户有一个良好的起点。最后但并非最不重要的一点是，我们不仅包括工艺节点，还包括我们的领先技术。每年都会有一些新的、令人兴奋的事情出现。当然，现在的一个例子就是CXL内存扩展池。”现在想象一下，特别是如果您位于中国、印度、非洲，甚至位于美国或欧洲的具有成本意识的超大规模企业、云构建商或HPC中心，并且您没有大量熟悉高级服务器CPU的熟练工程师设计或正确设计和测试它们的工具，以便快速推出下一代芯片。那么CSS方法不仅可以大大加快速度，而且可以从一开始就制造出芯片。但时间很重要，以下是Arm如何计算通过CSS包与使用普通IP许可证相比节省的时间：节省80个工程师一年的时间是相当可观的，特别是在定制自由度仍然存在的情况下。问题是：与芯片制造商所做的大量工作相比，CSS设计的价值有多大？将芯片从概念变为服务器、网络设备或存储阵列需要多少成本？这比使用Intel或AMD的X86服务器或AmpereComputing的Arm芯片便宜多少？这些麻烦值得吗？嗯，随着AWS和阿里巴巴制造自己的Arm芯片，而且有传言称Google也将这样做，微软、腾讯和百度（以及阿里巴巴、Google和甲骨文）也使用AmpereComputing的AltraArm芯片，看来这是值得的。ArmCPU为他们节省了资金，并且在他们的服务器群中所占的比例越来越大。而且，他们通过自己的努力拥有更直接的控制权，并通过与安培计算的紧密合作获得更间接的控制权。当然，超大规模厂商和云构建商仍会购买大量英特尔和AMDCPU。但正如我们多次说过的那样，这将是为了支持旧版WindowsServer，有时甚至是Linux应用程序，他们会故意对基于它们的实例收取额外费用，英特尔和AMD也会对底层芯片收取额外费用。没有人在我们看到的分层上串通一气，但英特尔和AMD没有动力与Graviton和其他公司竞争。他们只是将15%、20%、25%的超大规模和云机群让给Arm，他们对无需打价格战就能获得85%、80%、75%的更大机群感到满意。“Perseus”N2核心网格的CSS实现可从24个核心扩展到64个核心，并且可以使用UCI-Express（而非CCIX）或专有互连将其中四个核心组合在一个封装中，以扩展到插槽中的256个核心。根据客户的需求提供小芯片。考虑到许多现代处理器将执行预期的HPC和...PC版：https://www.cnbeta.com.tw/articles/soft/1380973.htm手机版：https://m.cnbeta.com.tw/view/1380973.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人