AI芯片独角兽已秘密申请IPO

AI芯片独角兽已秘密申请IPO 这家创企正在创建优先股,价格比上一轮私人融资大幅折扣。此举可能会使其股票在首次公开募股前对私人投资者和参与公开上市的人更具吸引力。据此前报道,Cerebras已聘请花旗集团担任其IPO的牵头银行。根据Prime Unicorn Index共享的文件,6月初,Cerebras批准以14.66美元发行约2700万股新股。这远低于其2021年F轮融资时的27.74美元股价,该轮估值超过40亿美元。新的股票授权表明,Cerebras对自己的估值约为25亿美元。尚不清楚Cerebras是否已正式出售这些股票,或者谁将持有这些股票。该公司已累计融资7.2亿美元,估值约为42亿到50亿美元。在AI领域声名赫赫的OpenAI联合创始人兼首席执行官Sam Altman曾参与Cerebras的8000万美元D轮融资。Cerebras在官网将Altman列在其投资人列表的第一位。GPU竞不是最佳引擎?当芯片设计企业都在将晶圆分割成数百颗独立芯片时,Cerebras另辟蹊径,选择将整块晶圆做成一颗芯片。2019年8月,其首颗晶圆级芯片WSE以“世界最大芯片”的名号引爆全球科技圈,它由一整片晶圆制成,采用台积电16nm制程,在46225mm²面积上集成了40万个AI核心和1.2万亿颗晶体管。其2021年推出的二代WSE-2更进一步,采用台积电7nm制程,创下集成85万个AI核心和2.6万亿颗晶体管的新纪录,搭载WSE-2芯片的AI超算系统CS-2也同期发布。今年3月,Cerebras推出了第三代晶圆级芯片WSE-3和AI超级计算机CS-3。WSE-3采用台积电5nm制程,有90万个AI核心和4万亿颗晶体管,AI峰值算力高达每秒125千万亿次。CS-3是15U的服务器,最高功耗为23kW,可在本地或云端使用。CS-3拥有高达1.2PB的巨大存储系统,旨在训练比OpenAI GPT-4和GoogleGemini大10倍的下一代前沿模型。在CS-3上训练1万亿参数模型就像在GPU上训练10亿参数模型一样简单。Cerebras团队认为,GPU不是训练大模型的最佳引擎,因为开发者必须将模型分割成许多部分,将它们分布在数百和数千个GPU上,这意味着他们必须重写模型以跨集群工作,他们的代码将从大约600行增加到20000行。而Cerebras想解决的就是这个问题。其首席执行官Andrew Feldman曾用做西装打比方,有一位裁缝可以在一周内作出一套西装,他雇佣了隔壁也能一周做一套西装的裁缝,现在他们一周可以做出两套西装,但他们无法在三天半内做出一套西装。GPU就像无法协同工作的裁缝,至少在分子动力学的一些问题上是这样,随着连接的GPU越来越多,它们可以同时模拟更多的原子,但却无法更快地模拟相同数量的原子。而WSE以完全不同的方式扩展,芯片不受互连带宽的限,可以快速通信,就像两个裁缝完美协作、在三天半内制作出一套西装一样。与GPU不同,Cerebras晶圆级集群将计算和内存组件分离,支持轻松扩展MemoryX单元的内存容量。Cerebras为超大规模客户提供120TB和1200TB选项,而1200TB的配置能够存储有24万亿个参数的模型。单个CS-3机架可存储比10000节点GPU集群更多的模型参数,使得一台机器上可以开发和调试万亿参数模型。同样训练700亿参数大语言模型Llama 2,GPU集群需要大约1个月,而CS-3集群只用1天。产品侧,CS-3可与英伟达同台竞技今年4月,Cerebras发文比较Cerebras CS-3与英伟达B200,称CS-3和英伟达DGX B200是2024年上市的两款最令人兴奋的AI硬件新品。无论AI训练性能还是能效,CS-3都做到倍杀DGX B200。Cerebras还提供AI模型服务。其平台已经训练了各种各样的模型,从多语言大模型到医疗健康聊天机器人,帮助客户训练基础模型或者微调开源模型,而且大部分工作都是开源的。Andrew Feldman和Gary Lauterbach分别是Cerebras Systems的首席执行官和首席技术官。两人已合作超过12年,曾在2007年联合创办高带宽微服务器先驱SeaMicro,这家公司在2012年被AMD以超过3亿美元的价格收购,两人也一起加入了AMD。Andrew Feldman在AMD做了两年半的副总裁。Andrew Feldman有斯坦福大学MBA学位,多次作为公司高管完成了收购和上市。Gary Lauterbach是计算机架构大牛,曾担任SPARC Ⅲ和UltraSPARC Ⅳ微处理器的首席架构师。最后:AI竞赛升温,算力股正躺赢?AI算力繁荣正带动相关股票的飙涨。本周英伟达以超过3.3万亿美元的市值登顶“全球股王”。此前向云计算公司出售数据中心组件的Astera Labs在今年3月上市时,首日股价暴涨76%。IPO计划显示,Cerebras希望驾驭投资者对AI硬件销售的热情浪潮。这家AI芯片公司需展示它计划如何获得AI计算市场。其财务业绩暂时无法得知,该公司在12月的一篇博客文章中表示,它最近达到了“现金流收支平衡”,但未详细说明。 ... PC版: 手机版:

相关推荐

封面图片

AI芯片独角兽Cerebras已秘密申请IPO

AI芯片独角兽Cerebras已秘密申请IPO 这家创企正在创建优先股,价格比上一轮私人融资大幅折扣。此举可能会使其股票在首次公开募股前对私人投资者和参与公开上市的人更具吸引力。据此前报道,Cerebras已聘请花旗集团担任其IPO的牵头银行。根据Prime Unicorn Index共享的文件,6月初,Cerebras批准以14.66美元发行约2700万股新股。这远低于其2021年F轮融资时的27.74美元股价,该轮估值超过40亿美元。新的股票授权表明,Cerebras对自己的估值约为25亿美元。尚不清楚Cerebras是否已正式出售这些股票,或者谁将持有这些股票。该公司已累计融资7.2亿美元,估值约为42亿到50亿美元。在AI领域声名赫赫的OpenAI联合创始人兼首席执行官Sam Altman曾参与Cerebras的8000万美元D轮融资。Cerebras在官网将Altman列在其投资人列表的第一位。当芯片设计企业都在将晶圆分割成数百颗独立芯片时,Cerebras另辟蹊径,选择将整块晶圆做成一颗芯片。2019年8月,其首颗晶圆级芯片WSE以“世界最大芯片”的名号引爆全球科技圈,它由一整片晶圆制成,采用台积电16nm制程,在46225mm²面积上集成了40万个AI核心和1.2万亿颗晶体管。其2021年推出的二代WSE-2更进一步,采用台积电7nm制程,创下集成85万个AI核心和2.6万亿颗晶体管的新纪录,搭载WSE-2芯片的AI超算系统CS-2也同期发布。今年3月,Cerebras推出了第三代晶圆级芯片WSE-3和AI超级计算机CS-3。WSE-3采用台积电5nm制程,有90万个AI核心和4万亿颗晶体管,AI峰值算力高达每秒125千万亿次。CS-3是15U的服务器,最高功耗为23kW,可在本地或云端使用。CS-3拥有高达1.2PB的巨大存储系统,旨在训练比OpenAI GPT-4和GoogleGemini大10倍的下一代前沿模型。在CS-3上训练1万亿参数模型就像在GPU上训练10亿参数模型一样简单。Cerebras团队认为,GPU不是训练大模型的最佳引擎,因为开发者必须将模型分割成许多部分,将它们分布在数百和数千个GPU上,这意味着他们必须重写模型以跨集群工作,他们的代码将从大约600行增加到20000行。而Cerebras想解决的就是这个问题。其首席执行官Andrew Feldman曾用做西装打比方,有一位裁缝可以在一周内作出一套西装,他雇佣了隔壁也能一周做一套西装的裁缝,现在他们一周可以做出两套西装,但他们无法在三天半内做出一套西装。GPU就像无法协同工作的裁缝,至少在分子动力学的一些问题上是这样,随着连接的GPU越来越多,它们可以同时模拟更多的原子,但却无法更快地模拟相同数量的原子。而WSE以完全不同的方式扩展,芯片不受互连带宽的限制,可以快速通信,就像两个裁缝完美协作、在三天半内制作出一套西装一样。与GPU不同,Cerebras晶圆级集群将计算和内存组件分离,支持轻松扩展MemoryX单元的内存容量。Cerebras为超大规模客户提供120TB和1200TB选项,而1200TB的配置能够存储有24万亿个参数的模型。单个CS-3机架可存储比10000节点GPU集群更多的模型参数,使得一台机器上可以开发和调试万亿参数模型。同样训练700亿参数大语言模型Llama 2,GPU集群需要大约1个月,而CS-3集群只用1天。今年4月,Cerebras发文比较Cerebras CS-3与英伟达B200,称CS-3和英伟达DGX B200是2024年上市的两款最令人兴奋的AI硬件新品。无论AI训练性能还是能效,CS-3都做到倍杀DGX B200。Cerebras还提供AI模型服务。其平台已经训练了各种各样的模型,从多语言大模型到医疗健康聊天机器人,帮助客户训练基础模型或者微调开源模型,而且大部分工作都是开源的。Andrew Feldman和Gary Lauterbach分别是Cerebras Systems的首席执行官和首席技术官。两人已合作超过12年,曾在2007年联合创办高带宽微服务器先驱SeaMicro,这家公司在2012年被AMD以超过3亿美元的价格收购,两人也一起加入了AMD。Andrew Feldman在AMD做了两年半的副总裁。▲Cerebras Systems首席执行官Andrew Feldman(左)和首席技术官Gary Lauterbach(右)Andrew Feldman有斯坦福大学MBA学位,多次作为公司高管完成了收购和上市。Gary Lauterbach是计算机架构大牛,曾担任SPARC Ⅲ和UltraSPARC Ⅳ微处理器的首席架构师。结语:AI竞赛升温,算力股躺赢AI算力繁荣正带动相关股票的飙涨。本周英伟达以超过3.3万亿美元的市值登顶“全球股王”。此前向云计算公司出售数据中心组件的Astera Labs在今年3月上市时,首日股价暴涨76%。IPO计划显示,Cerebras希望驾驭投资者对AI硬件销售的热情浪潮。这家AI芯片公司需展示它计划如何获得AI计算市场。其财务业绩暂时无法得知,该公司在12月的一篇博客文章中表示,它最近达到了“现金流收支平衡”,但未详细说明。 ... PC版: 手机版:

封面图片

你见过晶圆大小的芯片吗?这家AI独角兽推新品对标英伟达H100

你见过晶圆大小的芯片吗?这家AI独角兽推新品对标英伟达H100 据悉,该款芯片将4万亿个晶体管组织在90万个核心中。该芯片针对人工智能训练的工作负载进行了优化。Cerebras公司声称,配备了2048个WSE-3芯片的服务器集群可以在一天内训练出市场上最先进的开源语言模型之一Llama 2 70B。替代英伟达Cerebras是一家美国人工智能芯片的独角兽企业,它背后的投资团队也都实力够硬。最新一笔融资是在2021年由Alpha Wave Venture和阿布扎比增长基金领投,融资金额2.5亿美元,其他的投资人士包括:OpenAI创始人山姆·奥特曼、AMD前首席技术官Fred Weber等。2021年,Cerebras公司首次亮相了WSE-2芯片,集成了1.2万亿个晶体管、40万个核心。在同行都在将晶圆分割成数百颗独立芯片之时,Cerebras公司则是选择将整个晶圆做成一颗芯片。而最新发布的WSE-3则是从WSE-2改进而来的。它较WES-2又增加了1.4万亿个晶体管,并拥有90万个计算核心、44GB的板载SRAM内存。强化部分是通过从7纳米制造工艺更新到5纳米节点所实现的。据该公司称,WSE-3在人工智能工作负载方面的性能是其前身的两倍,它的峰值速度可以达到每秒125千万亿次计算。Cerebras还将WSE-3定位为比英伟达显卡更为高效的替代品。根据Cerebras官网的数据,该芯片4万亿个晶体管数完全碾压了英伟达H100 GPU的800亿个;核处理器数是单个英伟达H100 GPU的52倍;片上存储量是H100的880倍。WSE-3芯片为Cerebras公司的CS-3超级计算机提供动力,CS-3可用于训练具有多达24万亿个参数的人工智能模型,对比由WSE-2和其他常规人工智能处理器驱动的超级计算机,这一数据是个重大飞跃。加速数据传输虽说将晶圆大小的芯片和单个英伟达H100 GPU相比较并不公平,不过若从数据传输速度的角度来看,不将晶圆切割成单独的芯片确实有它的优势。根据Cerebras公司的说法,使用单一的大型处理器可以提高人工智能训练工作流程的效率。当WSE-3上的4万亿个晶体管在晶圆上互连时,将会大大加快生成式人工智能的处理时间。人工智能模型就是相对简单的代码片段的集合,这些代码片段被称为人工神经元。这些神经元被重新组织成集合(称为层)。当人工智能模型接收到一个新任务时,它的每一层都会执行任务的一部分,然后将其结果与其他层生成的数据结合起来。由于神经网络太大,无法在单个GPU上运行,因此,这些层需要分布在数百个以上的GPU上,通过频繁地交换数据来协调它们的工作。基于神经网络架构的具体特性,只有获得前一层的全部或部分激活数据,才能在开始分析数据,并提供给下一层。也就意味着,如果这两层的数据运行在不同的GPU上,信息在它们之间传输可能需要很长时间。芯片之间的物理距离越大,数据从一个GPU转移到另一个GPU所需的时间就越长,这会减慢处理速度。而Cerebras的WSE-3有望缩短这一处理时间。如果一个人工智能模型的所有层都在一个处理器上运行,那么数据只需要从芯片的一个角落传输到另一个角落,而不是在两个显卡之间传输。减少数据必须覆盖的距离可以减少传输时间,从而加快处理速度。该公司指出,在如今的服务器集群中,数以万计的GPU被用来处理一个问题,而若是将芯片数量减少50倍以上,就可以降低互连成本以及功效,同时或许也可以解决消耗大量电力的问题。Cerebras联合创始人兼CEO Andrew Feldman称,“当我们八年前开始这一旅程时,每个人都说晶圆级处理器是白日梦…WSE-3是世界上最快的人工智能芯片,专为最新的尖端人工智能工作而打造。”对于新推出地WSE-3芯片,分析公司Intersect360 Research首席执行官Addison Snell认为,Cerebras的WSE-3人工智能芯片和CS-3系统可以使部分高性能计算用户受益。他指出,“该芯片在相同的成本和功率下将性能提高了一倍。”不过,Tirias Research创始人Jim McGregor则较为现实地指出,尽管这家初创公司增长迅速,并且有能力提高其平台的可扩展性,但与占主导地位的人工智能供应商英伟达相比,它仍然是一家规模较小的公司。他还指出,Cerebras专注于人工智能的一个方面,那就是训练,不过训练只是大型语言模型市场的一个利基市场。而英伟达提供了许多其他方面产品。 ... PC版: 手机版:

封面图片

世界第一AI芯片“WSE-3”升级4万亿晶体管、90万核心

世界第一AI芯片“WSE-3”升级4万亿晶体管、90万核心 2021年的第二代WSE-2升级台积电7nm工艺,面积不变还是46225平方毫米,晶体管增至2.6万亿个,核心数增至85万个,缓存扩至40GB,内存带宽20PB/s,互连带宽220Pb/s。如今的第三代WSE-3再次升级为台积电5nm工艺,面积没说但应该差不多,毕竟需要一块晶圆才能造出一颗芯片,不可能再大太多了。晶体管数量继续增加达到惊人的4万亿个,AI核心数量进一步增加到90万个,缓存容量达到44GB,外部搭配内存容量可选1.5TB、12TB、1200TB。乍一看,核心数量、缓存容量增加的不多,但性能实现了飞跃,峰值AI算力高达125PFlops,也就是每秒12.5亿亿次浮点计算,堪比顶级超算。它可以训练相当于GPT-4、Gemini十几倍的下一代AI大模型,能在单一逻辑内存空间内存储24万亿参数,无需分区或者重构。用它来训练1万亿参数大模型的速度,相当于用GPU训练10亿参数。四颗并联,它能在一天之内完成700亿参数的调教,而且支持最多2048路互连,一天就可以完成Llama 700亿参数的训练。WSE-3的具体功耗、价格没公布,根据上代的情况看应该在200多万美元。 ... PC版: 手机版:

封面图片

【世界第一AI芯片WSE-3面世,一天就可以完成Llama 700亿参数的训练】

【世界第一AI芯片WSE-3面世,一天就可以完成Llama 700亿参数的训练】 #美国 加州半导体公司Cerebras Systems发布第三代晶圆级AI加速芯片“WSE-3”(Wafer Scale Engine 3),规格参数更加疯狂,而且在功耗、价格不变的前提下性能翻了一番。WSE-3再次升级为台积电5nm工艺,面积没说但应该差不多,然而,晶体管数量继续增加达到惊人的4万亿个,AI核心数量进一步增加到90万个,缓存容量达到44GB,外部搭配内存容量可选1.5TB、12TB、1200TB。核心数量、缓存容量增加的不多,但性能实现了飞跃,峰值AI算力高达125PFlops,也就是每秒12.5亿亿次浮点计算,堪比顶级超算。它可以训练相当于GPT-4、Gemini十几倍的下一代AI大模型,能在单一逻辑内存空间内存储24万亿参数,无需分区或者重构。四颗并联,它能在一天之内完成700亿参数的调教,而且支持最多2048路互连,一天就可以完成Llama 700亿参数的训练。WSE-3的具体功耗、价格没公布,根据上代的情况看应该在200多万美元。

封面图片

OpenAI Altman的野心:筹资七万亿美元直指AI“芯片痛点”

OpenAI Altman的野心:筹资七万亿美元直指AI“芯片痛点” 其中一位知情人士表示,该项目可能需要筹集多达5万亿至7万亿美元的资金。这一规模甚至令全球半导体产业规模相形见绌,去年全球芯片销售额为5270亿美元,预计到2030年将增至每年1万亿美元。根据行业组织SEMI的估算,去年全球半导体制造设备销售额为1000亿美元。从企业筹资标准来看,Altman所讨论的金额也是非常巨大的,较一些主要经济体的国债、大型主权财富基金还要大,去年美国企业债务发行总额约为1.44万亿美元。知情人士指出,Altman建议OpenAI、各种投资者、芯片制造商和电力供应商建立合作关系,他们将共同出资建立芯片代工厂,然后由现有的芯片制造商运营,OpenAI将成为新工厂的重要客户。在人工智能需求激增的背景下,人们对芯片供应和运行芯片所需电力的担忧与日俱增,AI芯片领导者英伟达的芯片一直供不应求。Altman的其目就是解决制约OpenAI发展的各类因素,包括训练ChatGPT大模型的AI芯片的稀缺性。Altman经常抱怨称,没有足够的GPU芯片,支持OpenAI对通用人工智能的追求。 ... PC版: 手机版:

封面图片

最强AI芯片WSE-3发布:4万亿个晶体管,90万核,125 PetaFLOPS算力

最强AI芯片WSE-3发布:4万亿个晶体管,90万核,125 PetaFLOPS算力 基于 5nm 的4万亿晶体管WSE-3专为训练业界最大的 AI 模型而构建,为Cerebras CS-3 AI 超级计算机提供动力,通过900,000 个 AI优化计算核心提供 125 petaflops 的峰值 AI性能。一颗惊人的芯片,约等于62颗H100Cerebras Systems表示,这款新器件使用台积电的5nm工艺打造,包含 4 万亿个晶体管;90万个AI核心;44GB 片上 SRAM;;外部存储器为1.5TB、12TB或1.2PB;峰值性能为 125 FP16 PetaFLOPS。Ceberas 的 WSE-3 将用于训练一些业界最大的人工智能模型,能训练多达 24 万亿个参数的 AI 模型;其打造的集群规模高达 2048 个 CS-3 系统。值得一提的是,当 Cerebras 提到内存时,他们谈论的更多是 SRAM,而不是片外 HBM3E 或 DDR5。内存与核心一起分布,目的是使数据和计算尽可能接近。为了展示这颗新芯片的规模,Cerebras 还将其与英伟达的H100进行了对比。除了将这款巨型芯片推向市场之外,Cerebras 取得成功的原因之一是它所做的事情与 NVIDIA 不同。NVIDIA、AMD、英特尔等公司采用大型台积电晶圆并将其切成更小的部分来制造芯片,而 Cerebras 将晶圆保留在一起。在当今的集群中,可能有数以万计的 GPU 或 AI 加速器来处理一个问题,将芯片数量减少 50 倍以上可以降低互连和网络成本以及功耗。在具有 Infiniband、以太网、PCIe 和 NVLink 交换机的 NVIDIA GPU 集群中,大量的电力和成本花费在重新链接芯片上。Cerebras 通过将整个芯片保持在一起来解决这个问题。凭借 WSE-3,Cerebras 可以继续生产世界上最大的单芯片。它呈正方形,边长为 21.5 厘米,几乎使用整个 300 毫米硅片来制造一个芯片。你可以在WSE芯片的相继推出中看到摩尔定律的作用。第一个于 2019 年首次亮相,采用台积电的 16 纳米技术制造。对于 2021 年推出的 WSE-2,Cerebras 转而采用台积电的 7 纳米工艺。WSE-3 采用这家代工巨头的 5 纳米技术制造。自第一个巨型芯片问世以来,晶体管的数量增加了两倍多。与此同时,它们的用途也发生了变化。例如,芯片上的人工智能核心数量已显着趋于平稳,内存量和内部带宽也是如此。尽管如此,每秒浮点运算(flops)方面的性能改进已经超过了所有其他指标。需要注意的一点是,Cerebras 使用片上内存,而不是 NVIDIA 的封装内存,因此我们不会以 H100 上的 80GB HBM3 为例。最新的 Cerebras 软件框架为PyTorch 2.0 和最新的 AI 模型和技术(如多模态模型、视觉转换器、专家混合和扩散)提供原生支持。Cerebras 仍然是唯一为动态和非结构化稀疏性提供本机硬件加速的平台,将训练速度提高了8 倍。您可能已经看到 Cerebras 表示其平台比 NVIDIA 的平台更易于使用。造成这种情况的一个重要原因是 Cerebras 存储权重和激活的方式,并且它不必扩展到系统中的多个 GPU,然后扩展到集群中的多个 GPU 服务器。除了代码更改很容易之外,Cerebras 表示它的训练速度比 Meta GPU 集群更快。当然,目前这似乎是理论上的 Cerebras CS-3 集群,因为我们没有听说有任何 2048 个 CS-3 集群启动并运行,而 Meta 已经有了 AI GPU 集群。总体而言,这里发生了很多事情,但我们知道的一件事是,如今越来越多的人使用基于 NVIDIA 的集群。Cerebras Systems进一步指出,由于每个组件都针对 AI 工作进行了优化,CS-3 比任何其他系统都能以更小的空间和更低的功耗提供更高的计算性能。虽然 GPU 功耗逐代翻倍,但 CS-3 的性能翻倍,功耗却保持不变。CS-3具有卓越的易用性,与适用于大模型的GPU 相比, CS-3需要的代码减少 97% ,并且能够在纯数据并行模式下训练从 1B 到24T 参数的模型。GPT -3大小的模型的标准实现在 Cerebras 上只需要 565 行代码这同样也是行业记录。一个庞大的系统,冷却超乎想象Cerebras CS-3 是第三代 Wafer Scale 系统。其顶部具有 MTP/MPO 光纤连接,以及用于冷却的电源、风扇和冗余泵。Cerebras Systems在新闻稿中指出,如上所述,CS-3拥有高达 1.2 PB的巨大内存系统,旨在训练比 GPT-4 和 Gemini 大 10 倍的下一代前沿模型。24 万亿参数模型可以存储在单个逻辑内存空间中,无需分区或重构,从而极大地简化了训练工作流程并提高了开发人员的工作效率。在 CS-3 上训练一万亿参数模型就像在 GPU 上训练十亿参数模型一样简单。CS-3专为满足企业和超大规模需求而打造。紧凑的四系统配置可以在一天内微调 70B 模型,而使用 2048 个系统进行全面调整,Llama 70B 可以在一天内从头开始训练这对于生成 AI 来说是前所未有的壮举。Cerebras 需要为巨型芯片提供电力、数据和冷却,同时还要管理相对较大区域的热膨胀等问题。这是该公司的另一项重大工程胜利。芯片内部采用液体冷却,热量可以通过风扇或设施水排出。该系统及其新芯片在相同的功耗和价格下实现了大约 2 倍的性能飞跃。从第一代的 16 纳米到如今的 5 纳米,Cerebras 从每个工艺步骤中都获得了巨大的优势。与具有八个 NVIDIA H100 GPU 以及内部 NVSwitch 和 PCIe 交换机的 NVIDIA DGX H100 系统相比,它只是一个更大的构建块。这是带有 Supermicro 1U 服务器的 CS-3。这是另一个使用 Supermciro 1U 服务器拍摄的 Cerebras 集群。Cerebras 通常使用 AMD EPYC 来获得更高的核心数量,这可能是因为 Cerebras 团队的很多成员来自被 AMD 收购的 SeaMicro。我们在这次迭代中注意到的一点是,Cerebras 也有 HPE 服务器的解决方案。这有点奇怪,因为一般来说,Supermicro BigTwin 比 HPE 的 2U 4 节点产品领先一步。看待 Cerebras CS-2/CS-3 的一种方式是,它们是巨大的计算机器,但许多数据预处理、集群级任务等都发生在传统的 x86 计算上,以提供优化的人工智能芯片。由于这是一个液冷数据中心,因此风冷 HPE 服务器配备了来自 Legrand 子品牌 ColdLogik 的后门热交换器设置。这是 Cerebras 如何利用液冷设施的一个很好的例子,但它不必为每个服务器节点配备冷板。这一代的一大特点是更大的集群,多达 2048 个 CS-3,可实现高达 256 exaFLOPs 的 AI 计算。12PB 内存是一款高端超大规模 SKU,专为快速训练 GPT-5 尺寸模型而设计。Cerebras 还可以缩小到类似于单个 CS-2 的规模,并支持服务器和网络。部分内存不仅是片上内存(44GB),还包括支持服务器中的内存。因此,Cerebras 集群可以训练比以前更大的模型。关于整个系统,在SC22的时候,该公司就曾基于 Cerebras CS-2 的系统展示了看起来像一堆金属的东西,其中有一些印刷电路板伸出来。该公司称其为发动机组(Engine Block)。在 Cerebras 看来,这是一项巨大的工程壮举。弄清楚如何封装、供电和冷却大型芯片是一个关键的工程挑战。让代工厂制造特殊的晶圆是一回事,让晶圆开机、不过热并做有用的工作是另一回事。这是另一边的样子。当我们谈论由于密度而必须转向液体冷却的服务器时,我们谈论的是 2kW/U 服务器或可能具有 8x800W 或 8x1kW 部件的加速器托盘。对于 WSE/WSE-2,所有电力和冷却都需要传输到单个大晶圆上,这意味着即使是不同材料的热膨胀率等因素也很重要。另一个含义是,实际上该组件上的所有部件都采用液冷方式。最上面一排木板非常密集。展位上的 Cerebras 代表告诉我,这些是电源,这是有道理的,因为我们看到它们的连接器密度相对较低。Cerebras Condor Galaxy 的更新在去年七月,Cerebras 宣布其 CS-2 系统取得重大胜利。它拥有一台价值 1 亿美元的人工智能超级计算机,正在与阿布扎比的 G42 一起使用。这里的关键是,这不仅仅是一个 IT 合作伙伴,也是一个客户。当前的第一阶段有 32 个 CS-2 和超过 550 个 AMD EPYC 7003“Milan”CPU(注:Cerebras 首席执行官 Andrew... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人