Cerebras 发布了第三代晶圆级AI加速芯片“WSE-3”

Cerebras发布了第三代晶圆级AI加速芯片“WSE-3”人工智能超级计算机公司Cerebras表示,其下一代晶圆级人工智能芯片可以在消耗相同电量的情况下将性能提高一倍。WSE-3与前代产品一样使用整个晶圆制造,包含4万亿个晶体管,由于使用了台积电5nm工艺,比数量增加了50%以上。AI核心数量进一步增加到90万个,缓存容量达到44GB,外部搭配内存容量可选1.5TB、12TB、1200TB,峰值AI算力高达125PFlops。该公司表示将在新一代人工智能计算机中使用WSE-3,这些计算机目前正在达拉斯的一个数据中心安装,形成一台能够执行8exaflops(每秒80亿次浮点运算)的超级计算机。——

相关推荐

封面图片

美国加州半导体公司CerebrasSystems发布第三代晶圆级AI加速芯片“WSE-3”(WaferScaleEngine3)

美国加州半导体公司CerebrasSystems发布第三代晶圆级AI加速芯片“WSE-3”(WaferScaleEngine3),规格参数更加疯狂,而且在功耗、价格不变的前提下性能翻了一番。WSE-3再次升级为台积电5nm工艺,面积没说但应该差不多,然而,晶体管数量继续增加达到惊人的4万亿个,AI核心数量进一步增加到90万个,缓存容量达到44GB,外部搭配内存容量可选1.5TB、12TB、1200TB。核心数量、缓存容量增加的不多,但性能实现了飞跃,峰值AI算力高达125PFlops,也就是每秒12.5亿亿次浮点计算,堪比顶级超算。它可以训练相当于GPT-4、Gemini十几倍的下一代AI大模型,能在单一逻辑内存空间内存储24万亿参数,无需分区或者重构。四颗并联,它能在一天之内完成700亿参数的调教,而且支持最多2048路互连,一天就可以完成Llama700亿参数的训练。WSE-3的具体功耗、价格没公布,根据上代的情况看应该在200多万美元。

封面图片

Cerebras Systems 发布第三代晶圆级 AI 加速芯片 “WSE-3”(Wafer Scale Engine 3),

CerebrasSystems发布第三代晶圆级AI加速芯片“WSE-3”(WaferScaleEngine3),再次升级为台积电5nm工艺,面积没说但应该差不多,然而,晶体管数量继续增加达到惊人的4万亿个,AI核心数量进一步增加到90万个,缓存容量达到44GB,外部搭配内存容量可选1.5TB、12TB、1200TB。核心数量、缓存容量增加的不多,但性能实现了飞跃,峰值AI算力高达125PFlops,也就是每秒12.5亿亿次浮点计算,堪比顶级超算。它可以训练相当于GPT-4、Gemini十几倍的下一代AI大模型,能在单一逻辑内存空间内存储24万亿参数,无需分区或者重构。四颗并联,它能在一天之内完成700亿参数的调教,而且支持最多2048路互连,一天就可以完成Llama700亿参数的训练。WSE-3的具体功耗、价格没公布,根据上代的情况看应该在200多万美元。注:该公司2019年的第一代WSE-1基于台积电16nm工艺,面积46225平方毫米,晶体管1.2万亿个,拥有40万个AI核心、18GBSRAM缓存,支持9PB/s内存带宽、100Pb/s互连带宽,功耗高达15千瓦。2021年的第二代WSE-2升级台积电7nm工艺,面积不变还是46225平方毫米,晶体管增至2.6万亿个,核心数增至85万个,缓存扩至40GB,内存带宽20PB/s,互连带宽220Pb/s。

封面图片

Cerebras发布了第三代晶圆级AI加速#芯片“WSE-3”https://www.bannedbook.org/bnews/

封面图片

迄今运行速度最快 AI 芯片诞生

迄今运行速度最快AI芯片诞生据美国趣味科学网站14日报道,美国一家芯片初创企业推出了全新的5纳米级“晶圆级引擎3”(WSE-3)芯片。该公司官网称,这是目前世界上运行速度最快的AI芯片,将此前纪录提高了1倍。WSE-3拥有4万亿个晶体管,也使其成为迄今最大的计算机芯片,专门用于训练大型AI模型,未来也有望用于目前正在建设中的“秃鹰银河3号”AI超级计算机。

封面图片

你见过晶圆大小的芯片吗?这家AI独角兽推新品对标英伟达H100

你见过晶圆大小的芯片吗?这家AI独角兽推新品对标英伟达H100据悉,该款芯片将4万亿个晶体管组织在90万个核心中。该芯片针对人工智能训练的工作负载进行了优化。Cerebras公司声称,配备了2048个WSE-3芯片的服务器集群可以在一天内训练出市场上最先进的开源语言模型之一Llama270B。替代英伟达Cerebras是一家美国人工智能芯片的独角兽企业,它背后的投资团队也都实力够硬。最新一笔融资是在2021年由AlphaWaveVenture和阿布扎比增长基金领投,融资金额2.5亿美元,其他的投资人士包括:OpenAI创始人山姆·奥特曼、AMD前首席技术官FredWeber等。2021年,Cerebras公司首次亮相了WSE-2芯片,集成了1.2万亿个晶体管、40万个核心。在同行都在将晶圆分割成数百颗独立芯片之时,Cerebras公司则是选择将整个晶圆做成一颗芯片。而最新发布的WSE-3则是从WSE-2改进而来的。它较WES-2又增加了1.4万亿个晶体管,并拥有90万个计算核心、44GB的板载SRAM内存。强化部分是通过从7纳米制造工艺更新到5纳米节点所实现的。据该公司称,WSE-3在人工智能工作负载方面的性能是其前身的两倍,它的峰值速度可以达到每秒125千万亿次计算。Cerebras还将WSE-3定位为比英伟达显卡更为高效的替代品。根据Cerebras官网的数据,该芯片4万亿个晶体管数完全碾压了英伟达H100GPU的800亿个;核处理器数是单个英伟达H100GPU的52倍;片上存储量是H100的880倍。WSE-3芯片为Cerebras公司的CS-3超级计算机提供动力,CS-3可用于训练具有多达24万亿个参数的人工智能模型,对比由WSE-2和其他常规人工智能处理器驱动的超级计算机,这一数据是个重大飞跃。加速数据传输虽说将晶圆大小的芯片和单个英伟达H100GPU相比较并不公平,不过若从数据传输速度的角度来看,不将晶圆切割成单独的芯片确实有它的优势。根据Cerebras公司的说法,使用单一的大型处理器可以提高人工智能训练工作流程的效率。当WSE-3上的4万亿个晶体管在晶圆上互连时,将会大大加快生成式人工智能的处理时间。人工智能模型就是相对简单的代码片段的集合,这些代码片段被称为人工神经元。这些神经元被重新组织成集合(称为层)。当人工智能模型接收到一个新任务时,它的每一层都会执行任务的一部分,然后将其结果与其他层生成的数据结合起来。由于神经网络太大,无法在单个GPU上运行,因此,这些层需要分布在数百个以上的GPU上,通过频繁地交换数据来协调它们的工作。基于神经网络架构的具体特性,只有获得前一层的全部或部分激活数据,才能在开始分析数据,并提供给下一层。也就意味着,如果这两层的数据运行在不同的GPU上,信息在它们之间传输可能需要很长时间。芯片之间的物理距离越大,数据从一个GPU转移到另一个GPU所需的时间就越长,这会减慢处理速度。而Cerebras的WSE-3有望缩短这一处理时间。如果一个人工智能模型的所有层都在一个处理器上运行,那么数据只需要从芯片的一个角落传输到另一个角落,而不是在两个显卡之间传输。减少数据必须覆盖的距离可以减少传输时间,从而加快处理速度。该公司指出,在如今的服务器集群中,数以万计的GPU被用来处理一个问题,而若是将芯片数量减少50倍以上,就可以降低互连成本以及功效,同时或许也可以解决消耗大量电力的问题。Cerebras联合创始人兼CEOAndrewFeldman称,“当我们八年前开始这一旅程时,每个人都说晶圆级处理器是白日梦…WSE-3是世界上最快的人工智能芯片,专为最新的尖端人工智能工作而打造。”对于新推出地WSE-3芯片,分析公司Intersect360Research首席执行官AddisonSnell认为,Cerebras的WSE-3人工智能芯片和CS-3系统可以使部分高性能计算用户受益。他指出,“该芯片在相同的成本和功率下将性能提高了一倍。”不过,TiriasResearch创始人JimMcGregor则较为现实地指出,尽管这家初创公司增长迅速,并且有能力提高其平台的可扩展性,但与占主导地位的人工智能供应商英伟达相比,它仍然是一家规模较小的公司。他还指出,Cerebras专注于人工智能的一个方面,那就是训练,不过训练只是大型语言模型市场的一个利基市场。而英伟达提供了许多其他方面产品。...PC版:https://www.cnbeta.com.tw/articles/soft/1423681.htm手机版:https://m.cnbeta.com.tw/view/1423681.htm

封面图片

第三代自主超导量子计算机关键组件实现国产

第三代自主超导量子计算机关键组件实现国产记者15日从安徽省量子计算工程研究中心获悉,中国第三代自主超导量子计算机“本源悟空”核心部件——高密度微波互连模组在合肥完成重大突破,成功解决“一根线”的“卡脖子”问题,实现完全国产化。记者了解到,这款国产高密度微波互连模组可为100+位量子芯片提供微波信号传输通道,能够在极低热泄漏环境下实现微波信号的跨温区稳定传输。该模组的成功研发使得量子芯片能够发挥出更强大的计算能力,有助于我国量子计算机更高效运行。(科技日报)

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人