Cerebras 发布了第三代晶圆级AI加速芯片“WSE-3”

Cerebras 发布了第三代晶圆级AI加速芯片“WSE-3” 人工智能超级计算机公司 Cerebras 表示,其下一代晶圆级人工智能芯片可以在消耗相同电量的情况下将性能提高一倍。 WSE-3 与前代产品一样使用整个晶圆制造,包含 4 万亿个晶体管,由于使用了台积电 5nm 工艺,比数量增加了50%以上。AI核心数量进一步增加到90万个,缓存容量达到44GB,外部搭配内存容量可选1.5TB、12TB、1200TB,峰值AI算力高达125PFlops。 该公司表示将在新一代人工智能计算机中使用 WSE-3,这些计算机目前正在达拉斯的一个数据中心安装,形成一台能够执行 8 exaflops(每秒 80 亿次浮点运算)的超级计算机。

相关推荐

封面图片

中国第三代自主超导量子计算机“本源悟空”上线

中国第三代自主超导量子计算机“本源悟空”上线 中国安徽省量子计算工程研究中心与量子计算芯片安徽省重点实验室星期六(1月6日)消息,中国第三代自主超导量子计算机“本源悟空”9时上线运行。 根据中国央视新闻报道,该量子计算机搭载72位自主超导量子芯片“悟空芯”,是目前中国最先进的可编程、可交付超导量子计算机。 据介绍,超导量子计算机是基于超导电路量子芯片的量子计算机。国际上,IBM与谷歌量子计算机均采用超导技术路线。 安徽省量子计算工程研究中心副主任孔伟成博士介绍,“本源悟空”匹配了本源第三代量子计算测控系统“本源天机”,在中国国内首次真正落地了量子芯片的批量自动化测试,量子计算机的整机运行效率提升了数十倍。 此次发布的中国第三代72比特超导量子计算机取名“悟空”,来源于中国传统文化中的神话人物孙悟空,寓意如孙悟空般“72变”。 量子计算芯片安徽省重点实验室副主任贾志龙博士介绍,“悟空”搭载的是72位超导量子芯片“悟空芯”。这款芯片在中国首条量子芯片生产线上制造,共有198个量子比特,其中包含72个工作量子比特和126个耦合器量子比特。 2024年1月6日 12:25 PM

封面图片

你见过晶圆大小的芯片吗?这家AI独角兽推新品对标英伟达H100

你见过晶圆大小的芯片吗?这家AI独角兽推新品对标英伟达H100 据悉,该款芯片将4万亿个晶体管组织在90万个核心中。该芯片针对人工智能训练的工作负载进行了优化。Cerebras公司声称,配备了2048个WSE-3芯片的服务器集群可以在一天内训练出市场上最先进的开源语言模型之一Llama 2 70B。替代英伟达Cerebras是一家美国人工智能芯片的独角兽企业,它背后的投资团队也都实力够硬。最新一笔融资是在2021年由Alpha Wave Venture和阿布扎比增长基金领投,融资金额2.5亿美元,其他的投资人士包括:OpenAI创始人山姆·奥特曼、AMD前首席技术官Fred Weber等。2021年,Cerebras公司首次亮相了WSE-2芯片,集成了1.2万亿个晶体管、40万个核心。在同行都在将晶圆分割成数百颗独立芯片之时,Cerebras公司则是选择将整个晶圆做成一颗芯片。而最新发布的WSE-3则是从WSE-2改进而来的。它较WES-2又增加了1.4万亿个晶体管,并拥有90万个计算核心、44GB的板载SRAM内存。强化部分是通过从7纳米制造工艺更新到5纳米节点所实现的。据该公司称,WSE-3在人工智能工作负载方面的性能是其前身的两倍,它的峰值速度可以达到每秒125千万亿次计算。Cerebras还将WSE-3定位为比英伟达显卡更为高效的替代品。根据Cerebras官网的数据,该芯片4万亿个晶体管数完全碾压了英伟达H100 GPU的800亿个;核处理器数是单个英伟达H100 GPU的52倍;片上存储量是H100的880倍。WSE-3芯片为Cerebras公司的CS-3超级计算机提供动力,CS-3可用于训练具有多达24万亿个参数的人工智能模型,对比由WSE-2和其他常规人工智能处理器驱动的超级计算机,这一数据是个重大飞跃。加速数据传输虽说将晶圆大小的芯片和单个英伟达H100 GPU相比较并不公平,不过若从数据传输速度的角度来看,不将晶圆切割成单独的芯片确实有它的优势。根据Cerebras公司的说法,使用单一的大型处理器可以提高人工智能训练工作流程的效率。当WSE-3上的4万亿个晶体管在晶圆上互连时,将会大大加快生成式人工智能的处理时间。人工智能模型就是相对简单的代码片段的集合,这些代码片段被称为人工神经元。这些神经元被重新组织成集合(称为层)。当人工智能模型接收到一个新任务时,它的每一层都会执行任务的一部分,然后将其结果与其他层生成的数据结合起来。由于神经网络太大,无法在单个GPU上运行,因此,这些层需要分布在数百个以上的GPU上,通过频繁地交换数据来协调它们的工作。基于神经网络架构的具体特性,只有获得前一层的全部或部分激活数据,才能在开始分析数据,并提供给下一层。也就意味着,如果这两层的数据运行在不同的GPU上,信息在它们之间传输可能需要很长时间。芯片之间的物理距离越大,数据从一个GPU转移到另一个GPU所需的时间就越长,这会减慢处理速度。而Cerebras的WSE-3有望缩短这一处理时间。如果一个人工智能模型的所有层都在一个处理器上运行,那么数据只需要从芯片的一个角落传输到另一个角落,而不是在两个显卡之间传输。减少数据必须覆盖的距离可以减少传输时间,从而加快处理速度。该公司指出,在如今的服务器集群中,数以万计的GPU被用来处理一个问题,而若是将芯片数量减少50倍以上,就可以降低互连成本以及功效,同时或许也可以解决消耗大量电力的问题。Cerebras联合创始人兼CEO Andrew Feldman称,“当我们八年前开始这一旅程时,每个人都说晶圆级处理器是白日梦…WSE-3是世界上最快的人工智能芯片,专为最新的尖端人工智能工作而打造。”对于新推出地WSE-3芯片,分析公司Intersect360 Research首席执行官Addison Snell认为,Cerebras的WSE-3人工智能芯片和CS-3系统可以使部分高性能计算用户受益。他指出,“该芯片在相同的成本和功率下将性能提高了一倍。”不过,Tirias Research创始人Jim McGregor则较为现实地指出,尽管这家初创公司增长迅速,并且有能力提高其平台的可扩展性,但与占主导地位的人工智能供应商英伟达相比,它仍然是一家规模较小的公司。他还指出,Cerebras专注于人工智能的一个方面,那就是训练,不过训练只是大型语言模型市场的一个利基市场。而英伟达提供了许多其他方面产品。 ... PC版: 手机版:

封面图片

中国第三代自主超导量子计算机 “本源悟空”成功实现四算合一

中国第三代自主超导量子计算机 “本源悟空”成功实现四算合一 使平台能够充分链接产业生态中的算力供给、应用开发、运营服务、用户等各方能力和资源,推进国产量子算力的规模化应用。此前,本源量子联合上海超级计算中心、国家超级计算郑州中心和中移(苏州)软件技术有限公司(中国移动云能力中心)于2023年8月上线的量超融合先进计算平台已接入“本源悟空”量子计算机。今年4月,“本源悟空”又正式入驻国家超算互联网平台。据悉,截至5月5日,这台目前我国最先进的可编程、可交付超导量子计算机已吸引全球范围内119个国家逾777万人次访问,成功完成超17.8万个运算任务。“本源悟空”是我国第三代自主超导量子计算机,搭载72位自主超导量子芯片“悟空芯”,这款芯片在中国首条量子芯片生产线上制造,共有198个量子比特,其中包含72个工作量子比特和126个耦合器量子比特。“本源悟空”匹配了本源第三代量子计算测控系统“本源天机”,在国内首次真正落地了量子芯片的批量自动化测试,量子计算机的整机运行效率提升了数十倍。 ... PC版: 手机版:

封面图片

ASML已交付第三代EUV 可用于制造2nm芯片

ASML已交付第三代EUV 可用于制造2nm芯片 在ASML看来,Twinscan NXE:3800E代表了Low-NA EUV光刻技术在性能(每小时处理的晶圆数量)和精度方面的又一次飞跃。新的光刻设备可实现每小时处理195片晶圆的处理速度,相比Twinscan NXE:3600D的160片大概提升了22%,将来有可能提高至220片。此外,新工具还提供了小于1.1nm的晶圆对准精度。即便用于4/5nm芯片的生产,Twinscan NXE:3800E也能提升效率,让制造商可以提高芯片生产的经济性,实现更为高效且更具成本效益的芯片生产。更为重要的一点,是Twinscan NXE:3800E对于制造2nm芯片和后续需要双重曝光的制造技术有更好的效果,精度的提升会让3nm以下的制程节点受益。Twinscan NXE:3800E光刻机的价格并不便宜,机器的复杂性和功能是以巨大的成本为代价,每台大概在1.8亿美元。不过比起新一代High-NA EUV光刻机的报价,显然还是要低很多。此前有报道称,业界首款采用High-NA EUV光刻技术的TWINSCAN EXE:5200光刻机报价达到了3.8亿美元。ASML还会继续推进Low-NA EUV光刻设备的开发,接下来将带来新款Twinscan NXE:4000F,计划在2026年发布,这凸显了ASML对EUV制造技术的承诺。 ... PC版: 手机版:

封面图片

中国第三代自主超导量子计算机:“本源悟空”全球访问量突破500万

中国第三代自主超导量子计算机:“本源悟空”全球访问量突破500万 据悉,“本源悟空”在硬件、芯片、操作系统以及应用软件等四个方面均实现了自主可控,其中国产化率超过了80%,而其他部分也通过自主研发有了备用方案。“本源悟空”之名取自中国传统文化中的神话人物孙悟空,寓意着像孙悟空一样具有“72变”的灵活多变能力。这款量子计算机搭载了72位的自主超导量子芯片“悟空芯”,该芯片在中国首条量子芯片生产线上制造,拥有198个量子比特,包括72个工作量子比特和126个耦合器量子比特。此外,“本源悟空”还配备了本源的第三代量子计算测控系统“本源天机”,这是国内首次实现量子芯片批量自动化测试,使得量子计算机的整机运行效率提升了数十倍。本源量子科研人员正在“本源悟空”装配调试线上工作 ... PC版: 手机版:

封面图片

AI芯片产能告急 矩形晶“圆”来当救星?

AI芯片产能告急 矩形晶“圆”来当救星? 也正是因为客户抢着预订产能,台积电3nm家族产能的持续吃紧,而与AI芯片关系密切的CoWoS先进封装产能同样出现供不应求的情况。为了缓解产能缺口,台积电预计在今年第三季度将新增的CoWoS相关设备到位。除此以外,台积电还在研究新的先进芯片封装技术。矩形晶“圆”,一种新思路据日经亚洲报道,台积电在研究一种新的先进芯片封装方法,即使用矩形基板代替传统圆形晶圆,从而在每个晶圆上放置更多的芯片。据消息人士透露,这种矩形基板尺寸为510 x 515 mm,对比12寸晶圆的尺寸(70659平方毫米),可用面积达到了三倍之多,并且不像圆形晶圆一样有可用面积有边角料留下。据分析师估算,在100%的良率下,一块12寸晶圆只能造出16套B200这样的AI计算芯片。即使是较早的H100芯片,最多也只能封装大约29套。而从供应链的角度来看,仅英伟达一家对CoWoS的需求就超过4.5万片晶圆,更不要说Google、亚马逊、AMD等厂商都在使用台积电的CoWoS封装技术。随着需求持续攀升,英伟达的GPU供应能力将进一步受到限制,这是买卖双方都不愿意看到的结果。不过,目前该这项研究仍然处于早期阶段,有半导体分析师认为,整体来看,这一技术可能需要五到十年的时间才能实现全面的设施升级。因此,想要解决 CoWoS产能问题目前只能先靠增加产线的方式。业界传出,台积电南科嘉义园区CoWoS新厂已进入环差审查阶段,即开始采购设备。同时,南科嘉义园区原定要盖两座CoWoS新厂之外,台积电正勘察三厂土地。另外,业内类似CoWoS类似的2.5D先进封装技术还有三星的I-Cube(Interposer Cube )、日月光的FOCoS-Bridge、英特尔的EMIB等。最强AI芯片,点燃面板封装产业链其实在英伟达发布新一代AI芯片GB200时,就已经透露了这种矩形晶圆封装技术。为了缓解CoWoS先进封装产能吃紧问题,英伟达正规划将其GB200提早导入扇出面板级封装(FOPLP),从原订2026年提前到2025年。对比晶圆级封装(FOWLP),面板级封装使用方形的玻璃面板或印刷电路板,尺寸也不仅仅是510 x 515mm,还有更大的600 x 600mm。据Yole的报告计算,FOWLP技术的面积使用率<85%,而FOPLP面积使用率>95%,这使得同比例下,300x300mm的矩形面板会比12寸晶圆多容纳1.64倍的die,最终会转化到每单位芯片的生产成本之上。随着基板面积的增加,芯片制造成本将逐渐下降,300mm过渡到板级封装,则能节约高达66%的成本。因此单从经济角度考虑,FOPLP对比晶圆封装有多项优势。而更重要的则是FOPLP可以缓解CoWoS产能吃紧的问题,从而保证AI计算的需求。不过矩形基板,其实早有尝试。为了在基板上形成布线层和TSV,需要用到专用的制造设备和传输系统,并且需要光刻胶等一系列配套设备。而这些的准备工作,都需要时间和金钱,即使像台积电这样拥有深厚财力的芯片制造商,也不能在短时间内解决。因此在先进封装相关设备制造商投入相应产品前, CoWoS 技术依然是AI芯片的首选。不过随着产业链上下游厂商的不断关注和入局,这项面板级封装技术也会逐渐走向现实。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人