国内第一算力通用GPU芯片集成770亿晶体管 一次点亮成功

国内第一算力通用GPU芯片集成770亿晶体管一次点亮成功8月9日下午,国内科技创新企业壁仞科技(Birentech)正式发布BR100系列通用计算GPU,号称算力国内第一,多向指标媲美设置超越国际旗舰产品。根据介绍,壁仞科技BR100芯片采用台积电7nm工艺制造、2.5DCoWoS封装技术、Chiplet小芯片技术,集成了多达770亿晶体管,规模上堪比人类大脑神经细胞,已经非常接近800亿个晶体管的NVIDIAGH100计算核心。性能方面,INT8整数计算2048Tops(每秒2048万亿次)、BF16浮点计算1024TFlops(每秒1024万亿次)、TF32+浮点计算512TFlops(每秒512万亿次)、FP32双精度浮点256TFlops(每秒256万亿次)。其他方面,它还集成了超过300MB片上缓存、64GBHBM2E片上内存,外部IO带宽达2.3TB/s,支持64路编码、512路解码,还支持PCIe5.0、CXL互连协议,一次全部给到位。更难得的是,壁仞科技创始人、董事长、CEO张文在发布会上披露,BR100系列芯片一次就点亮成功了!我们知道,芯片设计是一个漫长复杂的过程,最为关键的就是流片,一旦失败就要推倒重来,即便是Intel、NVIDIA、AMD这些顶级巨头也不能保证一次完成,壁仞科技如此庞大规模、顶级算力的设计一次就搞定,属实难得。PC版:https://www.cnbeta.com/articles/soft/1302535.htm手机版:https://m.cnbeta.com/view/1302535.htm

相关推荐

封面图片

壁仞正式发布BR100芯片:国内算力最大通用GPU

壁仞正式发布BR100芯片:国内算力最大通用GPU8月9日下午,来自上海的年轻企业壁仞科技正式发布BR100系列GPU。BR100系列今年3月成功点亮,是国内算力最大的通用GPU芯片。主要参数方面,BR100系列采用7nm制程,集成770亿晶体管,基于壁仞科技自主原创的芯片架构开发,采用Chiplet(芯粒)、2.5DCoWoS等先进的设计、制造与封装技术,可搭配64GBHBM2E显存,超300MB片上缓存,支持PCIe5.0、CXL互联协议等。性能方面,1024TOPSINT8、512TFLOPSBF16、256TFLOPSTF32+、128TFLOPSFP32,可实现2.3TB/s外部I/O带宽,支持64路编码、512路解码等,号称在FP32(单精度浮点)、INT8(整数,常用于人工智能推理)等维度,均超越了国际厂商最新旗舰。这里虽然没有点名国际厂商,但从列出的数据来看,对比的是NVIDIAHopperGPU,后者采用台积电4nm工艺制造,集成多达800亿晶体管。当然,算力性能只是一方面,对于通用GPU产品来说,最终的应用情况以及在软件生态方面是否对开发者、合作伙伴友好也是决定其最终发展前景的重要一环,期待壁仞后续的答卷。PC版:https://www.cnbeta.com/articles/soft/1302517.htm手机版:https://m.cnbeta.com/view/1302517.htm

封面图片

传中国GPU厂商壁仞科技再获20亿元投资

传中国GPU厂商壁仞科技再获20亿元投资今年10月17日,美国拜登政府正式出台一系列新的限制措施,包括限制向中国出口更先进的人工智能(AI)芯片和半导体设备,并将包括摩尔线程及其子公司和壁仞科技及其子公司在内的13家中企列入了实体清单。由此也给壁仞科技及摩尔线程这两家国产GPU厂商后续的发展带来了困难。由于美方的限制,目前摩尔线程和壁仞科技已无法使用海外晶圆代工厂的先进工艺进行芯片制造,后续可能需要重新对于芯片设计进行修改,改用国产工艺进行制造,而这可能会影响到芯片的性能。值得注意的是,今年11月中旬的消息显示,摩尔线程已完成新一轮融资。据悉,摩尔线程此轮融资为B+轮融资,融资额为数亿元。现在,壁仞科技也获得了新一轮约20亿元的融资。这两家国产GPU厂商在受制裁之后,都能够迅速获得投资者的资金支持,得以保障后续的运营,也凸显投资人对于他们技术能力的看好。根据资料显示,壁仞科技成立于2019年9月9日,致力于研发原创性的通用计算体系,其发展路径是首先聚焦云端通用智能计算,逐步在人工智能训练和推理、图形渲染、高性能通用计算等多个领域赶超现有解决方案,实现国产高端通用智能计算芯片的突破。2022年8月9日,壁仞科技发布首款通用GPU芯片BR100、自主原创架构壁立仞、OAM服务器海玄,以及OAM模组壁砺100,PCIe板卡产品壁砺104,自主研发的BIRENSUPA软件平台。据介绍,BR100芯片创出全球算力纪录(其INT8算力达2048TOPS,BF16算力达1024TFLOPS,TF32+算力达512TFLOPS,FP32算力达256TFLOPS),峰值算力达到国际厂商在售旗舰产品3倍以上,创下国内互连带宽纪录,还是国内率先采用Chiplet技术、率先采用新一代主机接口PCIe5.0、率先支持CXL互连协议的通用GPU芯片。...PC版:https://www.cnbeta.com.tw/articles/soft/1402485.htm手机版:https://m.cnbeta.com.tw/view/1402485.htm

封面图片

世界第一AI芯片“WSE-3”升级4万亿晶体管、90万核心

世界第一AI芯片“WSE-3”升级4万亿晶体管、90万核心2021年的第二代WSE-2升级台积电7nm工艺,面积不变还是46225平方毫米,晶体管增至2.6万亿个,核心数增至85万个,缓存扩至40GB,内存带宽20PB/s,互连带宽220Pb/s。如今的第三代WSE-3再次升级为台积电5nm工艺,面积没说但应该差不多,毕竟需要一块晶圆才能造出一颗芯片,不可能再大太多了。晶体管数量继续增加达到惊人的4万亿个,AI核心数量进一步增加到90万个,缓存容量达到44GB,外部搭配内存容量可选1.5TB、12TB、1200TB。乍一看,核心数量、缓存容量增加的不多,但性能实现了飞跃,峰值AI算力高达125PFlops,也就是每秒12.5亿亿次浮点计算,堪比顶级超算。它可以训练相当于GPT-4、Gemini十几倍的下一代AI大模型,能在单一逻辑内存空间内存储24万亿参数,无需分区或者重构。用它来训练1万亿参数大模型的速度,相当于用GPU训练10亿参数。四颗并联,它能在一天之内完成700亿参数的调教,而且支持最多2048路互连,一天就可以完成Llama700亿参数的训练。WSE-3的具体功耗、价格没公布,根据上代的情况看应该在200多万美元。...PC版:https://www.cnbeta.com.tw/articles/soft/1423559.htm手机版:https://m.cnbeta.com.tw/view/1423559.htm

封面图片

一万亿晶体管GPU将到来 台积电董事长撰文解读

一万亿晶体管GPU将到来台积电董事长撰文解读值得一提的是,本文署名作者MARKLIU(刘德音)和H.-S.PHILIPWONG,其中刘德音是台积电董事长。H.-SPhilipWong则是斯坦福大学工程学院教授、台积电首席科学家。在这里,我们将此文翻译出来,以飨读者。以下为文章正文:1997年,IBM深蓝超级计算机击败了国际象棋世界冠军GarryKasparov。这是超级计算机技术的突破性演示,也是对高性能计算有一天可能超越人类智能水平的首次展示。在接下来的10年里,我们开始将人工智能用于许多实际任务,例如面部识别、语言翻译以及推荐电影和商品。再过十五年,人工智能已经发展到可以“合成知识”(synthesizeknowledge)的地步。生成式人工智能,如ChatGPT和StableDiffusion,可以创作诗歌、创作艺术品、诊断疾病、编写总结报告和计算机代码,甚至可以设计与人类制造的集成电路相媲美的集成电路。人工智能成为所有人类事业的数字助手,面临着巨大的机遇。ChatGPT是人工智能如何使高性能计算的使用民主化、为社会中的每个人带来好处的一个很好的例子。所有这些奇妙的人工智能应用都归功于三个因素:高效机器学习算法的创新、训练神经网络的大量数据的可用性,以及通过半导体技术的进步实现节能计算的进步。尽管它无处不在,但对生成式人工智能革命的最后贡献却没有得到应有的认可。在过去的三十年里,人工智能的重大里程碑都是由当时领先的半导体技术实现的,没有它就不可能实现。DeepBlue采用0.6微米和0.35微米节点芯片制造技术的混合实现;赢得ImageNet竞赛的深度神经网络并开启了当前机器学习时代的设备使了用40纳米技术打造的芯片;AlphaGo使用28纳米技术征服了围棋游戏;ChatGPT的初始版本是在采用5纳米技术构建的计算机上进行训练的。;ChatGPT的最新版本由使用更先进的4纳米技术的服务器提供支持。所涉及的计算机系统的每一层,从软件和算法到架构、电路设计和设备技术,都充当人工智能性能的乘数。但可以公平地说,基础晶体管器件技术推动了上面各层的进步。如果人工智能革命要以目前的速度继续下去,它将需要半导体行业做出更多贡献。十年内,它将需要一个1万亿晶体管的GPU,也就是说,GPU的设备数量是当今典型设备数量的10倍。AI模型大小的不断增长,让人工智能训练所需的计算和内存访问在过去五年中增加了几个数量级。例如,训练GPT-3需要相当于一整天每秒超过50亿次的计算操作(即5,000petaflops/天),以及3万亿字节(3TB)的内存容量。新的生成式人工智能应用程序所需的计算能力和内存访问都在持续快速增长。我们现在需要回答一个紧迫的问题:半导体技术如何跟上步伐?从集成器件到集成小芯片自集成电路发明以来,半导体技术一直致力于缩小特征尺寸,以便我们可以将更多晶体管塞进缩略图大小的芯片中。如今,集成度已经上升了一个层次;我们正在超越2D缩放进入3D系统集成。我们现在正在将许多芯片组合成一个紧密集成、大规模互连的系统。这是半导体技术集成的范式转变。在人工智能时代,系统的能力与系统中集成的晶体管数量成正比。主要限制之一是光刻芯片制造工具被设计用于制造不超过约800平方毫米的IC,即所谓的光罩限制(reticlelimit)。但我们现在可以将集成系统的尺寸扩展到光刻掩模版极限之外。通过将多个芯片连接到更大的中介层(一块内置互连的硅片)上,我们可以集成一个系统,该系统包含的设备数量比单个芯片上可能包含的设备数量要多得多。例如,台积电的CoWoS(chip-on-wafer-on-substrate)技术就可以容纳多达六个掩模版区域的计算芯片,以及十几个高带宽内存(HBM)芯片。CoWoS是台积电的硅晶圆上芯片先进封装技术,目前已在产品中得到应用。示例包括NVIDIAAmpere和HopperGPU。当中每一个都由一个GPU芯片和六个高带宽内存立方体组成,全部位于硅中介层上。计算GPU芯片的尺寸大约是芯片制造工具当前允许的尺寸。Ampere有540亿个晶体管,Hopper有800亿个。从7纳米技术到更密集的4纳米技术的转变使得在基本相同的面积上封装的晶体管数量增加了50%。Ampere和Hopper是当今大型语言模型(LLM)训练的主力。训练ChatGPT需要数万个这样的处理器。HBM是对AI日益重要的另一项关键半导体技术的一个例子:通过将芯片堆叠在一起来集成系统的能力,我们在台积电称之为SoIC(system-on-integrated-chips)。HBM由控制逻辑IC顶部的一堆垂直互连的DRAM芯片组成。它使用称为硅通孔(TSV)的垂直互连来让信号通过每个芯片和焊料凸点以形成存储芯片之间的连接。如今,高性能GPU广泛使用HBM。展望未来,3DSoIC技术可以为当今的传统HBM技术提供“无凸块替代方案”(bumplessalternative),在堆叠芯片之间提供更密集的垂直互连。最近的进展表明,HBM测试结构采用混合键合技术堆叠了12层芯片,这种铜对铜连接的密度高于焊料凸块所能提供的密度。该存储系统在低温下粘合在较大的基础逻辑芯片之上,总厚度仅为600µm。对于由大量运行大型人工智能模型的芯片组成的高性能计算系统,高速有线通信可能会很快限制计算速度。如今,光学互连已被用于连接数据中心的服务器机架。我们很快就会需要基于硅光子学的光学接口,并与GPU和CPU封装在一起。这将允许扩大能源效率和面积效率的带宽,以实现直接的光学GPU到GPU通信,这样数百台服务器就可以充当具有统一内存的单个巨型GPU。由于人工智能应用的需求,硅光子将成为半导体行业最重要的使能技术之一。迈向万亿晶体管GPU如前所述,用于AI训练的典型GPU芯片已经达到了标线区域极限(reticlefieldlimit)。他们的晶体管数量约为1000亿个。晶体管数量增加趋势的持续将需要多个芯片通过2.5D或3D集成互连来执行计算。通过CoWoS或SoIC以及相关的先进封装技术集成多个芯片,可以使每个系统的晶体管总数比压缩到单个芯片中的晶体管总数大得多。如AMDMI300A就是采用这样的技术制造的。AMDMI300A加速处理器单元不仅利用了CoWoS,还利用了台积电的3D技术SoIC。MI300A结合了GPU和CPU内核,旨在处理最大的人工智能工作负载。GPU为AI执行密集的矩阵乘法运算,而CPU控制整个系统的运算,高带宽存储器(HBM)统一为两者服务。采用5纳米技术构建的9个计算芯片堆叠在4个6纳米技术基础芯片之上,这些芯片专用于缓存和I/O流量。基础芯片和HBM位于硅中介层之上。处理器的计算部分由1500亿个晶体管组成。我们预测,十年内,多芯片GPU将拥有超过1万亿个晶体管。我们需要在3D堆栈中将所有这些小芯片连接在一起,但幸运的是,业界已经能够快速缩小垂直互连的间距,从而增加连接密度。而且还有足够的空间容纳更多。我们认为互连密度没有理由不能增长一个数量级,甚至更高。GPU的节能性能趋势那么,所有这些创新的硬件技术如何提高系统的性能呢?如果我们观察一个称为节能性能的指标的稳步改进,我们就可以看到服务器GPU中已经存在的趋势。EEP是系统能源效率和速度(theenergyefficiencyandspeedofasystem)的综合衡量标准。过去15年来,半导体行业的能效性能每两年就提高了三倍左右。我们相信这一趋势将以历史速度持续下去。它将受到多方面创新的推动,包括新材料、器件和集成技术、极紫外(EUV)光刻、电路设计、系统架构设计以及所有这些技术元素的共同优化等。特别是,EEP的增加将通过我们在此讨论的...PC版:https://www.cnbeta.com.tw/articles/soft/1425470.htm手机版:https://m.cnbeta.com.tw/view/1425470.htm

封面图片

台积电规划1nm芯片制造工艺,计划到 2030 年实现 1 万亿晶体管的单个芯片封装

台积电规划1nm芯片制造工艺,计划到2030年实现1万亿晶体管的单个芯片封装据Tom'sHardware 报道,在本月举行的IEDM2023会议上,台积电制定了提供包含1万亿个晶体管的芯片封装路线,这一计划与英特尔去年透露的规划类似。当然,1万亿晶体管是来自单个芯片封装上的3D封装小芯片集合,但台积电也在致力于开发单个芯片2000亿晶体管。为了实现这一目标,该公司重申正在致力于2nm级N2和N2P生产节点,以及1.4nm级A14和1nm级A10制造工艺,预计将于2030年完成。——,

封面图片

RTX 4090浮点性能首次突破100万亿次大关 超频功耗666.6W

RTX4090浮点性能首次突破100万亿次大关超频功耗666.6W2008年,AMD(ATI)RadeonHD4850发布,55nm工艺,9.56亿个晶体管,800个流处理器,核心频率625MHz,256-bit512MBGDDR3显存,浮点性能第一次突破1TFlops(每秒1万亿次计算)。然后,14年过去了,100TFlops(每秒100万亿次计算)的关卡终于被突破,使用的是超频版RTX4090。PC版:https://www.cnbeta.com/articles/soft/1326041.htm手机版:https://m.cnbeta.com/view/1326041.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人