追赶NVIDIA！国产顶级AI GPU亮相：算力达160万亿次

追赶NVIDIA！国产顶级AIGPU亮相：算力达160万亿次曦思N100是一款面向云端数据中心应用的AI推理GPU加速卡，内置异构GPGPU通用计算核心“MXN100”，并集成HBM2E高带宽内存，单卡的INT8整数算力达160TOPS(160万亿次每秒)，FP16浮点算力则达80TFLOPS(80万亿次每秒)，兼备高带宽、低延时。曦思N100已实现规模量产，可广泛应用于智慧城市、智慧安防、智慧交通、云计算、智能视频处理等场景。沐曦产品均采用完全自主研发的GPUIP，拥有完全自主的指令集和架构，配以兼容主流GPU生态的完整软件栈(MXMACA)，具备高能效和高通用性的优势。投稿：@ZaiHuaBot频道：@TestFlightCN

在Telegram中查看

相关推荐

沐曦首款AI推理GPU曦思N100亮相：算力达160万亿次

沐曦首款AI推理GPU曦思N100亮相：算力达160万亿次它支持128路编码、96路解码的高清视频处理，兼容HEVC(H.265)、H.264、AV1、AVS2等多种视频格式，最高分辨率8K。同时还有沐曦自主研发的MXMACA软件栈，与硬件架构紧密耦合，支持多种主流框架的网络模型，支持主流计算机视觉处理和多媒体处理框架。加上持续完善的ModelZoo，客户开箱即用，各类应用场景、业务模型可以快速迁移。安博会现场，沐曦展示了曦思N100在人脸识别、车辆检测、车牌识别等安防领域的实际应用，沐曦也已加入北京安全防范行业协会。曦思N100已实现规模量产，可广泛应用于智慧城市、智慧安防、智慧交通、云计算、智能视频处理等场景。沐曦(MetaX)拥有全栈GPU芯片产品，包括MXN系列GPU（曦思）用于AI推理，MXC系列GPU（曦云）用于AI训练及通用计算，MXG系列GPU（曦彩）用于图形渲染。沐曦产品均采用完全自主研发的GPUIP，拥有完全自主的指令集和架构，配以兼容主流GPU生态的完整软件栈（MXMACA），具备高能效和高通用性的优势。...PC版：https://www.cnbeta.com.tw/articles/soft/1364401.htm手机版：https://m.cnbeta.com.tw/view/1364401.htm

国内第一算力通用GPU芯片集成770亿晶体管一次点亮成功

国内第一算力通用GPU芯片集成770亿晶体管一次点亮成功8月9日下午，国内科技创新企业壁仞科技(Birentech)正式发布BR100系列通用计算GPU，号称算力国内第一，多向指标媲美设置超越国际旗舰产品。根据介绍，壁仞科技BR100芯片采用台积电7nm工艺制造、2.5DCoWoS封装技术、Chiplet小芯片技术，集成了多达770亿晶体管，规模上堪比人类大脑神经细胞，已经非常接近800亿个晶体管的NVIDIAGH100计算核心。性能方面，INT8整数计算2048Tops(每秒2048万亿次)、BF16浮点计算1024TFlops(每秒1024万亿次)、TF32+浮点计算512TFlops(每秒512万亿次)、FP32双精度浮点256TFlops(每秒256万亿次)。其他方面，它还集成了超过300MB片上缓存、64GBHBM2E片上内存，外部IO带宽达2.3TB/s，支持64路编码、512路解码，还支持PCIe5.0、CXL互连协议，一次全部给到位。更难得的是，壁仞科技创始人、董事长、CEO张文在发布会上披露，BR100系列芯片一次就点亮成功了！我们知道，芯片设计是一个漫长复杂的过程，最为关键的就是流片，一旦失败就要推倒重来，即便是Intel、NVIDIA、AMD这些顶级巨头也不能保证一次完成，壁仞科技如此庞大规模、顶级算力的设计一次就搞定，属实难得。PC版：https://www.cnbeta.com/articles/soft/1302535.htm手机版：https://m.cnbeta.com/view/1302535.htm

壁仞正式发布BR100芯片：国内算力最大通用GPU

壁仞正式发布BR100芯片：国内算力最大通用GPU8月9日下午，来自上海的年轻企业壁仞科技正式发布BR100系列GPU。BR100系列今年3月成功点亮，是国内算力最大的通用GPU芯片。主要参数方面，BR100系列采用7nm制程，集成770亿晶体管，基于壁仞科技自主原创的芯片架构开发，采用Chiplet(芯粒)、2.5DCoWoS等先进的设计、制造与封装技术，可搭配64GBHBM2E显存，超300MB片上缓存，支持PCIe5.0、CXL互联协议等。性能方面，1024TOPSINT8、512TFLOPSBF16、256TFLOPSTF32+、128TFLOPSFP32，可实现2.3TB/s外部I/O带宽，支持64路编码、512路解码等，号称在FP32（单精度浮点）、INT8（整数，常用于人工智能推理）等维度，均超越了国际厂商最新旗舰。这里虽然没有点名国际厂商，但从列出的数据来看，对比的是NVIDIAHopperGPU，后者采用台积电4nm工艺制造，集成多达800亿晶体管。当然，算力性能只是一方面，对于通用GPU产品来说，最终的应用情况以及在软件生态方面是否对开发者、合作伙伴友好也是决定其最终发展前景的重要一环，期待壁仞后续的答卷。PC版：https://www.cnbeta.com/articles/soft/1302517.htm手机版：https://m.cnbeta.com/view/1302517.htm

微软与英伟达支持的CoreWeave签署AI算力协议

微软与英伟达支持的CoreWeave签署AI算力协议据了解，CoreWeave销售简化访问英伟达的图形处理单元（GPU），而GPU被认为是市场上运行人工智能模型的最佳选择。其中一位知情人士表示，微软已经在今年早些时候和CoreWeave签署了协议，以确保运营ChatGPT聊天机器人的OpenAI未来将拥有足够的算力。OpenAI依赖微软的Azure云基础设施来满足其庞大的计算需求。微软和CoreWeave均拒绝置评。去年年底，OpenAI向公众推出了ChatGPT，展示了人工智能可以接受人类以自然语言输入并生成复杂回应，之后，生成式人工智能热潮便开始兴起。紧接着，包括谷歌在内的许多公司都争先恐后地在其产品中加入生成式人工智能。微软也一直忙于为自己的服务（如必应和Windows）发布聊天机器人。由于其基础设施需求如此庞大，微软需要更多途径来利用英伟达的GPU。CoreWeave首席执行官MichaelIntrator在上个月的一次采访中拒绝就微软的交易发表评论，但他表示，“从2022年到2023年，公司的营收增长了数倍”。英伟达首席财务官ColetteKress在上周的财报电话会议上表示，公司业绩的增长趋势主要由数据中心推动，反映出与生成式人工智能和大型语言模型相关的需求急剧增长。Kress还提到了CoreWeave。3月份，英伟达首席执行官黄仁勋也提到了这家初创公司。据悉，CoreWeave周三宣布从对冲基金MagnetarCapital获得融资，该融资是4月份2.21亿美元融资的延伸。据Intrator称，英伟达在前一轮融资中投资了1亿美元。CoreWeave成立于2017年，拥有160名员工。在一个多月前，该公司获得了20亿美元的估值。CoreWeave的网站声称，该公司提供的计算能力比传统云服务提供商便宜80%。除了其他型号的GPU外，CoreWeave还提供英伟达的A100GPU，开发人员也可以通过亚马逊（AMZN.US）、谷歌和微软的云服务找到这款GPU。此外，CoreWeave还提供价格较低的英伟达A40GPU，这款GPU主要用于视觉计算，而A100则针对人工智能、数据分析和高性能计算。...PC版：https://www.cnbeta.com.tw/articles/soft/1363011.htm手机版：https://m.cnbeta.com.tw/view/1363011.htm

强攻AI叫板英伟达 AMD突围算力芯片大战

强攻AI叫板英伟达AMD突围算力芯片大战但如今，英伟达或已无法高枕无忧。近日，AMD在美国旧金山举办的“数据中心和人工智能技术首映式”活动上，正式发布MI300系列在内的一系列AI和数据中心相关技术产品，其中包括直接对标英伟达旗舰产品H100的MI300X，以及全球首款针对AI和HPC的加速处理器（APU）MI300A。这意味着AMD将在人工智能领域与英伟达“正面刚”。在业界看来，硬刚英伟达，AMD无疑在获取客户，数据和库、硬件加速和生态建设等方面面临重要挑战，以及在当前的行业发展和竞争格局下，其尚未公布的定价将成为战略重点。但在旺盛的市场需求和科技巨头多元布局战略下，AMDMI300X凭借性能优势以及系列相关建构升级，势必将成为AI市场的有力竞争者，以及英伟达高端GPU的重要替代产品。硬刚竞品力创新机随着AI浪潮席卷全球，AMD已将发展人工智能列为核心战略，在技术创新高地保持强力攻势，并于近日推出了新一代AI芯片、数据中心CPU以及预告将推出全新DPU芯片。显然，其中最受瞩目的莫过于用于训练大模型的AI芯片InstinctMI300X，直接对标英伟高端GPUH100。至于另一款同期发布的MI300A，号称全球首款针对AI和HPC的APU，以及业界首款“CPU+GPU+HBM显存”一体化的数据中心芯片。一些分析机构和行业人士研判认为，MI300X性能强大，是对标英伟达高端加速卡的有力竞品。相较H100，MI300X在晶体管数量和显存容量上亦大幅领先。而MI300A凭借CPU+GPU的能力，产品组合性能更高、同时具有成本优势。另外，在收购赛灵思之后，AMD在加速卡领域的定制化服务大幅领先英伟达，能够协助云厂商在特定算法模块上进行训练。随着下游应用端的高速发展，使得微软、Google、Meta等众多海外巨头争相增加算力储备，算力芯片需求高度旺盛之下，英伟达一家独大的市场格局或将迎来转变。但有所遗憾的是，AMD股价在发布会活动过程中转而走低，收跌3.61%。而同行英伟达则收涨3.90%，市值再次收于1万亿美元关口上方。在投资人眼里，AMD的所谓“超级芯片”MI300X似乎仍然难以撼动英伟达的根基。其中，TIRIASResearch首席分析师KevinKrewell表示：“我认为，没有（大客户）表示将使用MI300X或MI300A，这可能会让华尔街感到失望。他们希望AMD宣布已经在某些设计方面取代了英伟达。”目前，AMD公布的客户仅有开源大模型独角兽HuggingFace，以及更早之前透露的劳伦斯利弗莫尔国家实验室。虽然两者与对大模型和数据中心芯片有更大需求的科技巨头不在一个数量级，但在AMD的发布会上值得注意的是，亚马逊旗下云计算部门AWS、甲骨文云、Meta、微软Azure的高管均来到现场。其参会动机一定程度上不言而明。此后，由于传出亚马逊正在考虑使用MI300人工智能芯片，AMD股价随即上涨约1%。InsiderIntelligence分析师JacobBourne表示：“亚马逊正在考虑AMD的MI300，这一事实表明科技公司有意使其AI开发硬件多样化，这可能会为其他芯片制造商创造新的机会。”美国科技类评论家BillyDuberstein也指出，潜在客户对MI300非常感兴趣，正在强烈要求寻找英伟达的替代产品。鉴于目前英伟达H100的服务器价格高昂，数据中心运营商希望看到有一个第三方竞争对手，这有助于降低AI芯片的价格。因此，这对AMD而言是一个巨大的优势，对英伟达来说则是一个挑战。这能为每个市场参与者带来良好的盈利能力。尚有软肋定价是“金”从产品性能来看，AMDMI300X已在业界力拔头筹，包括支持达192GB的HBM3内存（是英伟达H100的2.4倍），HBM内存带宽达5.2TB/s（是英伟达H100的1.6倍），InfinityFabric总线带宽为896GB/s，晶体管数量达到1530亿个，远高英伟达H100的800亿个。但AMD并没有公布这款GPU的价格，使得“双雄”竞争增加了悬念。AMDMI300处理器业界分析称，AMD并没有透露新款AI芯片的具体售价，但想要有显著的成本优势可能不太现实，因为高密度的HBM价格昂贵。即便MI300X的内存达到了192GB，但这也不是显著优势，因为英伟达也拥有相同内存规格的产品。对此，Cambrian-AIResearchLLC创始人兼首席分析师KarlFreund也在福布斯网站上发文表示，虽然MI300X芯片提供了192GB内存，但英伟达在这一点上将很快迎头赶上，甚至在相同的时间框架内可能实现反超，所以这并不是一个很大的优势。而且MI300X的售价将会十分高昂，与英伟达的H100相比不会有明显的成本优势。另据晚点LatePost援引一位AI从业者的话报道称，他所在的公司曾接触一家非英伟达GPU厂商，对方的芯片和服务报价比英伟达更低，也承诺提供更及时的服务。但他们判断使用其它GPU的整体训练和开发成本会高于英伟达，还得承担结果的不确定性和花更多时间。“虽然A100价格贵，但其实用起来是最便宜的。”他说，对有意抓住大模型机会的大型科技公司和头部创业公司来说，钱往往不是问题，时间才是更宝贵的资源。不难猜测，这家非“英伟达GPU厂商”是AMD的可能性极高。由此，在AI浪潮下，争市场还是保盈利，将成为MI300X届时定价的战略重点。但除了价格，AMD势必也面临其它各类挑战。KarlFreund认为，虽然AMD新推出的MI300X芯片激起了市场各方的巨大兴趣，但与英伟达的H100芯片相比面临的一些挑战包括，英伟达的H100现在已开始全面出货，而且到目前为止仍拥有AI行业最大的软件和研究人员生态系统。然而，AMD尚未披露任何基准测试，也还没有上市（预计今年第四季度量产）。另外，训练和运行大语言模型（LLM）时的性能取决于系统设计和GPU，MI300X正式推出时才能看到一些详细比较。至于真正关键的地方，KarlFreund指出，MI300X并不具备H100所拥有的TransformerEngine（一个用于在英伟达GPU上加速Transformer模型的库）。基于此，H100可以将大模型的性能提高两倍。如果用几千个（英伟达的）GPU来训练一个新模型需要一年的时间，那么用AMD的硬件来训练可能需要再等2-3年，或者投入3倍的GPU来解决问题。可即便如此，市场也不愿意英伟达以高溢价垄断市场。美国投行TDCowen在一份报告中指出，“随着市场寻找人工智能市场领军企业英伟达的替代品，AMD成为日益明显的选择。”仅凭这一点，就足以让科技巨头保持对这家公司的高度兴趣。正因如此，资本市场对于AMD给予更多积极的预期。部分行业分析预测，AMD2024年AI相关营收有望达到4亿美元，最高甚至可能达到12亿美元——是此前预期的12倍之多。生态大战前程可期毋庸置疑，与英伟达的H100相比，MI300X也面临着多种挑战和一定劣势。华泰证券表示，AMD对英伟达市场份额的挑战并非能一蹴而就。一方面，英伟达GPU芯片的算力壁垒以及AI训练端的深入布局一时难以撼动，另一方面，AMD的软件生态也限制其与客户系统的融合及渗透应用场景。可以说，英伟达的领先地位不仅来自于其芯片，还来自于十多年来为人工智能研究人员提供的软件工具。MoorInsights&Strategy分析师AnshelSag称：“即使AMD在硬件性能方面具有竞争力，但人们仍然不相信其软件解决方案能与英伟达竞争。”进一步来看，软件生态也被多位行业人士视为英伟达铜墙铁壁一般的护城河。据悉，英伟达于2007年发布CUDA生态系统。通过使用CUDA，开发者可以将英伟达的GPU用于通用的计算处理，而非仅限于图形处理。CUDA提供了一个直观的编程接口，允许开发者更容易使用C，C++，Python，以及其他一些语言来编写并行代码。2023年，CUDA的开发者已达400万，包括Adobe等大型企业客户。而用户越多构成的生态粘性就越大。相比之下，AMD在2016年推出了ROCm，目标是建立可替代英伟达CUDA的生态。在发布M...PC版：https://www.cnbeta.com.tw/articles/soft/1365759.htm手机版：https://m.cnbeta.com.tw/view/1365759.htm

售价超25万 NVIDIA顶级显卡抢购到明年：台积电加急生产

售价超25万NVIDIA顶级显卡抢购到明年：台积电加急生产订单在手，NVIDIA也紧急向台积电下单增产A100、H100等高性能AI显卡，导致后者的5nm产能利用率几近满载，现在台积电采用的是超级急件的方式给NVIDIA生产。即便如此，订单到今年底都是满载的，实在是太火了。H100基于GH100GPU核心，定制版台积电4nm工艺制造，800晶体管，集成18432个CUDA核心、576个张量核心、60MB二级缓存，支持6144-bitHBM高带宽内存，支持PCIe5.0。H100计算卡有SXM、PCIe5.0两种样式，其中SXM版本15872个CUDA核心、528个Tensor核心，PCIe5.0版本14952个CUDA核心、456个Tensor核心，功耗最高达700W。性能方面，FP64/FP3260TFlops(每秒60万亿次)，FP162000TFlops(每秒2000万亿次)，TF321000TFlops(每秒1000万亿次)，都三倍于A100，FP84000TFlops(每秒4000万亿次)，六倍于A100。...PC版：https://www.cnbeta.com.tw/articles/soft/1367365.htm手机版：https://m.cnbeta.com.tw/view/1367365.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人