AI芯片的一百种死法

AI芯片的一百种死法 LPU的全称是Language Processing Unit,翻译过来就是语言处理单元,是一种新型AI加速器。在它的支持下,大模型的推理速度快得惊人,瞬间能输出长篇幅答案;而使用了英伟达芯片的GPT-4,只能一个字一个字往外蹦。前者的响应速度最高可达到500T/S,而后者只有40T/S[1]。这是什么概念?相当于一秒钟生成300个单词,7分钟生成一部《哈姆雷特》长度级的文章。Groq背后的团队也可谓群星璀璨,公司CEO Jonathan Ross是Google初代TPU的设计者之一。早期GoogleTPU团队的10位成员中,8位都跳槽到了Groq。自2016年成立,Groq就饱受市场关注。2020年,Groq的芯片被美国阿贡实验室采用。2021年,Groq获老虎环球基金等机构投资,估值超过10亿美元。然而,Groq公司的各种“挑衅”,英伟达完全没放在眼里。相比之下,此前“奥特曼7万亿美元造芯”的新闻出来之后,黄仁勋至少还出来说了两句。毕竟,眼下Groq的种种套路,老黄可再熟悉不过了。文字游戏当下,制约AI芯片发展的主要困境,是内存墙:内存的传输速度远远慢于处理器算力,导致性能迟迟上不去。如果把芯片想象成一个餐厅,那么内存就是仓库,处理器就是后厨。仓库送菜比后厨烹饪还慢,严重限制了餐厅的出菜速度。因此,包括英伟达在内的芯片厂商,都在围绕“仓库(内存)”做文章。而Groq碾压英伟达的秘诀,也藏在内存结构里。传统计算机所使用的内存,其实有两种:DRAM容量较大,但传输速度较慢,起主存作用;而SRAM容量较小,但传输速度极快,作为缓存发挥辅助作用。一直以来,二者都是合作关系,缺一不可。但Groq为了追求极致的速度,摒弃了DRAM,让SRAM扛起了LPU主存大旗。相当于砍掉距离厨房较远的大仓库,直接将所有食材都堆在厨房边的菜篮子里。 这样的设计思路下,LPU不但在速度上形成降维打击,还轻松绕过了两个成本最高的技术: HBM和先进封装。这也构成了Groq另一个大吹特吹的宣传核心:便宜。根据Semi Analysis的拆解,LPU由于具备架构优势,物料成本仅为1050美元。相比之下,去年全球疯狂的H100芯片,物料成本则达到3700美元[2]。在售价层面,一块LPU的价格是20000美元,远低于H100的35000美元。但历史无数次告诉我们,大部分弯道超车的结局都是有田下山,LPU也不例外。大模型对内存大小也有着很高的要求。参数量越大的模型,运行时所需要存储的数据也会更多。SRAM虽然快,但缺陷是容量小,通常只有4-16MB。Groq研发团队多年苦心钻研,最终也只是将LPU的容量提升至230MB。而一块H100的内存容量是80GB,两者间差了约356倍。菜篮子再怎么升级换代,终究无法和仓库相提并论。想装下所有的食材,唯一的办法就是把菜篮子数量堆上去。因此,在运行同样参数的模型时,需要用到的LPU数量就远远高于GPU。前阿里技术副总裁贾扬清就算了一笔账:以运行LLaMA 70b模型为例,需要572张LPU,售价1144万美元;但如果换成H100,其实只需要8张,总价格在30万美元左右所谓的“便宜”压根不成立。芯片一多,整体的功耗成本也直线上升。LPU每年至少消耗25.4万美元电费,而H100顶多花费2.4万美元。事实证明,Groq的遥遥领先,只是隐去了核心信息的文字游戏。它所宣传的“高速”,是以近乎夸张的使用成本换来的:运行三年LLaMA 70b模型,LPU的使用成本将比英伟达的GPU高出32倍。当然,Groq的研发团队,显然对此心知肚明。选择此时大张旗鼓,更像是一种拉投资的举动。事实上,这已经不是Groq第一次公开“蹭热度”了。之前GPT Store刚发布时,Groq给OpenAI的奥特曼发了一封信,嘲笑使用GPTs跟在“深夜读《战争与和平》一样缓慢”。马斯克的聊天机器人Grok发布时,它也跑去贴脸嘲讽,质疑Grok抄袭了自己的名字。过去几年,打着“替代英伟达”旗号的初创公司数不胜数,Groq只不过是其中之一。目前,在超车英伟达的这条弯道,已经出现了严重塞车。前车之鉴Groq最直观的参考样本,来自英国公司Graphcore。Graphcore诞生之初,也曾拿着“技术路线别出心裁、演示视频酷炫惊艳、性能数据秒杀同行”的剧本,拳头产品IPU与Groq的LPU设计思路异曲同工,也是用高速的SRAM取代DRAM作为芯片内存,以实现极致的传输性能。同时,Graphcore调整了芯片架构,专注于处理高性能计算。它曾颇有自知之明地表示“不与英伟达直接竞争”,只将目标客户定位在,特别需要大量高性能计算的化学材料和医疗等特殊领域。Graphcore的两位创始人2019年,微软成为Graphcore首款IPU的大客户。 2020年5月,微软科学家将IPU内置于微软Azure操作系统中,用于识别胸部X光片。 这位科学家说道:“Graphcore芯片可以在30分钟内完成,GPU需要5个小时才能完成的工作。”在最风光的2016至2020年间,Graphcore共拿到了7.1亿美元融资,估值高达27.7亿美元,一度被视为全英国乃至欧洲全村的希望。Graphcore的投资者不仅有微软、三星、戴尔等科技巨头,也囊括了红杉资本、柏基投资等顶级风投。相比今天的Groq,当年的Graphcore只能说有过之无不及。但Graphcore的后续发展却远远不及当时的预期。2022年,Graphcore全年营收只有270万美元,为英伟达同期收入的万分之一,且相较前一年下降46%,亏损达到了2亿美元。 2023年,人工智能浪潮爆发,英伟达业绩再度暴涨。 H100一卡难求之时,Graphcore以为自己至少能捡到英伟达的漏,结果却连汤都没喝着。去年,Graphcore的创始人Nigel Toon向英国首相写了篇“公开信”,讨要补贴。他写道,“Graphcore已经为英国预留了多达3000个IPU芯片,可以为整个国家提供服务”,几乎已经是明示要钱[4]。不久前,一面业绩亏损,一面融资无果的Graphcore走向了最后一条路: 寻求收购。 根据The Telegraph爆料,其售价可能在5亿多美元不到2020年最高估值时期的五分之一[5]。当年,以Graphcore为首的挑战者们,各怀绝学,来势汹汹,颇有一种八大门派围攻光明顶的既视感。然而,如今多已散作鸟兽状。去年3月,芯片公司Mythic一度因资金耗尽而濒临倒闭,快要淹死之际,才好不容易等到了救命缰绳,拿到了1300万美元融资。另一家芯片公司Blaize也出现了类似的困境,最后靠着中东土豪的投资,才活了下来。剩下的公司中,Habana可能是唯一活得不错的它被英特尔以20亿收购,保留了独立运营的权利。从Graphcore到Mythic,这些芯片公司的技术路线各不相同;然而,它们失败的原因,却出奇一致。事实上,今天大火的Groq,同样也极有可能倒在同一个地方:芯片卖不出去。真正的护城河英伟达的GPU固然厉害,但它卖芯片的套路,才是真正的护城河。每年,英伟达都会投入相当一部分的研发经费,围绕GPU搭建系统性能力。当然,这是高情商的说法,低情商的说法是开发一起“捆绑销售”的产品这才是英伟达最坚实的城墙。目前,英伟达的城墙共有3层:第一层城墙,是CUDA的编程生态。众所周知,GPU最初的使用场景是游戏与视频图像渲染。早期,一些华尔街精英偶尔利用GPU的并行计算能力来跑交易,但由于需要重新编写大量代码,因此并未广泛传播开来。黄仁勋坚信GPU能用于更多领域,因此在2006年推出了降低编程门槛的软件架构CUDA,和自家GPU捆绑推出。后来,苹果和AMD都推出了类似平台,但此时CUDA生态早已构建,在“用得人越多,CUDA越好用,新开发者越倾向于选择CUDA”的良性循环中稳定前进。如今,CUDA可以让英伟达GPU的使用成本大幅降低。一位私有云CEO曾在接受采访时说过,理论上AMD卡也不是不能用,但要把这些卡调试到正常运转,需要多耗费两... PC版: 手机版:

相关推荐

封面图片

AI芯片黑马Groq一夜爆红:成本推算争议不断 前员工现员工互撕

AI芯片黑马Groq一夜爆红:成本推算争议不断 前员工现员工互撕 连原阿里副总裁贾扬清都公开算账,分析LPU和H100跑大模型的采购和运营成本到底差多少。就在Groq风风火火之际,全球最大AI芯片公司英伟达陷入了一些振荡。今日英伟达官宣将在3月18日-21日举办其年度技术盛会GTC24,但其股市表现却不甚理想。受投资者快速撤股影响,英伟达今日股价降低4.35%,创去年10月以来最大跌幅,一日之间市值缩水780亿美元。▲英伟达太平洋时间2月20日股价出现显著下跌Groq则在社交平台上欢欢喜喜地频繁发文加转发,分享其合作伙伴及网友们对LPU的实测结果及正面评价。一些积极观点认为,LPU将改变运行大语言模型的方式,让本地运行成为主流。根据Groq及一些网友分享的技术演示视频及截图,在LPU上跑大语言模型Mixtral 8x7B-32k,生成速度快到接近甚至超过500tokens/s,远快于公开可用的OpenAI ChatGPT 4。▲输入相同指令,ChatGPT 4生成回答的时间大约1分钟,而在Groq上运行的Mixtral 8x7B-32k只用时11秒。“这是一场革命,不是进化。”Groq对自己的进展信心爆棚。2016年底,GoogleTPU核心团队的十个人中,有八人悄悄组队离职,在加州山景城合伙创办了新公司Groq。接着这家公司就进入神隐状态,直到2019年10月才通过一篇题为《世界,认识Groq》的博客,正式向世界宣告自己的存在。随后“官网喊话”就成了Groq的特色,尤其是近期,Groq接连发文“喊话”马斯克、萨姆·阿尔特曼、扎克伯格等AI大佬。特别是在《嘿 萨姆…》文章中,公然“嫌弃”OpenAI的机器人太慢了,并给自家LPU打广告,声称运行大语言模型和其他生成式AI模型的速度是其他AI推理解决方案速度的10倍。现在,Groq继续保持着高调,除了官号积极出面互动外,前员工和现员工还在论坛上“撕”起来了。前员工质疑实际成本问题,现员工则抨击这位前员工离开并创办了一家Groq的竞争对手+没做出“世界最低延迟的大语言模型引擎”+没保证“匹配最便宜的token价格”。面向LPU客户的大语言模型API访问已开放,提供免费10天、100万tokens试用,可从OpenAI API切换。Groq致力于实现最便宜的每token价格,承诺其价格“超过同等上市型号的已发布供应商的任何已公布的每百万tokens价格”。据悉,Groq下一代芯片将于2025年推出,采用三星4nm制程工艺,能效预计相较前一代提高15~20倍,尺寸将变得更大。执行相同任务的芯片数量也将大幅减少。当前Groq需要在9个机架中用576颗芯片才能完成Llama 2 70B推理,而到2025年完成这一任务可能只需在2个机架使用大约100个芯片。01.1秒内写出数百个单词,输出tokens吞吐量最高比竞品快18倍按照Groq的说法,其AI推理芯片能将运行大语言模型的速度提高10倍、能效提高10倍。要体验LPU上的大语言模型,需先创建一个Groq账户。输入提示词“美国最好的披萨是什么?”跑在LPU上的Mixtral模型飞速给出回答,比以前慢慢生成一行一行字的体验好很多。它还支持对生成的答案进行修改。在公开的大语言模型基准测试上,LPU取得了压倒性战绩,运行Meta AI大语言模型Llama 2 70B时,输出tokens吞吐量比所有其他基于云的推理供应商最高要快18倍。对于Time to First Token,其缩短到0.22秒。由于LPU的确定性设计,响应时间是一致的,从而使其API提供最小的可变性范围。这意味着更多的可重复性和更少的围绕潜在延迟问题或缓慢响应的设计工作。AI写作助手创企HyperWriteAI的CEO Matt Shumer评价LPU“快如闪电”,“不到1秒写出数百个单词”,“超过3/4的时间花在搜索上,而非生成”,“大语言模型的运行时间只有几分之一秒”。有网友分享了图像生成的区域提示,并评价“非常印象深刻”。02.贾扬清分析采购和运营成本:比H100服务器贵多了Groq芯片采用14nm制程工艺,搭载230MB片上共享SRAM,内存带宽达80TB/s,FP16算力为188TFLOPS,int8算力为750TOPS。Groq在社交平台上解答了一些常见问题:1、LPU为每token提供很好的价格,因为效率高而且拥有从芯片到系统的堆栈,没有中间商;2、不卖卡/芯片,除非第三方供应商将其出售给研究/科学应用团体,销售内部系统;3、其设计适用于大型系统,而非单卡用户,Groq的优势来自大规模的设计创新。与很多大模型芯片不同的是,Groq的芯片没有HBM、没有CoWoS,因此不受HBM供应短缺的限制。在对Meta Llama 2模型做推理基准测试时,Groq将576个芯片互连。按照此前Groq分享的计算方法,英伟达GPU需要大约10~30J来生成token,而Groq每token大约需要1~3J,也就是说推理速度是原来的10倍,成本是原来的1/10,或者说性价比提高了100倍。Groq拿一台英伟达服务器和8机架Groq设备做对比,并声称非常确定配备576个LPU的Groq系统成本不到英伟达DGX H100的1/10,而后者的运行价格已超过40万美元。等于说Groq系统能实现10倍的速度下,总成本只有1/10,即消耗的空间越多,就越省钱。自称是“Groq超级粉丝”的原阿里副总裁、创办AI infra创企Lepton AI的贾扬清则从另一个角度来考虑性价比,据他分析,与同等算力的英伟达H100服务器成本比较,Groq LPU服务器实际要耗费更高的硬件采购成本和运营成本:1. 每张Groq卡的内存为230MB。对于Llama 70B模型,假设采用int8量化,完全不计推理的内存消耗,则最少需要305张卡。实际上需要的更多,有报道是572张卡,因此我们按照572张卡来计算。2. 每张Groq卡的价格为2万美元,因此购买572张卡的成本为1144万美元。当然,因为销售策略和规模效益,每张卡的价格可能打折,姑且按照目录价来计算。3. 572张卡,每张卡的功耗平均是185W,不考虑外设,总功耗为105.8kW。(注意,实际会更高)4. 现在数据中心平均每千瓦每月的价格在200美元左右,也就是说,每年的电费是105.8 x 200 x 12 = 25.4万美元。(注意,实际会更高)5. 基本上,采用4张H100卡可实现Groq的一半性能,也就是说,一台8卡H100与上面的性能相当。8卡H100的标称最大功率为10kW(实际大概在8-9kW),因此每年电费为2.4万美元或更低一些。6. 今天8卡H100的采购成本约为30万美元。7. 因此,如果运行三年,Groq的硬件采购成本是1144万美元,运营成本是76.2万美元或更高。8卡H100的硬件购买成本是30万美元,运营成本为7.2万美元或更低一些。如果按这个算法,运行3年,Groq的采购成本将是H100的38倍,运营成本将是H100的10倍。贾扬清还在评论区谈道:“老实说,我们对当前的token价格+速度SLA组合感到不适。换句话说,我们对token价格感到满意,但如果并行调用API,我们无法保证速度。”03.存算一体+软件定义硬件:编译器优先,开发速度快,易定制调试Groq联合创始人兼CEO Jonathan Ross曾宣称,相比用英伟达GPU,LPU集群将为大语言推理提供更高吞吐量、更低延迟、更低成本。“12个月内,我们可以部署10万个LPU;24个月内,我们可以部署100万个LPU。”Ross说。▲Groq领导层根据官网信息,LPU代表语言处理单元,是Groq打造的一种新型端到端处理单元,旨在克服大语言模型的计算密度和内存带宽瓶颈,计算能力超过GPU和CPU,能够减少计算每个单词所需时间,更快生成文本序列。消除外部内存瓶颈使得LPU推理引擎能够在大语言模型上提供比GPU好几个数量级的性能。LPU采用了单核心时序指令集计算机架构,无需像传使用高带宽存储(HBM)的GPU那样频繁从内存中加载数据,能有效利用每个时钟周期,降低成本。▲传统GPU内存结构▲Groq芯片内存结构Groq芯片的指令是垂直走向,而数据流向东西流动,利用位置和功能单元相交以执行操作。通过将计算和内存访问解耦,... PC版: 手机版:

封面图片

全球首块英伟达H200 AI超级芯片交付 黄仁勋给OpenAI“送货上门”

全球首块英伟达H200 AI超级芯片交付 黄仁勋给OpenAI“送货上门” H200基于英伟达Hopper架构打造,并配备英伟达H200 Tensor Core GPU,处理速度为4.8TB/秒。H200拥有141GB的内存,与前代产品H100相比,H200的容量几乎翻了一番,运行大模型的综合性能相比前代H100提升了60%到90%。英伟达此前表示,H200在运行GPT-3时的性能,将比原始A100高出18倍,同时也比H100快11倍左右。值得一提的是,H200还将与H100兼容,使用H100训练/推理模型的AI企业,可以无缝更换成最新的H200芯片。 ... PC版: 手机版:

封面图片

AMD 正式发布 MI300 加速器,性能较英伟达 H100 芯片提高 60%

AMD 正式发布 MI300 加速器,性能较英伟达 H100 芯片提高 60% 在美国加州圣何塞举行的 AI 特别活动中,AMD 宣布正式推出其旗舰 AI GPU 加速器 MI300X,并称其性能比英伟达的 H100 芯片提高了 60%。 据 AMD 介绍,新芯片为性能最高的芯片,拥有超过 1500 亿个晶体管。与英伟达 H100 芯片相比,AMD 新芯片的内存为其 2.4 倍,内存带宽为其 1.6 倍,训练性能与 H100 芯片相当,在运行 AI 模型方面则比英伟达快得多。 、

封面图片

英伟达发布用于人工智能的“世界上最强大芯片”Blackwell B200 GPU

英伟达发布用于人工智能的“世界上最强大芯片”Blackwell B200 GPU 英伟达的 H100 AI 芯片使其成为价值数万亿美元的公司,其价值可能超过 Alphabet 和亚马逊,而竞争对手一直在奋力追赶。但也许英伟达即将通过新的 Blackwell B200 GPU 和 GB200“超级芯片”扩大其领先地位。该公司在加州圣何塞举行的 GTC 大会上表示,新的 B200 GPU 拥有 2080 亿个晶体管,可提供高达 20petaflops 的 FP4 算力,而 GB200 将两个 GPU 和单个 Grace CPU 结合在一起,可为 LLM 推理工作负载提供30倍的性能,同时还可能大大提高效率。英伟达表示,在具有 1750 亿个参数的 GPT-3 LLM 基准测试中,GB200 的性能是 H100 的7倍,而英伟达称其训练速度是 H100 的4倍。

封面图片

加钱扫货、走私、装甲车运输,揭秘AI芯片背后的黑市风暴

加钱扫货、走私、装甲车运输,揭秘AI芯片背后的黑市风暴 两位以狂妄著称的大佬甘愿伏低做小,只为能多分到一些“比毒品还难搞到”的英伟达GPU,最终两人未能如愿。而另一家硅谷巨头思科为了保护刚买来的英伟达GPU,干脆动用装甲车来运。正如科幻作品《沙丘》将香料设定为宇宙最重要的资源。今天同样可以大胆宣称:谁掌握了GPU,谁就掌握了AI时代的命脉。去年以来,在加速计算和生成式AI的带动下,算力需求陡增。英伟达GPU作为提供算力的核心硬件,业界对其的需求早已“远远超过了英伟达所能供应的极限”。为了获得尽可能多的GPU,全球科技圈从贵族俱乐部化身为私酒时代的芝加哥,产品、流量与增长交织的史诗,让位于充斥着贪婪、炫耀、谄媚与背叛的大模型舞台剧。从破产边缘到80亿美元估值在过去一年,英伟达GPU极度短缺,全世界的大厂或创业公司都在各显神通解决“芯荒”难题。对中国企业来说,GPU短缺则是政策和产能两方面造成的。从2022年10月开始,英伟达就被禁止向中国出口A100、H100这两款高端GPU。二道贩子们敏锐地嗅到了其中的商机。一些企业从自家机房里把芯片禁令生效前购买的A100拆出来,卖给贩子。这些没有保修、没有质保的旧芯片,非但没有贬值,价格还从出厂时的8万多元涨到了10多万元。A100、H100分别由英伟达在2020年及2022年推出,上市时间并不长,其在国内市场的存货相当有限。另外,A100分为80GB、40GB两个显存版本,显存越大,所能运行的神经网络越大,训练大语言模型效果越好。厂商都想买80GB显存版本的A100,导致存货更加紧缺。因此,有一些黑心贩子将A100的40GB版本改成80GB的来卖,很多急于购买的企业一时失察,买回去才发觉货不对板。由于这类GPU来源特殊,上当的买家根本没有质保和维权的途径,只能吃哑巴亏。可即便如此,低配置的二手A100在2023年依然供不应求。过去一年,市面上英伟达GPU价格涨幅一度到了200%。A100最火爆的时候,网传最高成交价接近25万元。按照这个价格,两块GPU就能换来一辆全新奔驰E级轿车。二道贩子卖机房拆来的A100赚差价,毕竟只是小打小闹。真正靠倒卖二手GPU发家的,还要属一家名为CoreWeave的美国公司。CoreWeave最开始是一家“挖”比特币的公司,其CEO回忆:“2016年,我们购买了第一块英伟达GPU,插上电源后,将其放在曼哈顿办公室的台球桌上,然后挖到了以太坊网络上的第一个币。”在生成式AI火爆之前,英伟达GPU除了作为游戏显卡,最赚钱、最大的应用场景就是用于加密货币“挖矿”。因为GPU能以最快速度处理海量简单重复的问题,天然就很适合用于昼夜不停地挖比特币。而CoreWeave的三位创始人,一开始也只是将”挖矿”用于赚取额外收入,他们的本职工作是经营对冲基金和家族办公室。可由于2016年加密货币热,他们的GPU越买越多,导致“华尔街的办公桌上堆满了GPU”。到2018年底,CoreWeave已经成为了北美最大的以太坊“矿场”,拥有超过五万块GPU,占以太坊网络总量的1%以上。通过将英伟达GPU用作“矿卡”,CoreWeave在加密货币领域赚到了第一桶金。但在2018年之后,市场行情急转直下,加密货币大幅贬值,与加密货币深度绑定的CoreWeave也几度面临财务危机,险些倒闭。到2019年,CoreWeave决定转型做服务。CoreWeave加入英伟达的云服务提供商计划,也就是围绕英伟达的芯片构建了专门的云基础设施。如果说英伟达是算力厂商,那CoreWeave就相当于算力经销商。到2022年底,ChatGPT发布,生成式AI突然爆火,CoreWeave手头数万块GPU成为了硬通货,因为GPU非常适合用于训练AI大模型。它摇身一变,依靠手中积攒的GPU,向OpenAI、微软、Inflection等众多AI巨头卖算力。2023年4月,CoreWeave还获得来自英伟达的B轮融资。黄仁勋在业绩电话会上点名:“一大批新的GPU专业化云服务提供商正在出现,最知名的当属CoreWeave,他们做得非常出色。”英伟达对“亲信”CoreWeave可谓非常偏心。在一份研究机构Omdia披露出的英伟达H100供货单中,CoreWeave获得的H100数量,比特斯拉还多。也正因为英伟达的“偏心”,除了卖算力服务,CoreWeave以囤积的英伟达芯片为抵押,从黑石、Coatue等顶级机构获得了23亿美元的债务融资。一举将公司从破产边缘,拉到了投后估值80亿美金。冒高风险,买走私卡不是谁都有CoreWeave这么好的运气。跟英伟达关系不够亲密的企业,尤其是中小企业,购买“走私芯片”就成为一种无奈之下的选择。随着全球AI大模型竞争愈发激烈,A100已经不能满足一些企业的需求,性能更强劲的H100日趋抢手。问题在于,H100实在太新了,存货更少。没有存货,二道贩子也无处发挥,走私贩子们登场了。走私贩子们的来货渠道主要有两条:一是等英伟达向美国大型企业发货后,抢购市场上的剩余库存;二是通过在印度、新加坡、马来西亚等地注册公司进口。相比于只有指甲盖大小的微型芯片,H100的尺寸并不小。根据英伟达官方公布的尺寸,H100整个芯片大小为814平方毫米,大概有两个手掌大,走私贩子只能将H100放进背包,接受正式的过关安检。有走私贩子透露,由于每个国家把控严格度不一,如果把H100放在包里,把它报成普通电子设备。麻烦的是服务器架。H100需要插在服务器架上,才能用于训练AI大模型。一套完整AI服务器要配置8块H100,加上一台超微电脑的服务器架,大约相当于一个保险柜。面对如此庞然大物,自然无法靠人肉背回。一般的做法是化整为零,将服务器拆开,用蚂蚁搬家地方式发回。至于运输途中关键部件是否会损坏,运到目的地如何拼装回去,一切都存在极大的风险。H100在2022年3月刚发售时,售价折合人民币约24.2万元。如果在两年前屯了一批H100,什么都不用做,每张到现在能净赚6到9万元。在过去一年间,从朋友圈、小红书等社交平台,到拼多多、闲鱼等电商平台,再到各类垂直社区、垂直社群,有无数贩子打出了“H100现货,手慢无!”、“稀缺H100现货,先到先得!”、“原厂H100,见货付款,欲购从速!”的标签。而如果进一步私聊,这些芯片贩子会告诉你,产品没有保修或支持服务,到货最起码需要6到8周,并且需要先付定金。如果问及发货地和货源,贩子们大多会回答称“海外发货,大陆交付,可以送至指定地点。”据买家爆料,走中小型中间商渠道,风险很高。首先,交了定金,后续也可能因各种原因拿不到货。其次,即使能拿到货,诸如运输过程中磕碰、泡水等现象,也时有发生,“碰到这种情况就只能自认倒霉,根本不存在退货一说。”可即便如此,在各个社交平台“H100预购从速”的帖子下方,仍然有成群结队的用户在咨询价格。抢购、加钱、售罄购买走私GPU不是常态,对大公司而言,终究还是得跟英伟达做正经生意,从官方渠道购买A100、H100。2022年的出口禁令下发后,经英伟达游说,重新获得了出口许可。在2023年3月1日之前,英伟达可以继续给中国大陆提供A100产品。各家科技巨头赶紧行动,经历了“从抢购,到加钱,到售罄”的心路历程。据《晚点》报道,张一鸣在卸任CEO后,把工作重点放在了研究AI上,不仅自己看AI相关论文,还经常跟一些字节高层分享论文学习心得,以及对ChatGPT的思考。高层对AI的重视,让字节在提前抢购英伟达芯片时占得了先机。在GPT-4发布后不到3个月,字节就被爆出,向英伟达订购了超过10亿美元(约合人民币71亿)的GPU,到货和没到货的A100和H800总计有10万块。考虑到2022年全年,英伟达数据中心GPU在中国销售额大约... PC版: 手机版:

封面图片

马斯克称到2024年底特斯拉的AI训练能力将相当于约85000件H100 芯片

马斯克称到2024年底特斯拉的AI训练能力将相当于约85000件H100 芯片 早在今年 1 月,埃隆-马斯克(Elon Musk)在确认对特斯拉 Dojo 超级计算机投资 5 亿美元(相当于约 1 万个 H100 GPU)的同时,还宣布这家电动汽车巨头"今年在英伟达硬件上的花费将超过这个数字",因为"在人工智能领域具有竞争力的赌注目前每年至少有几十亿美元"。现在,埃隆-马斯克(Elon Musk)透露了他在人工智能方面的真正雄心壮志:到 2024 年底,特斯拉的人工智能训练计算能力将同比增长约 467%,达到 85000 等效单位的NVIDIA H100 GPU。这种激进的扩张已经迫使特斯拉牺牲其自由现金流。作为2024 年第一季度财报的一部分,这家电动汽车巨头透露,"受第一季度库存增加 27 亿美元和人工智能基础设施资本支出 10 亿美元的影响,该季度自由现金流为-25 亿美元。"埃隆-马斯克(Elon Musk)也在其人工智能企业 xAI 积极部署人工智能计算能力。我们在最近的一篇文章中指出,xAI 目前可能拥有 2.6 万到 3 万块英伟达(NVIDIA)的人工智能显卡。英伟达的 H100 芯片预计将在今年某个时候让位于最新的GB200 Grace Blackwell 超级芯片。该芯片结合了一个基于Arms的Grace CPU和两个Blackwell B100 GPU,可以部署一个包含27万亿个参数的人工智能模型。此外,这款超级芯片在执行聊天机器人提供答案等任务时,速度有望提高30 倍。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人