全球首个海底智算中心平台在海南启动 总算力超过2000PFlops 用海水散热

全球首个海底智算中心平台在海南启动 总算力超过2000PFlops 用海水散热 目前,位于海南陵水的海底数据中心一期项目已运营一年多,各项运营指标和业务指标均符合预期。在此基础上迭代的海底智算中心,将部署高功率密度的人工智能服务器,充分利用海底数据中心高功率、高能效的特性。以1MW外电配给为参考,海底智算中心凭借高功率密度设计,单舱可提供1400PFlops算力,算力效率提升40%。同时,海底智算中心全年使用海水作为自然冷源,海底智算中心常年实际运营PUE(能源利用效率)小于1.1。而且还让硬件远离了人类活动区域,提供了稳定的工作环境,并且实现了无尘、无氧环境,进一步保护电子器件。 ... PC版: 手机版:

相关推荐

封面图片

海南陵水:全球首个商用海底数据中心下水

海南陵水:全球首个商用海底数据中心下水 数据中心由岸站、水下中继站、水下数据终端和海缆组成。 数据中心的核心装备海底数据舱呈圆柱形罐体状,舱内是恒湿、恒压和无氧的安全密闭环境,重量达1300吨,罐体直径达3.6米,结构设计寿命为25年,应用水深超30米。()

封面图片

大湾区首个大规模全液冷智算中心完工:可提供1.5万P算力服务

大湾区首个大规模全液冷智算中心完工:可提供1.5万P算力服务 该架构集成了液冷、人工智能、数字孪生以及一体化安全防护等尖端技术,为粤港澳大湾区提供了高达1.5万P的算力服务,满足了区域日益增长的数据处理需求。据技术人员介绍,单个智算中心内配置了38个液冷方舱,每个方舱均能提供约385P的算力。这种高效配置不仅确保了数据处理的高效性,也为未来的扩容升级预留了充足的空间。与传统机房相比,该智算中心采用的液冷技术显著降低了制冷能耗,节能幅度高达约60%。这一技术的应用不仅提升了数据中心的能效比,还增强了其运行的稳定性,对于推动数据中心绿色、低碳发展具有深远的意义。作为大湾区首个大规模全液冷智算中心,该项目不仅是国家“东数西算”战略在大湾区的核心布局,也是全国一体化算力网络八大枢纽节点之一。它的建成将进一步推动大湾区的数字经济发展,为区域的经济繁荣注入新的活力。 ... PC版: 手机版:

封面图片

马斯克AI领域动作频频:规划“算力超级工厂” 与扎克伯格又杠上了

马斯克AI领域动作频频:规划“算力超级工厂” 与扎克伯格又杠上了 与扎克伯格“冤家路窄”随着马斯克收购Twitter(现在改名为X)后,他与Meta老板扎克伯格就成了直接竞争对手。而社交媒体平台对定制化聊天AI的独特需求,也使得他们同时叩响了硅谷创业公司Character.ai的大门。Character.ai是一家专门开发AI聊天机器人创作平台的公司,致力于打造模拟真实人物(例如黄仁勋、爱因斯坦)或虚拟人物(例如游戏《原神》的里某个角色)语言风格的聊天机器人。(由用户创建并发布在平台上的“爱因斯坦机器人”,来源:Character.ai)值得强调的是,Character.ai的创始人Noam Shazeer,正是当年GoogleTransformer论文的作者之一。时隔多年,这批开创当今AI新格局的Google研究员们纷纷踏上了创业的道路。(Transformer论文作者齐聚今年英伟达GTC大会,左二为Noam Shazeer,来源:英伟达)据多名知情人士表示,Meta公司与xAI都与Character.ai展开了早期的讨论,主要涉及研究层面的合作,例如模型开发和预训练。Meta此前曾表示,正在整合AI人物聊天机器人到旗下Facebook、Instagram等多个平台,其中也会包括一些“扮演名人”的机器人。与此同时,xAI也开发了聊天机器人Grok,供X平台的付费订阅用户使用。对于马斯克和扎克伯格而言,他们在开发专属人物AI层面也有一项其他科技巨头不具备的优势手里有着大量社交媒体的数据。建设“算力超级工厂”在AI领域要有一番作为,也离不开持续砸钱搞算力。根据科创媒体The Information周六报道,在今年5月的一次投资者演示中,马斯克表示xAI计划建造一台规格惊人的超级计算机,直言这将是一个“算力超级工厂”。今年早些时候,马斯克曾经透露,训练Grok 2模型大约需要2万个英伟达H100 GPU,而训练下一代模型以及更高版本则会需要10万个英伟达H100芯片。颇为符合马斯克豪迈风格的是,他准备把所有芯片全串进一台“超级计算机”里。他对投资者们表示,这个项目如果能够完成,将至少是当今存在的最大GPU集群规模的四倍。马斯克同时也表态会亲自下场,推动这台机器在2025年秋季运作起来,并补充称可能会与甲骨文合作开发这台庞大的计算机。虽然特斯拉自己也在开发Dojo超算,但“算力超级工厂”依然还是要排队抢购英伟达的芯片。在今年3月英伟达的Blackwell新闻稿中,马斯克就公开喊话称英伟达的人工智能硬件是“最好的”。(来源:英伟达)值得一提的是,本月中旬时曾有消息称,xAI接近与甲骨文达成一项持续多年、价值“百亿美元”的云算力供应协议,一度推高甲骨文股价。一边不断采购算力,同时自建“算力超级工厂”,xAI追赶市场领跑者的架势已经显露无疑。有知情人士称,xAI正在以240亿美元的估值目标展开融资,计划在未来几周内筹集超过60亿美元。粗略估算,这笔钱大概够买20万个H100芯片。从AI大厂的角度来看,60亿美元大概只够烧1-2年的功夫。马斯克自己也曾承认,现阶段要在AI赛道具有竞争力,每年至少要花几十亿美元。题外话:AI大佬早早布局“泛AI赛道”随着英伟达本周又一次交出验证AI景气度的财报,美股市场也呈现了新的动向除了炒芯片股外,资金也开始运作电力、电厂、电气设备、光伏等与数据中心配套有关的板块。马斯克自然不必多说,特斯拉旗下拥有成熟的储能业务,同时也是不少光伏发电厂、光伏设备制造商的供应商。OpenAI首席执行官山姆·奥尔特曼投资的核裂变初创公司Oklo也在本月中旬登陆美股市场。公司的首席执行官Jacob DeWitte本周接受采访时表示,目前来询问电力采购的80%客户都是数据中心运营商,他预期这种状况只是“冰山一角”,未来数据中心的需求还会更多。Oklo本周宣布签订了一份100兆瓦规模的数据中心园区供电协议。不过公司至今尚未获得建设小型核电站的许可,DeWitte也表示2027年前都不太可能有投入运营的电站。 ... PC版: 手机版:

封面图片

GPT-5红队测试邮件曝光,最早6月发布?数十亿美元超算26年启动

GPT-5红队测试邮件曝光,最早6月发布?数十亿美元超算26年启动 此前有传闻说,GPT-5将于今年6月发布。看起来,红队测试与模型发布的时间线十分吻合。有网友直接晒出了自己收到OpenAI邮件邀请的截图。据悉,GPT-5早已为大家准备好,只是发布风险太大了,所以还得往后延。三个月就能用了?不过还有人表示,先别急,这些人只是收到了红队邀请测试而已,并没有提及具体模型。有可能是他们填了如下的申请信息之后,才收到了邮件。安全测试对于新版GPT如此重要的原因,一方面是ChatGPT已经有了非常大的用户数,如果在安全性上出问题,OpenAI可能也会面对像谷歌一样的舆论压力。另一方面,To B业务是OpenAI的主要收入来源,定制化的ChatGPT能大大增强各个企业的业务能力和效率。有人表示,红队测试会持续90-120天。如果此次红队测试就是针对GPT-5的话,那么三个月内,我们应该就能用上它了!而在坊间,这一传闻让群众们沸腾了!他们早已按捺不住对于GPT-5的猜测和畅想。比如,GPT-5的上下文窗口会达到多少?目前,Gemini 1.5 Pro是1M,Claude 3是200K,GPT-4是128K,不知道GPT-5会突破怎样的惊人纪录。大家纷纷列出自己对于GPT-5的愿望清单比如10Mtoken的上下文窗口,闪电般的快速干扰,长期战略规划和推理,执行复杂开放式操作的能力,GUI / API导航,长期情境记忆,始终处于隐形状态的RAG,多模态等等。有人猜,或许GPT-5会和Claude 3一样,提供几种不同的型号。有人总结了目前关于GPT-5和红队的最新谣言和传闻,大致要点如下-OpenAI预计于今年夏天发布GPT-5,部分企业客户已收到增强功能的演示;-GPT-5‘实质性更好’,相比GPT-4进行了重大升级。它需要更多的训练数据;-GPT-5的潜在功能包括生成更逼真的文本、执行翻译和创意写作等复杂任务、处理视频输入以及改进推理;-Sam Altman表示,GPT-5仍在训练中,没有确切的发布日期,广泛的安全测试可能还需数月。然而,他确认OpenAI今年将‘发布一个惊人的新模型’。在3月29日,获得内部信息的Runway CEO兼AI投资人Siqi Chen就称,GPT-5已经在推理方面取得了意想不到的阶跃函数增益。它甚至可以靠自己就独立地弄清楚,如何让ChatGPT不用每隔一天就登录一次。Ilya看到的东西,也许就是这个?这是不是就意味着,在OpenAI内部,已经实现了AGI?!如果是真的,这也太惊人了。‘我不相信,只有AGI才能实现这样的能力’。总之,网友们纷称,根据泄露的待办清单显示,OpenAI的下一项任务,就是发布GPT-5了!大家纷纷呼唤Altman,是时间放出GPT-5了,别太吹毛求疵了,我们要求不高。红队测试上阵,确保GPT-5安全早在23年9月,OpenAI就曾官宣招募一批红队测试人员(Red Teaming Network),邀请不同领域专家评估模型。不同领域专家组成的红队去寻找系统漏洞,成为确保下一代模型GPT-5安全的关键。那么,红队测试人员一般都需要做哪些工作?AI红队攻击的类型主要包括,提示攻击、数据中毒、后门攻击、对抗性示例、数据提取等等。‘提示攻击’是指在控制LLM的提示中注入恶意指令,从而导致大模型执行非预期的操作。比如,今年早些时候,一名大学生利用提示获取了一家大公司的机密信息,包括开发的AI项目的代码名称,以及一些本不应该暴露的元数据。而‘提示攻击’最大的挑战是,找到威胁行为者尚未发现、利用的新提示或提示集。红队需要测试的另一种主要攻击是‘数据中毒’。在数据中毒的情况下,威胁者会试图篡改LLM接受训练的数据,从而产生新的偏差、漏洞供他人攻击以及破坏数据的后门。‘数据中毒’会对LLM提供的结果产生严重影响,因为当LLM在中毒数据上接受训练时,它们会根据这些信息学习关联模式。比如,关于某个品牌、政治人物的误导性,或不准确信息,进而左右人们的决策。还有一种情况是,受到污染的数据训练后,模型提供了关于如何治疗常规疾病或病痛的不准确医疗信息,进而导致更严重的后果。因此,红队人员需要模拟一系列数据中毒攻击,以发现LLM训练和部署流程中的任何漏洞。除此以外,还有多元的攻击方式,邀请专家也是OpenAI确保GPT-5能够完成安全测试。GPT-5,真的不远了正如网友所言,红队测试开启,意味着GPT-5真的不远了。前段时间,Altman在博客采访中曾提到,‘我们今年会发布一款令人惊艳的新模型,但不知道会叫什么名字’。尽管如此,全网都一致地将OpenAI发布的下一代模型称为GPT-5,并有传言称代号为Arrakis的项目,就是GPT-5的原型。根据FeltSteam的预测,这个Arrakis的多模态模型,性能远超GPT-4,非常接近AGI。另外,模型参数据称有125万亿,大约是GPT-4的100倍,并在2022年10月完成训练。网友还总结了以往GPT系列模型发布时间表:GPT-1在2018年6月诞生,GPT-2在2019年2月,GPT-3在2020年6月,GPT-3.5在2022年12月,GPT-4仅在三个月后于2023年3月发布。关于GPT-5的发布时间,可能在今年夏天就问世。最近,网上流传的一张图上,显示了Y Combinator推出了GPT-5早期准入候补名单。网友发起疑问,我们都清楚奥特曼和YC的关系不同寻常。这是否意味着他们可以在模型或信息公开之前获得访问权限?而上月也有爆料称,已有用户对GPT-5上手体验过了,性能惊人。外媒透露,一些企业用户已经体验到了最新版的ChatGPT。‘它真的很棒,有了质的飞跃,’一位最近见识到GPT-5效果的CEO表示。OpenAI展示了,新模型是如何根据这位CEO公司的特殊需求和数据进行工作的。他还提到,OpenAI还暗示模型还有其他一些未公开的功能,包括调用OpenAI正在开发的AI智能体来自主完成任务的能力。GPT-5,一定是正确路线吗?不过,在万众瞩目期待GPT-5面世的呼声中,也有一些不一样的声音。比如有人觉得,GPT-5无法驾驶你的汽车,GPT-5无法解决核聚变问题,GPT-5无法治愈癌症……另外,我们对模型的追求,非得是更智能吗?更便宜、更快、更不费水电的模型,可能比单独的GPT-5更有革命性意义。有人同意这个观点,表示现在实在有太多人(尤其是开发者)过于痴迷GPT-5了。其实完全没必要这么狂热,使用当前的模型,就可以已经完成和构建太多东西。只需正确选择利基市场,构建满足该利基市场需求的AI产品,让用户可以直观地访问AI,专注于更好的UI/UX即可。公式很简单。我们真的有必要一味追求力大砖飞吗?很多人表示赞同,表示甚至用GPT-3.5就可以造出非常有价值的东西。问题不在于模型多先进,而在于怎样满足利基市场的需求。智算中心,先从小的建起而3月底曝出的用于训练GPT-6的千亿美元‘星际之门’超算,今天又被外媒挖出了更多新的内容。上周五,外媒The Information曝出了一个惊人消息:OpenAI和微软正在制定一项雄心勃勃的数据中心项目,预计耗资1000亿美元。此消息一曝出,AI和云计算行业人士的提问,像雪片一样袭来数据中心具体位于美国的哪个地区?为此,The Information又挖出了更多料,具体细节如下。首先,之前的消息说是星际之门最早在2028年启动,而最新消息显示,最快在2026年,就会在威斯康星州启动一个功率较小的数据中心。它的价值当然不到千亿美元,但估计仍会耗资数十亿。其他细节如下用英伟达芯片,但不用英伟达网线首先,这次数据中心的多数服务器机架,当然主要还是用的英伟达芯片。不过有趣的是,将各个AI芯片服务器连接起来的网线,则并不会采用英伟达的产品。据悉,OpenAI已经告知微软,自己不想再使用英伟达的InfiniBand网络设备。相反,它可能会使用基于以太网的电缆... PC版: 手机版:

封面图片

最强AI芯片WSE-3发布:4万亿个晶体管,90万核,125 PetaFLOPS算力

最强AI芯片WSE-3发布:4万亿个晶体管,90万核,125 PetaFLOPS算力 基于 5nm 的4万亿晶体管WSE-3专为训练业界最大的 AI 模型而构建,为Cerebras CS-3 AI 超级计算机提供动力,通过900,000 个 AI优化计算核心提供 125 petaflops 的峰值 AI性能。一颗惊人的芯片,约等于62颗H100Cerebras Systems表示,这款新器件使用台积电的5nm工艺打造,包含 4 万亿个晶体管;90万个AI核心;44GB 片上 SRAM;;外部存储器为1.5TB、12TB或1.2PB;峰值性能为 125 FP16 PetaFLOPS。Ceberas 的 WSE-3 将用于训练一些业界最大的人工智能模型,能训练多达 24 万亿个参数的 AI 模型;其打造的集群规模高达 2048 个 CS-3 系统。值得一提的是,当 Cerebras 提到内存时,他们谈论的更多是 SRAM,而不是片外 HBM3E 或 DDR5。内存与核心一起分布,目的是使数据和计算尽可能接近。为了展示这颗新芯片的规模,Cerebras 还将其与英伟达的H100进行了对比。除了将这款巨型芯片推向市场之外,Cerebras 取得成功的原因之一是它所做的事情与 NVIDIA 不同。NVIDIA、AMD、英特尔等公司采用大型台积电晶圆并将其切成更小的部分来制造芯片,而 Cerebras 将晶圆保留在一起。在当今的集群中,可能有数以万计的 GPU 或 AI 加速器来处理一个问题,将芯片数量减少 50 倍以上可以降低互连和网络成本以及功耗。在具有 Infiniband、以太网、PCIe 和 NVLink 交换机的 NVIDIA GPU 集群中,大量的电力和成本花费在重新链接芯片上。Cerebras 通过将整个芯片保持在一起来解决这个问题。凭借 WSE-3,Cerebras 可以继续生产世界上最大的单芯片。它呈正方形,边长为 21.5 厘米,几乎使用整个 300 毫米硅片来制造一个芯片。你可以在WSE芯片的相继推出中看到摩尔定律的作用。第一个于 2019 年首次亮相,采用台积电的 16 纳米技术制造。对于 2021 年推出的 WSE-2,Cerebras 转而采用台积电的 7 纳米工艺。WSE-3 采用这家代工巨头的 5 纳米技术制造。自第一个巨型芯片问世以来,晶体管的数量增加了两倍多。与此同时,它们的用途也发生了变化。例如,芯片上的人工智能核心数量已显着趋于平稳,内存量和内部带宽也是如此。尽管如此,每秒浮点运算(flops)方面的性能改进已经超过了所有其他指标。需要注意的一点是,Cerebras 使用片上内存,而不是 NVIDIA 的封装内存,因此我们不会以 H100 上的 80GB HBM3 为例。最新的 Cerebras 软件框架为PyTorch 2.0 和最新的 AI 模型和技术(如多模态模型、视觉转换器、专家混合和扩散)提供原生支持。Cerebras 仍然是唯一为动态和非结构化稀疏性提供本机硬件加速的平台,将训练速度提高了8 倍。您可能已经看到 Cerebras 表示其平台比 NVIDIA 的平台更易于使用。造成这种情况的一个重要原因是 Cerebras 存储权重和激活的方式,并且它不必扩展到系统中的多个 GPU,然后扩展到集群中的多个 GPU 服务器。除了代码更改很容易之外,Cerebras 表示它的训练速度比 Meta GPU 集群更快。当然,目前这似乎是理论上的 Cerebras CS-3 集群,因为我们没有听说有任何 2048 个 CS-3 集群启动并运行,而 Meta 已经有了 AI GPU 集群。总体而言,这里发生了很多事情,但我们知道的一件事是,如今越来越多的人使用基于 NVIDIA 的集群。Cerebras Systems进一步指出,由于每个组件都针对 AI 工作进行了优化,CS-3 比任何其他系统都能以更小的空间和更低的功耗提供更高的计算性能。虽然 GPU 功耗逐代翻倍,但 CS-3 的性能翻倍,功耗却保持不变。CS-3具有卓越的易用性,与适用于大模型的GPU 相比, CS-3需要的代码减少 97% ,并且能够在纯数据并行模式下训练从 1B 到24T 参数的模型。GPT -3大小的模型的标准实现在 Cerebras 上只需要 565 行代码这同样也是行业记录。一个庞大的系统,冷却超乎想象Cerebras CS-3 是第三代 Wafer Scale 系统。其顶部具有 MTP/MPO 光纤连接,以及用于冷却的电源、风扇和冗余泵。Cerebras Systems在新闻稿中指出,如上所述,CS-3拥有高达 1.2 PB的巨大内存系统,旨在训练比 GPT-4 和 Gemini 大 10 倍的下一代前沿模型。24 万亿参数模型可以存储在单个逻辑内存空间中,无需分区或重构,从而极大地简化了训练工作流程并提高了开发人员的工作效率。在 CS-3 上训练一万亿参数模型就像在 GPU 上训练十亿参数模型一样简单。CS-3专为满足企业和超大规模需求而打造。紧凑的四系统配置可以在一天内微调 70B 模型,而使用 2048 个系统进行全面调整,Llama 70B 可以在一天内从头开始训练这对于生成 AI 来说是前所未有的壮举。Cerebras 需要为巨型芯片提供电力、数据和冷却,同时还要管理相对较大区域的热膨胀等问题。这是该公司的另一项重大工程胜利。芯片内部采用液体冷却,热量可以通过风扇或设施水排出。该系统及其新芯片在相同的功耗和价格下实现了大约 2 倍的性能飞跃。从第一代的 16 纳米到如今的 5 纳米,Cerebras 从每个工艺步骤中都获得了巨大的优势。与具有八个 NVIDIA H100 GPU 以及内部 NVSwitch 和 PCIe 交换机的 NVIDIA DGX H100 系统相比,它只是一个更大的构建块。这是带有 Supermicro 1U 服务器的 CS-3。这是另一个使用 Supermciro 1U 服务器拍摄的 Cerebras 集群。Cerebras 通常使用 AMD EPYC 来获得更高的核心数量,这可能是因为 Cerebras 团队的很多成员来自被 AMD 收购的 SeaMicro。我们在这次迭代中注意到的一点是,Cerebras 也有 HPE 服务器的解决方案。这有点奇怪,因为一般来说,Supermicro BigTwin 比 HPE 的 2U 4 节点产品领先一步。看待 Cerebras CS-2/CS-3 的一种方式是,它们是巨大的计算机器,但许多数据预处理、集群级任务等都发生在传统的 x86 计算上,以提供优化的人工智能芯片。由于这是一个液冷数据中心,因此风冷 HPE 服务器配备了来自 Legrand 子品牌 ColdLogik 的后门热交换器设置。这是 Cerebras 如何利用液冷设施的一个很好的例子,但它不必为每个服务器节点配备冷板。这一代的一大特点是更大的集群,多达 2048 个 CS-3,可实现高达 256 exaFLOPs 的 AI 计算。12PB 内存是一款高端超大规模 SKU,专为快速训练 GPT-5 尺寸模型而设计。Cerebras 还可以缩小到类似于单个 CS-2 的规模,并支持服务器和网络。部分内存不仅是片上内存(44GB),还包括支持服务器中的内存。因此,Cerebras 集群可以训练比以前更大的模型。关于整个系统,在SC22的时候,该公司就曾基于 Cerebras CS-2 的系统展示了看起来像一堆金属的东西,其中有一些印刷电路板伸出来。该公司称其为发动机组(Engine Block)。在 Cerebras 看来,这是一项巨大的工程壮举。弄清楚如何封装、供电和冷却大型芯片是一个关键的工程挑战。让代工厂制造特殊的晶圆是一回事,让晶圆开机、不过热并做有用的工作是另一回事。这是另一边的样子。当我们谈论由于密度而必须转向液体冷却的服务器时,我们谈论的是 2kW/U 服务器或可能具有 8x800W 或 8x1kW 部件的加速器托盘。对于 WSE/WSE-2,所有电力和冷却都需要传输到单个大晶圆上,这意味着即使是不同材料的热膨胀率等因素也很重要。另一个含义是,实际上该组件上的所有部件都采用液冷方式。最上面一排木板非常密集。展位上的 Cerebras 代表告诉我,这些是电源,这是有道理的,因为我们看到它们的连接器密度相对较低。Cerebras Condor Galaxy 的更新在去年七月,Cerebras 宣布其 CS-2 系统取得重大胜利。它拥有一台价值 1 亿美元的人工智能超级计算机,正在与阿布扎比的 G42 一起使用。这里的关键是,这不仅仅是一个 IT 合作伙伴,也是一个客户。当前的第一阶段有 32 个 CS-2 和超过 550 个 AMD EPYC 7003“Milan”CPU(注:Cerebras 首席执行官 Andrew... PC版: 手机版:

封面图片

HBM走俏,暗战打响

HBM走俏,暗战打响 当存储三巨头(SK海力士、三星、美光科技)围绕HBM进行升级、扩产的那一刻,意味着蛰伏十年之久、发展至第六代的HBM终于甩去“成本高昂”的束缚,以强悍性能步入存储市场,搅动风云:SK海力士市值突破千亿美元、台积电CoWoS先进封装产能告急、DRAM投片量面临挤压……但必须警惕的是,若只将HBM视作存储领域的一项新兴技术而在战术上亦步亦趋,若只瞄准ChatGPT、Sora等生成式人工智能而忽视背后痛点,是要犯战略错误的。我国半导体从业者需清晰认识到,倘若HBM在内的存储领域受到长期遏制,我国相关产业发展将继先进制程、GPU后,再失先手。正如电子科技大学长三角研究院(湖州)集成电路与系统研究中心副主任黄乐天所说:“就好像一把枪,子弹供应跟不上,射速再快也没用。无法解决HBM问题,我国算力就难以提升,人工智能在内的诸多产业发展就将受限。”HBM,一场无声的暗战。“带宽之王”狂飙,HBM无敌手狂飙的HBM究竟有何魔力?HBM(High Bandwidth Memory ,高频宽存储器)属于DRAM(动态随机存取存储器)中的一个类别,具有高带宽、大容量、低延迟的DDR DRAM组合阵列。AI时代,算力可以轻松破T(TOPS,每秒万亿次运算),但存储器带宽破T(TB/s,每秒万亿字节带宽)则异常艰难。在需要高算力又需要大数据的应用场景下,存储数据吞吐能力的不足被无限放大,出现所谓的“存储墙”。图源:Rambus想要增加带宽,最简单粗暴的方法是增加数据传输线路的数量。当前,HBM由多达1024个数据引脚组成,其内部数据传输路径随着每代产品的发展而显著增长以SK海力士推出的HBM3E为例,其作为HBM3的扩展(Extended)版本,最高每秒可以处理1.15TB数据;三星的HBM3E“Shinebolt”经初步测试,最大数据传输速度预计达1.228TB/s。鉴于如此强大的带宽性能,市面上大部分存储器产品都难以在该领域击败HBM,唯一的胜出者只能是下一代HBM。HBM技术自2013年在半导体市场崭露头角以来,已扩展至第一代(HBM)、第二代(HBM2)、第三代(HBM2E),目前正步入第四代(HBM3)、第五代(HBM3E),而第六代(HBM4)也已蓄势待发。业内判断,HBM作为今后AI时代的必备材料,虽然在内存市场中比例还不大,但盈利能力是其他DRAM的5~10倍。日前,市场调研机构Yole Group发布的数据进一步印证了这一点。Yole预计,今年HBM芯片平均售价是传统DRAM内存芯片的5倍。而考虑到扩产难度,HBM价格预计在相当长一段时间内将保持高位。鉴于HBM目前无可撼动的市场地位,以及紧张的产能和昂贵的价格,业界是否可以通过牺牲某项性能而另寻方案,譬如使用潜在替代者GDDR、LPDDR?事实上,英伟达较早期的GTX 1080、GTX 2080Ti、GTX 3090也的确采用了GDDR技术。一位国内芯片企业负责人接受集微网采访时指出,HBM紧缺的产能令其价格一直维持在高位,但随着大模型训练成熟,逐渐进入大规模推理部署阶段,将不得不面对性价比的问题。推理场景中,算力成本至关重要,事实上目前各个大模型厂商也均在探索更高性价比的推理方案。譬如使用GDDR或LPDDR等方案获得更高的性价比,英伟达及国内厂家的推理板卡也不同程度上使用GDDR方案作为替代。“GDDR本身存在颗粒容量不足的顾虑,在模型参数规模日渐增长的趋势下,如果单卡或者单节点无法提供足够的显存容量,反而会降低单卡的计算效率。但随着GDDR7(其更加兼顾AI场景对带宽和颗粒容量密度的需求)逐步商业化,预计HBM价格也将伴随产能释放而逐步下降,未来在过渡期内还将是多方案共存的状态。”该人士表示。HBM走俏,CoWoS吃紧HBM的大火正快速推高市场规模以及预期。市场调查机构Gartner预测,2022~2027年,全球HBM市场规模将从11亿美元增至52亿美元,复合年均增长率(CAGR)为36.3%。高盛甚至给出了翻倍的预期,预计市场规模将在2022年(23亿美元)到2026年(230亿美元)前增长10倍(CAGR77%)。在催动先进封装的同时,HBM的产能却显得捉襟见肘。具体地看,HBM由多个DRAM堆叠而成,利用TSV(硅通孔)和微凸块(Microbump)将裸片相连接,多层DRAMdie再与最下层的Basedie连接,然后通过凸块(Bump)与硅中阶层(interposer)互联。HBM与GPU、CPU或ASIC共同铺设在硅中阶层上,再通过CoWoS等2.5D封装工艺相互连接,硅中介层通过CuBump连接至封装基板上,最后封装基板再通过锡球与下方PCB基板相连。图片:使用HBM的2.5D封装由此,台积电的CoWoS技术成为目前HBM与CPU/GPU处理器集成的理想方案。HBM高焊盘数和短迹线长度要求需要2.5D先进封装技术,目前几乎所有的HBM系统都封装在CoWoS上,而高端AI服务器也基本使用HBM。这样看起来,几乎所有领先的数据中心GPU都是台积电封装在CoWos上的。黄仁勋在NVIDIA GTC 2024大会期间更是直白喊话,英伟达今年对CoWos的需求非常大。产业人士指出,CoWoS封装所需中介层材料,因高精度设备不足和关键制程复杂,中介层材料供不应求,牵动CoWoS封装排程及AI芯片出货。2022年以来,ChatGPT为代表的人工智能带动AI芯片抢购潮,英伟达、AMD为代表的国际大厂纷纷下单,并均采用台积电CoWoS先进封装。大厂“分食”之下,CoWoS产能吃紧。台积电总裁魏哲家在1月的法说会上称,计划今年将CoWoS先进封装产能增加一倍,并计划在2024年进一步扩充。相关数据显示,去年12月台积电CoWoS月产能已经增至1.4万~1.5万片,预估到今年第四季度,CoWoS月产能将大幅扩充至3.3万~3.5万片,这与魏哲家“产能增加一倍”的说法基本吻合。而最新消息,台积电将在嘉义科学园区设两座CoWoS先进封装厂,首厂预计5月动工,2028年量产。良率低、散热难,HBM“妥协”市场调研机构集邦预估,2024年底HBM产值占整体DRAM比重有望攀至20.1%的水平。集邦科技资深研究副总经理吴雅婷表示,在相同制程及容量下,HBM颗粒尺寸较DDR5大35%~45%;良率(包含TSV封装良率),则比起DDR5低约20%~30%;生产周期(包含TSV)较DDR5多1.5~2个月不等。HBM在市场上“攻城略地”的同时,也面临良率低、散热难等方面问题。首先是低良率遏制产能。HBM制造过程中,垂直堆叠多个DRAM,并通过 TSV将它们连接起来,由高层向下打孔,通过整个硅片做信号通道;一般技术是信号引脚从侧面左右两边拉下来,而HBM是从中间直接打孔,在极小的裸片上打1000多个孔,并涉及多层;封装过程中,由于线路多且距离近,封装时的干扰、散热等问题均有可能影响线路。这意味着,上述任何阶段的失败都可能导致一枚芯片的废弃。此前有传闻称三星HBM3芯片生产良率仅10%~20%,三星予以坚决反驳,称“这不是真的”。其次是散热之困。“85℃左右它开始忘记东西,125℃左右则完全心不在焉,”这是业界对DRAM在热量面前尴尬表现的调侃。黄乐天认为,这种说法并不是很客观。存储器相对于处理器等逻辑电路,无论从峰值功耗还是功率密度而言都不算高,之所以存在散热问题,是由于3D-IC堆叠造成的。无论是哪种芯片,只要使用3D堆叠的方式就不可避免有热量聚集,如同多条电热毯堆在一起,热量自然无法散发。“事实上,散热问题是影响3DIC商用化的主要问题。3DIC早在20年前就被提出,但由于解决不好散热,只能在某些可以不计成本加入微流道能强力散热机制的场景中应用。HBM可视作在2D和3D之间寻求妥协,采用存储器件3D、逻辑器件2D的方式,尽量避免热量集中。”黄乐天告诉集微网。存储大厂起干戈,走向技术分野2013年,SK海力士与AMD合作开发世界上的首个HBM,率先“挥师入关”。有数据显示,2023年SK海力士市... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人