Jim Keller大神建议NVIDIA放弃私有标准:可以省几十亿美元

Jim Keller大神建议NVIDIA放弃私有标准:可以省几十亿美元 他还认为,NVIDIA在数据中心网络中,也不该使用自己的方案InfiniBand,也得换成以太网。NVIDIA Infiniband网络虽然具备低延迟、高带宽,最高可达200GbE,但是以太网能做到400GbE乃至是800GbE。AMD、博通、Intel、Meta、微软、甲骨文等巨头也正在合作开发下一代超高速以太网(Utlra Ethernet),吞吐量更高,更适合AI、HPC应用。此外,Jim Keller对于NVIDIA CUDA封闭生态也一直很不满,曾经骂它是沼泽而非护城河。Arm、Intel、高通、三星等也合作组建了统一加速基金会(UXL),目标之一就是取代NVIDIA的方案。不过对于黄仁勋来说,不管NVLink还是CUDA,都是自己公司多少年砸了多少亿美元的成果,更是维护自家利益的神器,怎么能轻易放弃呢? ... PC版: 手机版:

相关推荐

封面图片

NVIDIA官宣全新Rubin GPU、Vera CPU 3nm工艺配下代HBM4内存

NVIDIA官宣全新Rubin GPU、Vera CPU 3nm工艺配下代HBM4内存 NVIDIA现有的高性能GPU架构代号“Blackwell”,已经投产,相关产品今年陆续上市,包括用于HPC/AI领域的B200/GB200、用于游戏的RTX 50系列。2025年将看到“Blackwell Ultra”,自然是升级版本,但具体情况没有说。2026年就是全新的下一代“Rubin”,命名源于美国女天文学家Vera Rubin(薇拉·鲁宾),搭配下一代HBM4高带宽内存,8堆栈。根据曝料,Rubin架构首款产品为R100,采用台积电3nm EUV制造工艺,四重曝光技术,CoWoS-L封装,预计2025年第四季度投产。2027年则是升级版的“Rubin Ultra”,HBM4内存升级为12堆栈,容量更大,性能更高。CPU方面下代架构代号“Vera”没错,用一个名字同时覆盖GPU、CPU,真正二合一。Vera CPU、Rubin GPU组成新一代超级芯片也在规划之中,将采用第六代NVLink互连总线,带宽高达3.6TB/s。此外,NVIDIA还有新一代数据中心网卡CX9 SuperNIC,最高带宽可达1600Gbps,也就是160万兆,并搭配新的InfiniBand/以太网交换机X1600。 ... PC版: 手机版:

封面图片

Meta两个豪华AI集群曝光:每个配备2.4万块英伟达H100 价值几十亿

Meta两个豪华AI集群曝光:每个配备2.4万块英伟达H100 价值几十亿 在硬件配置方面,每个集群都配备了24576个英伟达Tensor Core H100 GPU(每个数万美元),与之前使用的16000个英伟达A100 GPU相比有了明显提升,这将极大地促进自然语言处理、语音识别和图像生成等人工智能研究和开发工作。Meta表示,这种升级不仅在数量上有所增加,其性能上的跃进也将支持更大、更复杂的模型,为生成式人工智能产品的开发铺平道路。Meta计划在2024年底之前,将其人工智能基础设施扩大到高达35万个H100 GPU。目标是拥有相当于近60万个H100 GPU的算力。虽然两个新集群的GPU数量相同,但它们在网络基础设施方面各有差异,均支持400 Gbps端点之间的互联。其中一个集群采用了基于Arista 7800交换机配合Wedge400和Minipack2 OCP机架交换机的远程直接内存访问(RDMA)和融合以太网(RoCE)网络解决方案,而另一个则应用了英伟达Quantum2 InfiniBand网络架构。值得一提的是,两个集群均基于Meta自研的开放GPU硬件平台Grand Teton构建,这是公司为支撑大型AI工作负载而开发的GPU基础硬件平台。作为Zion-EX平台的后续产品,Grand Teton在主机到GPU的带宽、计算及数据网络带宽、以及功率包络等方面都实现了显著的增强。此外,这些集群充分利用了Meta专为Grand Teton等方案设计的Open Rack电源和机架架构,提高了数据中心的灵活性。Meta的Open Rack v3硬件设计引入了一个灵活的机架配置方案。与传统的固定母线设计相比,它允许在机架中的任意位置安装电源架,从而使机架配置更加灵活。在建设这些新集群时,Meta特别关注了每台服务器吞吐量、机架数量减少及能源效率之间的平衡。通过对机架内服务器数量的定制化设计,Meta确保了这些集群在提供高性能的同时,也达到了能源的高效利用。在存储技术上,这些集群运用了Linux Filesystem中的Userspace API,并得到了Meta自家Tectonic分布式存储方案的加持。与此同时,Meta还与Hammerspace合作,一道开发了并行网络文件系统(NFS)。两个集群均基于配备了最新高容量E1.S SSD的YV3 Sierra Point服务器平台。为了优化网络利用率,Meta进行了网络拓扑和路由的调整,并部署了英伟达的集体通信库(NCCL)。NCCL是一套针对英伟达GPU和网络进行优化的标准通信例程库。Meta还在积极推进其PyTorch基础AI框架的发展,以应对数十万GPU的训练需求。Meta的技术项目经理凯文·李(Kevin Lee)、生产网络工程师阿迪·甘吉迪(Adi Gangidi)以及生产工程总监马修·奥尔德姆(Mathew Oldham)在最新博客中共同表达了公司的技术愿景和战略。他们强调,Meta将致力于人工智能软件和硬件的开放式创新,启动人工智能联盟,建立一个开放的生态系统,“为人工智能开发带来透明度、审查和信任,并带来每个人都能从中受益的创新,这些创新以安全和责任为首要考虑因素”。这篇博文继续强调:“面对未来,我们意识到昨天和今天有效的方法可能无法满足明天的需求。因此,Meta将不断评估和改进其基础设施的各个方面,从物理和虚拟层到软件层等。我们的目标是创建一个既灵活又可靠的系统,以支撑快速发展中的新模型和研究工作。” ... PC版: 手机版:

封面图片

OpenAI的疯狂“星际之门”数据中心将基于什么芯片技术?

OpenAI的疯狂“星际之门”数据中心将基于什么芯片技术? 星际之门系统也从此引起了人们的议论。 Altman 似乎无法决定 OpenAI 是否应该完全依赖微软,但谁能责怪他呢?这就是为什么还有传言称OpenAI 正在设计自己的用于人工智能训练和推理的芯片,以及关于Altman试图带头投资 7 万亿美元芯片制造但随后又放弃的令人愤慨的评论。你不能责怪Altman乱扔了他正在盯着的大数字。训练人工智能模型非常昂贵,并且运行推理主要是生成tokern也不便宜。正如 NVIDIA 联合创始人兼首席执行官黄仁勋最近在 GTC 2024 会议上的主题演讲中指出的那样他们是不可持续的昂贵。这就是 Microsoft、Amazon Web Services、Google 和 Meta Platform 已经创建或正在创建自己的 CPU 和 XPU 的原因。随着参数数量的增加以及数据从文本格式转变为其他格式,如果目前的趋势持续下去并且铁可以扩展,那么LLM只会变得越来越大在未来几年内将增长 100 倍到 1,000 倍。因此,我们听到有关《星际之门》的讨论,这表明人工智能训练的上层毫无疑问是富人的游戏。根据您在最初的《星际之门》传闻后的报告中所读到的内容,《星际之门》是一个项目的第五阶段,该项目将耗资 1000 亿至 1150 亿美元,星际之门将于 2028 年交付,并在 2030 年及以后运营。微软目前显然正处于扩建的第三阶段。据推测,这些资金数字涵盖了机器的所有五个阶段,目前尚不清楚该数字是否涵盖了数据中心、内部机械以及电力成本。微软和 OpenAI 可能不会采取太多行动来解决这个问题。目前还没有讨论 Stargate 系统将基于什么技术,但我们认为它不会基于 NVIDIA GPU 和互连。它将基于未来几代的 Cobalt Arm 服务器处理器和 Maia XPU,以太网可扩展到单台机器中数十万到 100 万个 XPU。我们还认为,微软收购了 DPU 制造商 Fungible 来创建可扩展的以太网网络,并且可能让Juniper Networks 和 Fungible 的创始人Pradeep Sindhu创建匹配的以太网交换机 ASIC,以便微软可以控制其整个硬件堆栈。当然,这只是一个猜想。无论 Microsoft 使用哪种以太网网络,我们都相当确定在某个时候 100 万个端点是目标,而我们也相当确定 InfiniBand 不是答案。我们还认为,假设的这款 XPU 将与未来的 NVIDIA X100/X200 GPU 或其后继产品(我们不知道其名称)一样强大是不太可能的。微软和 OpenAI 更有可能尝试大规模扩展更便宜的设备网络,并从根本上降低人工智能训练和推理的总体成本。他们的商业模式取决于这种情况的发生。而且我们还可以合理地假设,在某个时候 NVIDIA 将不得不创建一个挤满矩阵数学单元的 XPU,并舍弃让该公司在数据中心计算领域起步的矢量和着色器单元。如果微软为 OpenAI 打造了一个更好的mousetrap,那么 NVIDIA 将不得不效仿。Stargate 肯定代表了人工智能支出的阶梯函数,也许还有两个阶梯函数,具体取决于你想要如何解释数据。在数据中心预算方面,微软迄今为止公开表示的全部内容是,它将在 2024 年和 2025 年在数据中心上花费超过 100 亿美元,我们推测其中大部分支出用于支付 AI 服务器的成本。那些 1000 亿美元或 1150 亿美元的数字太模糊,无法代表任何具体内容,因此目前这只是一些大话。我们要提醒您的是,在过去的十年中,微软至少保留了 1000 亿美元的现金和等价物,并在 2023 年 9 月的季度达到了接近 1440 亿美元的峰值。截至 2023 日历年(微软 2024 财年第二季度),该数字下降至 810 亿美元。因此,微软现在没有足够的资金来一次性完成 Stargate 项目,但其软件和云业务在过去 12 个月的销售额总计达到 825 亿美元,而销售额约为 2276 亿美元。未来六年,如果软件和云业务保持原样,微软将带来 1.37 万亿美元的收入,净利润约为 5000 亿美元。它可以承担星际之门的努力。微软也有能力购买 OpenAI,然后就可以结束它了。不管怎样,我们为微软可能已经构建的集群以及未来可能为 OpenAI 构建的集群制定了预算,展示了它们的组成和规模如何随着时间的推移而变化。看一下:我们认为,随着时间的推移,分配给 OpenAI 的 AI 集群数量将会减少,而这些集群的规模将会增加。我们还认为 OpenAI 集群中 GPU 的份额将会下降,而 XPU 的份额(很可能在 Maia 系列中,但也可能使用 OpenAI 设计)将会上升。随着时间的推移,自研XPU 的数量将与 GPU 的数量相匹配,我们进一步估计这些 XPU 的成本将不到数据中心 GPU 成本的一半。此外,我们认为从 InfiniBand 转向以太网也将降低成本,特别是如果微软使用自主研发的以太网 ASIC 和内置人工智能功能和集体操作功能的自主研发的 NIC。 (就像 NVIDIA 的 InfiniBand 的 SHARP 功能一样。)我们还强制采用支出模型,以便在 2028 年有两个拥有 100 万个端点的集群一个由 GPU 组成,一个由自研 XPU 组成,或者两个集群各占一半。我们想要估计未来的集群性能,但这很难做到。每年可能会有更多的 XPU 获得适度的性能提升,但性价比却要高得多。需要记住的是,微软可以保留当前一代的 GPU 或 XPU 供 OpenAI 内部使用(因此也是其自己的),并在未来许多年内向用户出售N-1和N-2代,很可能会获得很多收益其投资诱饵再次回到 OpenAI 上。因此,这些投资本身并不是沉没成本。这更像是一个汽车经销商驾驶着一大堆挂有经销商牌照的不同汽车,但在出售它们之前并没有将里程数提高得太高。问题是:微软会继续在 OpenAI 上投入巨资,以便扭亏为盈并租用这些产能吗,还是会停止在 OpenAI 上花费 1000 亿美元(两个月前该公司的估值为 800 亿美元)?另外还要花费 1100 亿美元左右的基础设施建设,以完全控制其人工智能堆栈。即使对于微软来说,这些数字也是相当大的。但是,正如我们所说,如果你看看 2024 年至 2028 年,微软可能有大约 5000 亿美元的净利润可供使用。很少有其他公司这样做。微软从一个 BASIC 编译器和一个从第三方拼凑出来的垃圾 DOS 操作系统开始,为一个不理解它的绝望的蓝色巨人做装饰,这简直是在放弃糖果店。也许这也是奥特曼的噩梦。但考虑到将人工智能推向新的高度需要巨额资金,现在可能为时已晚。 ... PC版: 手机版:

封面图片

黄仁勋抛出2700W功耗的真核弹 还有240TB显存的AI超级计算机

黄仁勋抛出2700W功耗的真核弹 还有240TB显存的AI超级计算机 Blackwell B200 GPU首次采用了chiplet晶粒封装,包含两颗B100,而B200之间再通过带宽翻倍达1.8TB/s的第五代NVLink 5总线互连,最多可连接576块。B100采用专门定制的台积电4NP工艺制造(H100/RTX 40 4N工艺的增强版),已经达到双倍光刻极限尺寸,彼此通过10TB/s带宽的片间互联带宽,连接成一块统一的B200 GPU。B100集成多达1040亿个晶体管,比上代H100 800亿个增加了足足30%,B200整体就是2080亿个晶体管。核心面积未公布,考虑到工艺极限应该不会比814平方毫米的H100大太多。CUDA核心数量也没说,但肯定会大大超过H100 16896个,不知道能不能突破2万个?每颗B100连接四颗24GB HBM3E显存/内存,等效频率8GHz,位宽4096-bit,带宽达4TB/s。如此一来,B200就有多达192GB HBM3E,总位宽8096-bit,总带宽8TB/s,相比H100分别增加1.4倍、58%、1.4倍。性能方面,B200新增支持FP4 Tensor数据格式,性能达到9PFlops(每秒9千万亿次),INT/FP8、FP16、TF32 Tensor性能分别达到4.5、2.25、1.1PFlops,分别提升1.2倍、1.3倍、1.3倍,但是FP64 Tensor性能反而下降了40%(依赖GB200),FP32、FP64 Vector性能则未公布。Blackwell GPU还支持第二代Transformer引擎,支持全新的微张量缩放,在搭配TensorRT-LLM、NeMo Megatron框架中的先进动态范围管理算法,从而在新型4位浮点AI推理能力下实现算力和模型大小的翻倍。其他还有RAS可靠性专用引擎、安全AI、解压缩引擎等。至于功耗,B100控制在700W,和上代H100完全一致,B200则首次达到了1000W。NVIDIA宣称,Blackwell GPU能够在10万亿参数的大模型上实现AI训练和实时大语言模型推理。GB200 Grace Blackwell是继Grace Hopper之后的新一代超级芯片(Superchip),从单颗GPU+单颗CPU升级为两颗GPU加一颗CPU,其中GPU部分就是B200,CPU部分不变还是Grace,彼此通过900GB/s的带宽实现超低功耗片间互联。在大语言模型推理工作负载方面,GB200超级芯片的性能对比H100提升了多达30倍。不过代价也很大,GB200的功耗最高可达2700W,可以使用分冷,更推荐使用液冷。基于GB200超级芯片,NVIDIA打造了新一代的AI超级计算机“DGX SuperPOD”,配备36块超级芯片,也就是包含36颗Grace CPU、72颗B200 GPU,彼此通过NVLink 5组合在一起,还有多达240TB HBM3E。这台AI超级计算机可以处理万亿参数的大模型,能保证超大规模生成式AI训练和推理工作负载的持续运行,FP4精度下的性能高达11.5EFlops(每秒1150亿亿次)。DGX SuperPOD还具有极强的扩展性,可通过Quantum-X800 InfiniBand网络连接,扩展到数万颗GB200超级芯片,并加入BlueField-3 DPU数据处理单元,而每颗GPU都能获得1.8TB/s的高带宽。第四代可扩展分层聚合和规约协议(SHARP)技术,可提供14.4TFlops的网络计算能力,比上代提升4倍。此外,NVIDIA还发布了第六代通用AI超级计算平台“DGX B200”,包含两颗Intel五代至强处理器、八颗B200 GPU,具备1.4TB HBM3E、64TB/s带宽,FP4精度性能144PFlops(每秒14亿亿次),万亿参数模型实时推理速度提升15倍。DGX B200系统还集成八个NVIDIA ConnectX-7网卡、两个BlueField-3 DPU高性能网络,每个连接带宽高达400Gb/s,可通过Quantum-2 InfiniBand、Spectrum?-X以太网网络平台,扩展支持更高的AI性能。基于Blackwell GPU的产品将在今年晚些时候陆续上市,亚马逊云、戴尔、谷歌、Meta、微软、OpenAI、甲骨文、特斯拉、xAI等都会采纳。亚马逊云、谷歌云、微软Azeure、甲骨文云将是首批提供Blackwell GPU驱动实例的云服务提供商,NVIDIA云合作伙伴计划的中的Applied Digital、CoreWeave、Crusoe、IBM Cloud、Lambda也将提供上述服务。Indosat Ooredoo Hutchinson、Nebius、Nexgen Cloud、甲骨文欧盟主权云、甲骨文美国/英国/澳大利亚政府云、Scaleway、新加坡电信、Northern Data Group旗下的Taiga Cloud、Yotta Data Services旗下的Shakti Cloud、YTL Power International 等主权AI云,也将提供基于Blackwell架构的云服务和基础设施。 ... PC版: 手机版:

封面图片

GPT-5红队测试邮件曝光,最早6月发布?数十亿美元超算26年启动

GPT-5红队测试邮件曝光,最早6月发布?数十亿美元超算26年启动 此前有传闻说,GPT-5将于今年6月发布。看起来,红队测试与模型发布的时间线十分吻合。有网友直接晒出了自己收到OpenAI邮件邀请的截图。据悉,GPT-5早已为大家准备好,只是发布风险太大了,所以还得往后延。三个月就能用了?不过还有人表示,先别急,这些人只是收到了红队邀请测试而已,并没有提及具体模型。有可能是他们填了如下的申请信息之后,才收到了邮件。安全测试对于新版GPT如此重要的原因,一方面是ChatGPT已经有了非常大的用户数,如果在安全性上出问题,OpenAI可能也会面对像谷歌一样的舆论压力。另一方面,To B业务是OpenAI的主要收入来源,定制化的ChatGPT能大大增强各个企业的业务能力和效率。有人表示,红队测试会持续90-120天。如果此次红队测试就是针对GPT-5的话,那么三个月内,我们应该就能用上它了!而在坊间,这一传闻让群众们沸腾了!他们早已按捺不住对于GPT-5的猜测和畅想。比如,GPT-5的上下文窗口会达到多少?目前,Gemini 1.5 Pro是1M,Claude 3是200K,GPT-4是128K,不知道GPT-5会突破怎样的惊人纪录。大家纷纷列出自己对于GPT-5的愿望清单比如10Mtoken的上下文窗口,闪电般的快速干扰,长期战略规划和推理,执行复杂开放式操作的能力,GUI / API导航,长期情境记忆,始终处于隐形状态的RAG,多模态等等。有人猜,或许GPT-5会和Claude 3一样,提供几种不同的型号。有人总结了目前关于GPT-5和红队的最新谣言和传闻,大致要点如下-OpenAI预计于今年夏天发布GPT-5,部分企业客户已收到增强功能的演示;-GPT-5‘实质性更好’,相比GPT-4进行了重大升级。它需要更多的训练数据;-GPT-5的潜在功能包括生成更逼真的文本、执行翻译和创意写作等复杂任务、处理视频输入以及改进推理;-Sam Altman表示,GPT-5仍在训练中,没有确切的发布日期,广泛的安全测试可能还需数月。然而,他确认OpenAI今年将‘发布一个惊人的新模型’。在3月29日,获得内部信息的Runway CEO兼AI投资人Siqi Chen就称,GPT-5已经在推理方面取得了意想不到的阶跃函数增益。它甚至可以靠自己就独立地弄清楚,如何让ChatGPT不用每隔一天就登录一次。Ilya看到的东西,也许就是这个?这是不是就意味着,在OpenAI内部,已经实现了AGI?!如果是真的,这也太惊人了。‘我不相信,只有AGI才能实现这样的能力’。总之,网友们纷称,根据泄露的待办清单显示,OpenAI的下一项任务,就是发布GPT-5了!大家纷纷呼唤Altman,是时间放出GPT-5了,别太吹毛求疵了,我们要求不高。红队测试上阵,确保GPT-5安全早在23年9月,OpenAI就曾官宣招募一批红队测试人员(Red Teaming Network),邀请不同领域专家评估模型。不同领域专家组成的红队去寻找系统漏洞,成为确保下一代模型GPT-5安全的关键。那么,红队测试人员一般都需要做哪些工作?AI红队攻击的类型主要包括,提示攻击、数据中毒、后门攻击、对抗性示例、数据提取等等。‘提示攻击’是指在控制LLM的提示中注入恶意指令,从而导致大模型执行非预期的操作。比如,今年早些时候,一名大学生利用提示获取了一家大公司的机密信息,包括开发的AI项目的代码名称,以及一些本不应该暴露的元数据。而‘提示攻击’最大的挑战是,找到威胁行为者尚未发现、利用的新提示或提示集。红队需要测试的另一种主要攻击是‘数据中毒’。在数据中毒的情况下,威胁者会试图篡改LLM接受训练的数据,从而产生新的偏差、漏洞供他人攻击以及破坏数据的后门。‘数据中毒’会对LLM提供的结果产生严重影响,因为当LLM在中毒数据上接受训练时,它们会根据这些信息学习关联模式。比如,关于某个品牌、政治人物的误导性,或不准确信息,进而左右人们的决策。还有一种情况是,受到污染的数据训练后,模型提供了关于如何治疗常规疾病或病痛的不准确医疗信息,进而导致更严重的后果。因此,红队人员需要模拟一系列数据中毒攻击,以发现LLM训练和部署流程中的任何漏洞。除此以外,还有多元的攻击方式,邀请专家也是OpenAI确保GPT-5能够完成安全测试。GPT-5,真的不远了正如网友所言,红队测试开启,意味着GPT-5真的不远了。前段时间,Altman在博客采访中曾提到,‘我们今年会发布一款令人惊艳的新模型,但不知道会叫什么名字’。尽管如此,全网都一致地将OpenAI发布的下一代模型称为GPT-5,并有传言称代号为Arrakis的项目,就是GPT-5的原型。根据FeltSteam的预测,这个Arrakis的多模态模型,性能远超GPT-4,非常接近AGI。另外,模型参数据称有125万亿,大约是GPT-4的100倍,并在2022年10月完成训练。网友还总结了以往GPT系列模型发布时间表:GPT-1在2018年6月诞生,GPT-2在2019年2月,GPT-3在2020年6月,GPT-3.5在2022年12月,GPT-4仅在三个月后于2023年3月发布。关于GPT-5的发布时间,可能在今年夏天就问世。最近,网上流传的一张图上,显示了Y Combinator推出了GPT-5早期准入候补名单。网友发起疑问,我们都清楚奥特曼和YC的关系不同寻常。这是否意味着他们可以在模型或信息公开之前获得访问权限?而上月也有爆料称,已有用户对GPT-5上手体验过了,性能惊人。外媒透露,一些企业用户已经体验到了最新版的ChatGPT。‘它真的很棒,有了质的飞跃,’一位最近见识到GPT-5效果的CEO表示。OpenAI展示了,新模型是如何根据这位CEO公司的特殊需求和数据进行工作的。他还提到,OpenAI还暗示模型还有其他一些未公开的功能,包括调用OpenAI正在开发的AI智能体来自主完成任务的能力。GPT-5,一定是正确路线吗?不过,在万众瞩目期待GPT-5面世的呼声中,也有一些不一样的声音。比如有人觉得,GPT-5无法驾驶你的汽车,GPT-5无法解决核聚变问题,GPT-5无法治愈癌症……另外,我们对模型的追求,非得是更智能吗?更便宜、更快、更不费水电的模型,可能比单独的GPT-5更有革命性意义。有人同意这个观点,表示现在实在有太多人(尤其是开发者)过于痴迷GPT-5了。其实完全没必要这么狂热,使用当前的模型,就可以已经完成和构建太多东西。只需正确选择利基市场,构建满足该利基市场需求的AI产品,让用户可以直观地访问AI,专注于更好的UI/UX即可。公式很简单。我们真的有必要一味追求力大砖飞吗?很多人表示赞同,表示甚至用GPT-3.5就可以造出非常有价值的东西。问题不在于模型多先进,而在于怎样满足利基市场的需求。智算中心,先从小的建起而3月底曝出的用于训练GPT-6的千亿美元‘星际之门’超算,今天又被外媒挖出了更多新的内容。上周五,外媒The Information曝出了一个惊人消息:OpenAI和微软正在制定一项雄心勃勃的数据中心项目,预计耗资1000亿美元。此消息一曝出,AI和云计算行业人士的提问,像雪片一样袭来数据中心具体位于美国的哪个地区?为此,The Information又挖出了更多料,具体细节如下。首先,之前的消息说是星际之门最早在2028年启动,而最新消息显示,最快在2026年,就会在威斯康星州启动一个功率较小的数据中心。它的价值当然不到千亿美元,但估计仍会耗资数十亿。其他细节如下用英伟达芯片,但不用英伟达网线首先,这次数据中心的多数服务器机架,当然主要还是用的英伟达芯片。不过有趣的是,将各个AI芯片服务器连接起来的网线,则并不会采用英伟达的产品。据悉,OpenAI已经告知微软,自己不想再使用英伟达的InfiniBand网络设备。相反,它可能会使用基于以太网的电缆... PC版: 手机版:

封面图片

现场直击GTC:性能翻30倍的Blackwell芯片 黄仁勋宣告“新工业革命”来了

现场直击GTC:性能翻30倍的Blackwell芯片 黄仁勋宣告“新工业革命”来了 这里是硅谷很多演唱会和演出的举办地,占地4.2万平方米,曾举办过滚石和Bon Jovi 演唱会、美国NHL全明星赛,而现在站在舞台中央的是黄仁勋,他让现场的许多开发者想到了乔布斯。在一段预热片后,黄仁勋上台。背景停留在“我是AI”的界面。“希望大家意识到这不是一场演唱会。你来到的是个开发者大会。”黄仁勋说。这是一场只有模拟而没有动画的发布会。他说。这也让后来整场发布会越来越像科幻片。可能是人类历史上最科幻的一场发布会。“今天抵达GTC现场的公司们价值1 trillion。这么多伙伴,需要这么多的算力,怎么办?我们需要大得多的GPU。把所有GPU 连接起来,成千上万个大的GPU里是成千上万小的GPU, 百万个GPU让你的效率提升!”然后他简单回顾了一下AI的发展历史,“20年前我们就看到了它会到来”。“然后CUDA和AI做了第一次亲密接触。”他说。“06年推出CUDA的时候,我们以为这是革命性的,会一夜成功,结果一等就等了二十年!”“今天的一切都是homemade。”在一个个通过AI模拟出来的酷炫的视频后,一切铺垫就绪了英伟达就是这一切进步的基石。是时候该发布重要芯片了。人们对此有预期,但当B200出现的时候,现场(可能包括全世界围观者)都还是忍不住惊呼。这是Hooper后的新一代架构,以数学家Blackwell命名。在性能上,它就是黄仁勋“黄氏定律”的集大成者和奠基者。以下是我用AI总结的Blackwell GPU的性能特点:高AI性能:B200 GPU提供高达20 petaflops的FP4计算能力,这是由其2080亿个晶体管提供的。高效推理:当与Grace CPU结合形成GB200超级芯片时,它能在LLM推理工作负载上提供比单个GPU高出30倍的性能,同时在成本和能源消耗上比H100 GPU高出25倍。训练能力:使用Blackwell GPU,训练一个1.8万亿参数的模型所需的GPU数量从8000个减少到2000个,同时电力消耗从15兆瓦降低到仅四兆瓦。GPT-3性能:在GPT-3 LLM基准测试中,GB200的性能是H100的七倍,训练速度提高了4倍。改进的Transformer引擎:第二代Transformer引擎通过使用每个神经元的四位而不是八位,实现了计算、带宽和模型大小的翻倍。下一代NVLink开关:允许多达576个GPU之间进行通信,提供每秒1.8太比特的双向带宽。新的网络交换芯片:拥有500亿晶体管和3.6 teraflops的FP8计算能力,用于支持大规模GPU集群的通信。扩展性:NVIDIA的系统可以扩展到数万个GB200超级芯片,通过800Gbps的Quantum-X800 InfiniBand或Spectrum-X800以太网连接。大规模部署:GB200 NVL72设计可以将36个CPU和72个GPU集成到一个液冷机架中,提供总共720 petaflops的AI训练性能或1.4 exaflops的推理性能。支持大型模型:单个NVL72机架可以支持高达27万亿参数的模型,而且有意思的是,黄仁勋似乎透露了一下GPT-4的参数,它可能是一个约1.7万亿参数的模型。(更多关于B200的解读我们会在今天稍晚带来,欢迎关注硅星人GTC后续报道)黄仁勋回顾了自己送给OpenAI的第一个DGX,它只有0.17Peataflops,而今天的DGX Grace-Blackwell GB200已经超过1 Exaflop的算力。老黄站在这张图前讲了半天,这画面让你觉得摩尔定律可能真的死了,黄氏定律正式登基。在B200的发布后,黄仁勋用一个AI生成的模拟短片介绍了“配套”的一系列产品,从集群到数据中心的交换机等。基本都是性能怪兽。GB200超级芯片就是将两个B200 GPU与一个Grace CPU结合在一起,它能将成本和能源消耗比 H100降低多达25倍”。黄仁勋表示自己可得拿稳了,“这块很贵,可能100亿?不过以后会便宜的。”现场爆笑。与此同时,他也强调了新一代芯片和相关产品在能耗上的改进。之前训练一个1.8万亿参数的模型需要使用8000个Hopper GPU和15兆瓦的电力。如今,使用2000个Blackwell GPU就可以完成相同的任务,同时仅消耗4兆瓦的电力。黄仁勋说,英伟达还正在将它们打包成更大的设计,比如GB200 NVL72,把36个CPU和72个GPU集成到一个单一的液冷机架中,提供总共720 petaflops 的AI训练性能或1440petaflops的推理性能。它内部有近乎两英里的电缆,包括5000条独立电缆。此外他也特意强调了推理性能的提升,毕竟英伟达最新的财报已经显示,它的收入越来越多的来自客户们在AI推理部分的支出。主要的云厂商也都被点名表扬了一下,他们和英伟达越来越不可分离。软件方面, 黄仁勋介绍到,英伟达正在打包预训练模型及其附属延伸,并简化了称为NVIDIA推理微服务(NIMS)的微服务部署。这不仅仅是之前的CUDA,而是让模型更易于实施和管理的平台。“你现在就可以下载,带走,安装在你自己的数据中心”,他说道。并且NVIDIA提供服务帮助企业和应用程序对模型进行微调或定制。在罗列了一系列在气象和科学上的合作后,黄仁勋开始进入关于机器人技术的部分,这场发布会开始变得更加科幻。黄仁勋说,英伟达正在押注的下一代产品是能够控制人形机器人。Jetson Thor 就是接替NVIDIA Jetson Orin,为机器人技术推出的更新产品。“确实,世界是为人类设计的,所以我们希望使用英伟达Thor芯片和GR00T软件来训练和管理新一代的人形机器人。这样的机器人将能更好地适应人类设计的环境和工作流程,从而在多样的任务和场景中提供帮助。”机器人展示视频过后,舞台灯光再次亮起时,黄仁勋与身后所有由公司提供动力的人形机器人站在一起,向观众致意。不知为什么有种钢铁侠的意思~还领上来两个在NVIDIA Isaac SIM中学会走路的迪士尼小型机器人。黄仁勋说话时它们一直扭扭捏捏,让老黄不得不低头怜爱地低声说:“Orange(小机器人的名字),我在努力专心!不要再拖延时间了”超级可爱,把现场气氛推向高潮。而在黄仁勋和这两个小机器人一起“打开”的谢幕视频里,一架微型小飞船飞过英伟达历代GPU产品、架构,在光缆中完成了技术巡礼,最后飞机舱门不经意的打开,驾驶员正是黄仁勋的卡通虚拟数字人。主题演讲结束前,黄仁勋又总结了一遍今天的发布会,而近距离镜头可以看到,黄仁勋似乎有些带着泪光。“如果你问我,心目中的GPU是什么样子,今天的发布就是我的答案。”他说今天他展示了什么是英伟达的灵魂。“我们站在计算科学和物理等其他一切科学的交叉点”。这是他心里英伟达的定位。“新的工业革命来了。”而他没说的,是藏在今天一堆PPT里某一张的那行小字英伟达,新工业革命的引擎。这是黄仁勋的时代了。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人