Meta第二代自研AI芯投产摆脱英伟达依赖

Meta第二代自研AI芯投产摆脱英伟达依赖对此，Meta的发言人表示：“我们认为，我们自主开发的加速器将与市面上的GPU相得益彰，为Meta的任务提供最佳的性能与效率平衡。”除了更高效地运行的推荐模型外，Meta还需要为自家的生成式AI应用，以及正在训练的GPT-4开源竞品Llama 3提供算力。Meta的AI贴纸功能，此前在Messenger、Instagram和WhatsApp上都处于测试阶段OpenAI工程师Jason Wei在Meta的一次AI活动中听到，Meta现在有足够的算力来训练Llama 3和4。Llama 3计划达到GPT-4的性能水平，但仍将免费提供不难看出，Meta的目标非常明确在减少对英伟达芯片依赖的同时，尽可能控制AI任务的成本。Meta成英伟达大客户Meta CEO小扎最近宣布，他计划到今年年底部署35万颗英伟达H100 GPU，总共将有约60万颗GPU运行和训练AI系统。这也让Meta成为了继微软之后，英伟达最大的已知客户。小扎表示，目前Meta内部正在训练下一代模型Llama 3。在35万块H100上训练的Llama 3，无法想象会有多大！Omdia的研究数据显示，Meta在2023年H100的出货量为15万块，与微软持平，且是其他公司出货量的3倍。小扎称，“如果算上英伟达A100和其他AI芯片，到2024年底，Meta将拥有近60万个GPU等效算力”。性能更强、尺寸更大的模型，导致更高的AI工作负载，让成本直接螺旋式上升。据《华尔街日报》的一位匿名人士称，今年头几个月，每有一个客户，微软每月在Github Copilot上的损失就超过20美元，甚至某些用户每月的损失高达80美元，尽管微软已经向用户收取每月10美元的费用。之所以赔钱，是因为生成代码的AI模型运行成本高昂。如此高的成本，让大科技公司们不得不寻求别的出路。除了Meta之外，OpenAI和微软也在试图打造自己专有的AI芯片以及更高效的模型，来打破螺旋式上升的成本。此前外媒曾报道，Sam Altman正计划筹集数十亿美元，为OpenAI建起全球性的半导体晶圆厂网络，为此他已经在和中东投资者以及台积电谈判专为大模型定制AI芯去年5月，Meta首次展示了最新芯片系列“Meta训练和推理加速器”（MTIA），旨在加快并降低运行神经网络的成本。MTIA是一种ASIC，一种将不同电路组合在一块板上的芯片，允许对其进行编程，以并行执行一项或多项任务。内部公告称，Met首款芯片将在2025年投入使用，同时数据中心开启测试。不过，据路透社报道，Artemis已经是MTIA的更高级版本。其实，第一代的MITA早就从2020年开始了，当时MITA v1采用的是7nm工艺。该芯片内部内存可以从128MB扩展到128GB，同时，在Meta设计的基准测试中，MITA在处理中低复杂度的AI模型时，效率要比GPU还高。在芯片的内存和网络部分，Meta表示，依然有不少工作要做。随着AI模型的规模越来越大，MITA也即将遇到瓶颈，因此需要将工作量分担到多个芯片上。当时，Meta团队还设计了第一代MTIA加速器，同样采用台积电7nm，运行频率为800MHz，在INT8精度下提供102.4 TOPS，在FP16精度下提供51.2 TFLOPS。它的热设计功耗（TDP）为25W。2022年1月，Meta还推出了超算RSC AI，并表示要为元宇宙铺路。RSC包含2000个英伟达DGX A100系统，16000个英伟达A100 GPU。这款超算与Penguin Computing、英伟达和Pure Storage合作组装，目前已完成第二阶段的建设。 ... PC版：手机版：

在Telegram中查看

相关推荐

Meta号称自研AI芯片为何转身买了英伟达35万个GPU？

Meta号称自研AI芯片为何转身买了英伟达35万个GPU？高调自研的Meta转身狂购英伟达芯片Meta首席科学家杨立昆（Yann LeCun）上个月在旧金山举行的一次活动中强调了GPU对于构建通用人工智能（AGI）的重要性。他说：“如果你认为AGI时代正在到来，你就必须购买更多的GPU。这是一场人工智能战争，而英伟达正在提供武器。”Meta第三季度财报显示，2024财年的总支出将在940亿美元至990亿美元之间，部分原因是在算力方面的扩张。矛盾的是：之前，Meta的打算是自研芯片，不依赖英伟达。2023年，Meta公司首度曾公开其自研芯片的进展，表示开始计划开发一种用于训练人工智能模型的内部芯片，他们将这款新型芯片取名Meta训练和推理加速器，简称MTIA（MTIA v1），将其归类为加速人工智能训练和推理工作负载的“芯片家族”，并定计划于2025年推出。这种定制芯片采用开源芯片架构RISC-V，在类型上属于ASIC专用集成电路。巨头自研芯片不顺利2023年OpenAI 大模型爆火以来，互联网巨头对AI芯片的需求一夜爆发，一时间重金难求一卡。为了避免受制于人，节省费用，各大巨头纷纷宣布自研AI芯片。亚马逊似乎占据了先机，已拥有两款AI专用芯片训练芯片Trainium和推理芯片Inferentia；谷歌则拥有第四代张量处理单元（TPU）。相比之下，微软、Meta等还在很大程度上依赖于英伟达、AMD和英特尔等芯片制造商的现成或定制硬件。报道称，微软一直在秘密研发自己的AI芯片，代号雅典娜（Athena）。该芯片由台积电代工，采用5nm先进制程，计划最早于2024年推出。MTIA的 v1，字面性能也很强，采用台积电7nm制程工艺，运行频率800MHz，TDP仅为25W，INT8整数运算能力为102.4 TOPS，FP16浮点运算能力为51.2 TFLOPS。但从目前的进度上看，微软、Meta的进度并不算快，微软一直在订购英伟达的芯片，Meta此次高调宣布购入35万个H100，也表明，自身研发并不顺利。AI算力竞争是否再次展开据OpenAI测算，从2012年开始，全球AI训练所用的计算量呈现指数增长，平均每3.43个月便会翻一倍。2023年，各巨头对AI芯片的抢购，一度让英伟达H100持续涨价缺货。根据研究机构Raymond James的分析师预测，每个英伟达H100芯片售价为25000至30000美元。按此价格范围计算，Meta在这些芯片上的支出将至少接近百亿美元。Meta为何不吝于成本，斥巨资买入英伟达芯片。扎克伯格在周四的文章中还表示，将把人工智能投资与AR/VR驱动的元宇宙愿景联系起来，并计划推出Llama大型语言模型的下一个版本。从上述表态中可以看出，Meta的自身业务深入发展，需要算力的支持，这是根本原因。对于全球互联网巨头、科技公司来说，2024年的竞争已经开始，新的一轮算力竞争是否就此拉开序幕。 ... PC版：手机版：

Meta将率先使用英伟达最新人工智能芯片

Meta将率先使用英伟达最新人工智能芯片英伟达首席财务官科莱特·克雷斯（Colette Kress）周二告诉金融分析师，“我们将在今年晚些时候上市”，但也表示，新GPU的出货量要到2025年才会增加。而社交媒体巨头 Meta 是英伟达最大的客户之一，此前该公司购买了英伟达公司数十万上一代芯片。Meta 首席执行官马克·扎克伯格在 1 月份就曾透露，该公司计划会在今年年底前将大约 350,000 个早期芯片（称为 H100）储存在库存中。本次Meta社交平台的发言人向外媒公布的最新消息显示，在今年晚些时候，会收到英伟达推出的全新的人工智能芯片，而且还透露，收到的将是英伟达的首批出货。此前，扎克伯格在周一的一份声明中表示，Meta 计划使用 Blackwell 来训练该公司的骆驼模型。该公司目前正在上周宣布的两个GPU集群上训练第三代模型，每个集群包含约24,000个H100 GPU。Meta 发言人表示，Meta 计划继续使用这些集群来训练 Llama 3，并将 Blackwell 用于该模型的未来几代。 ... PC版：手机版：

Meta 新建两座数据中心集群：内含超 4.9 万块英伟达 H100 GPU，专门训练 Llama3

Meta 新建两座数据中心集群：内含超 4.9 万块英伟达 H100 GPU，专门训练 Llama3 据悉，这两座数据中心的唯一目的，是在消费者特定应用领域（IT之家注：包含声音或图像识别）中进行 AI 研究和大语言模型的开发，每个集群都包含了 24576 块英伟达 H100 AI GPU，将用于自家大语言模型 Llama 3 的训练。

英伟达掌握AI时代“摩尔定律” 会加大中美AI公司差距么？

英伟达掌握AI时代“摩尔定律” 会加大中美AI公司差距么？作为GTC大会的核心，英伟达发布了Blackwell GPU，它分为B200和GB200系列，后者集成了1个Grace CPU和2个B200 GPU。NVIDIA GB200 NVL72大型机架系统使用GB200芯片，搭配NVIDIA BlueField-3数据处理单元、第五代NVLink互联等技术，对比相同数量H100 Tensor核心的系统，在推理上有高达30倍的性能提升，并将成本和能耗降低了25倍。在AI应用方面，英伟达推出Project GR00T机器人基础模型及Isaac机器人平台的重要更新。英伟达展示其AI芯片的算力在过去8年里实现了1000倍的增长，这代表AI时代的摩尔定律（算力快速增长，算力成本快速下降）正在形成。01实现10万亿参数AI模型的训练和实时推理在GTC大会上，英伟达不仅发布了算力方面的更新，也介绍了其在应用方面的进展。1.更强的训练算力，更快、成本更低的推理Blackwell不仅是一块芯片，也是一个平台。英伟达的目标是让规模达到10万亿参数的AI模型可以轻松训练和实时推理。它最小的单元是B200，内置2080亿个晶体管，使用定制的4NP TSMC工艺制造，采用Chiplet架构，两个GPU dies通过每秒10TB的芯片到芯片链接连接成一个统一的GPU。GB200超级芯片则将两个B200 Tensor核心GPU通过每秒900GB的超低功耗NVLink芯片到芯片互连技术与NVIDIA Grace CPU连接。再往上一层，则是NVIDIA GB200 NVL72，这是一个多节点、液冷的机架系统，它内含36个Grace Blackwell超级芯片，包括72个Blackwell GPU和36个Grace CPU，在NVIDIA BlueField-3数据处理单元的支持下，它能实现云网络加速、可组合存储、零信任安全性以及在超大规模AI云中的GPU计算弹性。这个系统可以被作为"单个GPU"工作，这时它能提供1.4 exaflops的AI性能和30TB的快速内存。据称，一个GB200 NVL72就最高支持27万亿参数的模型。最大规模的系统则是DGX SuperPOD，NVIDIA GB200 NVL72是DGX SuperPOD的构建单元，这些系统通过NVIDIA Quantum InfiniBand网络连接，可扩展到数万个GB200超级芯片。此外，NVIDIA还提供HGX B200服务器板，通过NVLink将八个B200 GPU连接起来，支持基于x86的生成式AI平台。HGX B200通过NVIDIA Quantum-2 InfiniBand和Spectrum-X以太网网络平台支持高达400Gb/s的网络速度。GB200还将在NVIDIA DGX云上提供给客户，这是一个与AWS、Google云和甲骨文云等领先的云服务提供商共同设计的AI平台，为企业开发者提供专用访问权限，以构建和部署先进的生成式AI模型所需的基础设施和软件。英伟达以实际的模型训练为例，训练一个GPT-MoE-1.8T模型（疑似指GPT-4），此前使用Hopper系列芯片需要8000块GPU训练90天，现在使用GB200训练同样的模型，只需要2000块GPU，能耗也只有之前的四分之一。由GB200组成的系统，相比相同数量的NVIDIA H100 Tensor核心GPU组成的系统，推理性能提升30倍，成本和能耗降低25倍。在背后支持这些AI芯片和AI算力系统的是一系列新技术，包括提升性能的第二代Transformer引擎（支持双倍的计算和模型大小）、第五代NVLink（提供了每个GPU1.8TB/s的双向吞吐量）；提升可靠性的RAS引擎（使AI算力系统能够连续运行数周甚至数月）；以及安全AI（保护AI模型和客户数据）等。在软件方面，Blackwell产品组合得到NVIDIA AI Enterprise的支持，这是一个端到端的企业级AI操作系统。NVIDIA AI Enterprise包括NVIDIA NIM推理微服务，以及企业可以在NVIDIA加速的云、数据中心和工作站上部署的AI框架、库和工具。NIM推理微服务可对来自英伟达及合作伙伴的数十个AI模型进行优化推理。综合英伟达在算力方面的创新，我们看到它在AI模型训练和推理方面的显著进步。在AI的模型训练方面，更强的芯片和更先进的芯片间通讯技术，让英伟达的算力基础设施能够以相对较低的成本训练更大的模型。GPT-4V和Sora代表了生成式AI的未来，即多模态模型和包括视频在内的视觉大模型，英伟达的进步让规模更大、更多模态和更先进的模型成为可能。在AI推理方面，目前越来越大的模型规模和越来越高的实时性要求，对于推理算力的挑战十分严苛。英伟达的AI算力系统推理性能提升30倍，成本和能耗降低25倍。不仅让大型模型的实时推理成为可能，而且解决了以往的并不算优秀的能效和成本问题。2.着重发力具身智能英伟达在GTC大会上公布了一系列应用方面的新成果，例如生物医疗、工业元宇宙、机器人、汽车等领域。其中机器人（具身智能）是它着重发力的方向。它推出了针对仿生机器人的Project GR00T基础模型及Isaac机器人平台的重要更新。Project GR00T是面向仿生机器人的通用多模态基础模型，充当机器人的“大脑”，使它们能够学习解决各种任务的技能。Isaac机器人平台为开发者提供新型机器人训练模拟器、Jetson Thor机器人计算机、生成式AI基础模型，以及CUDA加速的感知与操控库Isaac机器人平台的客户包括1X、Agility Robotics、Apptronik、Boston Dynamics、Figure AI和XPENG Robotics等领先的仿生机器人公司。英伟达也涉足了工业机器人和物流机器人。Isaac Manipulator为机械臂提供了最先进的灵巧性和模块化AI能力。它在路径规划上提供了高达80倍的加速，并通过Zero Shot感知（代表成功率和可靠性）提高了效率和吞吐量。其早期生态系统合作伙伴包括安川电机、PickNik Robotics、Solomon、READY Robotics和Franka Robotics。Isaac Perceptor提供了多摄像头、3D环绕视觉能力，这些能力对于自动搬运机器人特别有用，它帮助ArcBest、比亚迪等在物料处理操作等方面实现新的自动化水平。02英伟达算力井喷后，对创业公司有何影响？在发展方式上，英伟达与OpenAI等公司有明显的不同。OpenAI以及Anthropic、Meta等公司是以AI模型为核心，然后运营平台和生态；英伟达则以算力为核心，并拓展到软件平台和AI的相关应用。并且在应用方面，它并没有表现出一家垄断的态势，而是与各种行业的合作伙伴共创，其目的是建立一个软硬件结合的庞大生态。此次英伟达在算力方面的进步，对于AI创业公司们也产生了深刻影响。对于大模型领域创业公司，例如OpenAI等，这显然是利好，因为他们能以更快的频率，更低的成本训练规模更大，模态更多的模型，并且有机会进一步降低API的价格，扩展客户群体。对于AI应用领域的创业公司，英伟达不仅将推理算力性能提高了数十倍，而且降低了能耗和成本。这让AI应用公司们能在成本可承担的前提下，拓展业务规模，随着AI算力的进一步增长，未来AI应用公司的运营成本还可能进一步降低。对于AI芯片领域的创业公司，英伟达的大更新让他们感受到了明显压力，而且英伟达提供的是一套完整的系统，包括算力芯片，芯片间通信技术，打破内存墙的网络芯片等。AI芯片创业公司必须找到自己真正能建立优势的方向，而不是因为英伟达这类巨头的一两次更新就失去存在价值。中国的AI创业公司，因为各种各样的原因，很难使用最新最强的英伟达AI芯片，作为替代的国产AI芯片在算力和能效比上目前仍有差距，这可能导致专注大模型领域的公司们在模型的规模扩展和迭代速度上与海外的差距拉大。对于中国的AI应用公司，则仍有机会。因为它们不仅可以用国内的基础模型，也可以用海外的先进开源模型。中国拥有全球顶尖的AI工程师和产品经理，他们打造的产品足可以参与全球竞争，这让AI应用公司们进可以开拓海外市场，还有足够庞大的国内市场做基本盘，AI时代的字节跳动、米哈游很可能在它们中间产生。 ... PC版：手机版：

Meta推出新款AI芯片旨在降低对英伟达的依赖

Meta推出新款AI芯片旨在降低对英伟达的依赖 Meta转向人工智能服务带来了更高的算力需求。去年这家社交媒体巨头发布了自己的人工智能模型，来与OpenAI的ChatGPT竞争。该公司还给其社交应用程序增加了新的AI功能，包括定制的贴纸和名人脸的聊天机器人角色。去年10月，该公司表示将向支持人工智能的基础设施投入高达350亿美元，包括数据中心和硬件。其首席执行官扎克伯格当时对投资者表示：“人工智能将是我们2024年最大的投资领域。”这些支出中的很大一部分可能仍将流向生产热门的H100显卡的英伟达。今年早些时候，扎克伯格表示将采购35万块每块售价数万美元的此类芯片。但自研芯片的科技巨头也越来越多。除了Meta，亚马逊旗下AWS、微软公司和Alphabet Inc．旗下谷歌也都在试图摆脱这种代价高昂的依赖性。然而该进程难以一蹴而就。到目前为止，这些努力并没有削弱业界对英伟达人工智能加速器的旺盛需求。 ... PC版：手机版：

消息称Meta计划开发新AI芯片，此前因迟迟未用GPU导致AI开发落后

消息称Meta计划开发新AI芯片，此前因迟迟未用GPU导致AI开发落后消息人士透露，Meta 之前发展 AI 业务时，一直没有接受使用 GPU，相反，直到去年，Meta都在主要使用 CPU 队列运行人工智能工作负载，这也是Meta在AI进程上落后对手的关键原因之一。Meta曾计划在2022年推出定制芯片，但后来放弃；同年其订购了数十亿美元的英伟达GPU。目前，Meta内部已开始计划开发一款新型芯片，类似GPU，既能训练AI模型，又能进行推理，该项目将于2025年左右完成。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人