直到去年,Meta在处理AI工作负载时,主要使用的还是CPU。CPU是计算机的主力芯片,几十年来数据中心用的也是CPU,但它在A

直到去年,Meta在处理AI工作负载时,主要使用的还是CPU。CPU是计算机的主力芯片,几十年来数据中心用的也是CPU,但它在AI工作上表现并不佳。 据悉,Meta还曾自研芯片,在内部设计的定制芯片上进行推理。 但在2021年,Meta还是失望地发现,比起GPU,这种双管齐下的方法速度更慢、效率更低。而且GPU在运行不同类型的模型上,远比Meta的芯片更灵活。 标签: #Meta #AI 频道: @GodlyNews1 投稿: @Godlynewsbot

相关推荐

封面图片

消息称Meta计划开发新AI芯片,此前因迟迟未用GPU导致AI开发落后

消息称Meta计划开发新AI芯片,此前因迟迟未用GPU导致AI开发落后 消息人士透露,Meta 之前发展 AI 业务时,一直没有接受使用 GPU,相反,直到去年,Meta都在主要使用 CPU 队列运行人工智能工作负载,这也是Meta在AI进程上落后对手的关键原因之一。Meta曾计划在2022年推出定制芯片,但后来放弃;同年其订购了数十亿美元的英伟达GPU。目前,Meta内部已开始计划开发一款新型芯片,类似GPU,既能训练AI模型,又能进行推理,该项目将于2025年左右完成。

封面图片

黄仁勋抛出2700W功耗的真核弹 还有240TB显存的AI超级计算机

黄仁勋抛出2700W功耗的真核弹 还有240TB显存的AI超级计算机 Blackwell B200 GPU首次采用了chiplet晶粒封装,包含两颗B100,而B200之间再通过带宽翻倍达1.8TB/s的第五代NVLink 5总线互连,最多可连接576块。B100采用专门定制的台积电4NP工艺制造(H100/RTX 40 4N工艺的增强版),已经达到双倍光刻极限尺寸,彼此通过10TB/s带宽的片间互联带宽,连接成一块统一的B200 GPU。B100集成多达1040亿个晶体管,比上代H100 800亿个增加了足足30%,B200整体就是2080亿个晶体管。核心面积未公布,考虑到工艺极限应该不会比814平方毫米的H100大太多。CUDA核心数量也没说,但肯定会大大超过H100 16896个,不知道能不能突破2万个?每颗B100连接四颗24GB HBM3E显存/内存,等效频率8GHz,位宽4096-bit,带宽达4TB/s。如此一来,B200就有多达192GB HBM3E,总位宽8096-bit,总带宽8TB/s,相比H100分别增加1.4倍、58%、1.4倍。性能方面,B200新增支持FP4 Tensor数据格式,性能达到9PFlops(每秒9千万亿次),INT/FP8、FP16、TF32 Tensor性能分别达到4.5、2.25、1.1PFlops,分别提升1.2倍、1.3倍、1.3倍,但是FP64 Tensor性能反而下降了40%(依赖GB200),FP32、FP64 Vector性能则未公布。Blackwell GPU还支持第二代Transformer引擎,支持全新的微张量缩放,在搭配TensorRT-LLM、NeMo Megatron框架中的先进动态范围管理算法,从而在新型4位浮点AI推理能力下实现算力和模型大小的翻倍。其他还有RAS可靠性专用引擎、安全AI、解压缩引擎等。至于功耗,B100控制在700W,和上代H100完全一致,B200则首次达到了1000W。NVIDIA宣称,Blackwell GPU能够在10万亿参数的大模型上实现AI训练和实时大语言模型推理。GB200 Grace Blackwell是继Grace Hopper之后的新一代超级芯片(Superchip),从单颗GPU+单颗CPU升级为两颗GPU加一颗CPU,其中GPU部分就是B200,CPU部分不变还是Grace,彼此通过900GB/s的带宽实现超低功耗片间互联。在大语言模型推理工作负载方面,GB200超级芯片的性能对比H100提升了多达30倍。不过代价也很大,GB200的功耗最高可达2700W,可以使用分冷,更推荐使用液冷。基于GB200超级芯片,NVIDIA打造了新一代的AI超级计算机“DGX SuperPOD”,配备36块超级芯片,也就是包含36颗Grace CPU、72颗B200 GPU,彼此通过NVLink 5组合在一起,还有多达240TB HBM3E。这台AI超级计算机可以处理万亿参数的大模型,能保证超大规模生成式AI训练和推理工作负载的持续运行,FP4精度下的性能高达11.5EFlops(每秒1150亿亿次)。DGX SuperPOD还具有极强的扩展性,可通过Quantum-X800 InfiniBand网络连接,扩展到数万颗GB200超级芯片,并加入BlueField-3 DPU数据处理单元,而每颗GPU都能获得1.8TB/s的高带宽。第四代可扩展分层聚合和规约协议(SHARP)技术,可提供14.4TFlops的网络计算能力,比上代提升4倍。此外,NVIDIA还发布了第六代通用AI超级计算平台“DGX B200”,包含两颗Intel五代至强处理器、八颗B200 GPU,具备1.4TB HBM3E、64TB/s带宽,FP4精度性能144PFlops(每秒14亿亿次),万亿参数模型实时推理速度提升15倍。DGX B200系统还集成八个NVIDIA ConnectX-7网卡、两个BlueField-3 DPU高性能网络,每个连接带宽高达400Gb/s,可通过Quantum-2 InfiniBand、Spectrum?-X以太网网络平台,扩展支持更高的AI性能。基于Blackwell GPU的产品将在今年晚些时候陆续上市,亚马逊云、戴尔、谷歌、Meta、微软、OpenAI、甲骨文、特斯拉、xAI等都会采纳。亚马逊云、谷歌云、微软Azeure、甲骨文云将是首批提供Blackwell GPU驱动实例的云服务提供商,NVIDIA云合作伙伴计划的中的Applied Digital、CoreWeave、Crusoe、IBM Cloud、Lambda也将提供上述服务。Indosat Ooredoo Hutchinson、Nebius、Nexgen Cloud、甲骨文欧盟主权云、甲骨文美国/英国/澳大利亚政府云、Scaleway、新加坡电信、Northern Data Group旗下的Taiga Cloud、Yotta Data Services旗下的Shakti Cloud、YTL Power International 等主权AI云,也将提供基于Blackwell架构的云服务和基础设施。 ... PC版: 手机版:

封面图片

为什么有了CPU,还要研究GPU?

为什么有了CPU,还要研究GPU? llk的回答 一句话结论就是之前是软件时代,现在是AI时代。 真是时代的浪潮一波接一波,三国演义里的片头词很合适:滚滚长江东逝水,浪花淘尽英雄。是非成败转头空。青山依旧在,几度夕阳红。 白发渔樵江渚上,惯看秋月春风。一壶浊酒喜相逢。古今多少事,都付笑谈中曾几何时,在CPU市场,Intel通过wintel联盟统治了消费端,反过来通过消费端的利润和技术迭代从IBM/SUN等手里抢过了数据中心业务。那是一段关于CPU在指令集架构,和实现微架构上荡气回肠的历史,Intel最终成为了CPU市场的赢家,而广大消费者也用上了性价比越来越高的计算机。那个时候NVIDIA还是一家GPU公司,营收不到Intel的零头,产品GPU更是作为CPU的一个加速设备而存在。 但是伴随CPU性能提升的逐渐放缓,Intel或者说CPU上的光环不在。 人们转向并行计算,而NVIDIA则在这一转变中成功抓住机会,在2006年推出了Tesla架构,成功从GPU变成GPGPU NVIDIA称这一架构叫做scalable processor array,真是贴切,既可以在SM里扩展SP,又可以在芯片层面扩展SM。所以伴随摩尔定律,NVIDIA的GPGPU越来越大,性能也越来越强。一直到2012年,AI的浪潮爆发了,NVIDIA多年前的技术上的决策得到了回报,GPGPU大行其道,甚至成为AI计算的标准。 而大语言模型的爆发更是催生了对高性能计算的迫切需求,NVIDIA股价更是一飞冲天。而随着GPGPU成为计算的主力,之前计算的主力CPU的市场就被大大削弱了。看看NVIDIA的DGX-1系统 8个GPU才搭配两个CPU,GPU成功从曾经的从设备变成了主角,而CPU则从王座跌落,成了主角背后的辅助。 雷军说过,风口上的猪都能飞起来,更何况NVIDIA本来就是图形和并行计算领域的领导者。时来天地皆同力,运去英雄不自由这是对GPU和CPU最好的注释了。 via 知乎热榜 (author: llk)

封面图片

戴尔解释如何检查Windows 11计算机是否"支持AI"

戴尔解释如何检查Windows 11计算机是否"支持AI" 据戴尔公司称,用于更高效地处理基于人工智能的任务的专用硬件和软件可以让你的电脑"启用人工智能"。虽然传统计算机也可以使用人工智能,但专用硬件加速器可以优化处理过程,降低能耗。这种"专用硬件"被称为 NPU 或神经处理单元:NPU 经过优化,可处理深度学习算法所需的复杂计算。这种优化使 NPU 在处理人工智能任务(如自然语言处理、图像分析等)时具有惊人的效率。NPU 集成在 CPU 中,衡量 NPU 性能的一个标准是每秒 Tera 运算次数(TOPs)。Windows 11 需要一个专用的 NPU 来处理 Windows Studio 特效,其中包括背景模糊、眼部接触校正、自动取景和语音对焦。不过,得益于 Windows 11 最近的改进,Voice Clarity很快就能在所有系统上使用。电脑还需要一个 NPU 来处理即将推出的下一代 Windows 11 功能,例如传闻中的 AI Explorer。在效率方面,戴尔表示,搭载英特尔最新酷睿Ultra处理器的电脑通过将自动成帧、背景模糊和眼球跟踪功能从 CPU 卸载到 NPU,在 Zoom 通话期间最多可节省 38% 的电池。采用英特尔第 14 代处理器、AMD Ryzen 7000 和8000 系列以及高通公司 Snapdragon 8cx Gen2 或Snapdragon X Elite及更新处理器的电脑中都有专用神经处理单元。要检查您的电脑是否有 NPU,可以启动任务管理器并转到"性能"选项卡。受支持的电脑在 CPU、内存、存储、网络和 GPU 旁边会显示"NPU 0"。或者,进入设备管理器,查找 Intel AI Boost(在 Intel 系统上)或 AMD IPU Device(在 AMD 系统上)。如果看不到这些设备,则可能需要从制造商网站下载驱动程序。采用高通芯片的电脑已预装 NPU 驱动程序,可通过 Windows Update 下载。你可以在戴尔的官方网站上找到更多关于"AI-enabled"PC 的信息。有趣的是,英特尔最近也发布了类似的信息,确认如果电脑拥有 NPU 和带有专用物理按键的 Copilot,那么它就有资格成为"AI PC"。 ... PC版: 手机版:

封面图片

Meta正在招募芯片工程师以开发下一代AI和ML专用加速器

Meta正在招募芯片工程师以开发下一代AI和ML专用加速器 根据最近在网上发布的招聘信息,Meta 公司希望招聘高技能的硬件工程师来开发新一代专用集成电路(ASIC)设计。ASIC 芯片在硬件层面为特定的计算用途而定制,这意味着它们不像传统 CPU 那样用于通用用途。但是,ASIC 在其设计用途上也非常高效,例如为人工智能工作负载和聊天机器人服务提供机器学习算法。Meta公司最新招聘职位分布在印度班加罗尔和加利福尼亚桑尼维尔。在印度,Facebook 母公司正在招聘一名ASIC 工程师,为其数据中心构建硬件加速器。招聘信息称,这名新员工将成为 ASIC 团队不可或缺的一员,该团队致力于开发最先进的芯片架构,以加速人工智能/机器学习算法。尽管人工智能应用对能源的需求巨大,但 Meta 仍希望打造"绿色"数据中心加速器。新任 ASIC 工程师需要开发新的先进硬件架构和算法,以支持和测试这些新芯片。该职位的职责包括开发性能和功能模型以验证新架构,创建机器学习内核以分析 ASIC 芯片,以及针对 ML 工作负载优化架构。Facebook 公司正在寻找至少拥有计算机科学或工程学士学位、10 年以上工作经验并了解处理器、内存系统和片上互连网络等计算机架构概念的人才。应聘者还需要在 C++(和 C)等低级面向对象编程语言方面有丰富的经验。Meta的一些与ASIC架构相关的招聘信息最早是在2023年12月发布的,但两周前又重新发布了。该公司此前曾表示,希望开发自己的"推理加速器",并将于 2024 年上线。据 NVIDIA 首席执行官黄仁勋(Jensen Huang)称,GPU 在改善 Meta 的"推荐引擎"和公司整体收入方面发挥了关键作用。但 NVIDIA 也表示,在不久的将来,它很可能无法为任何从事人工智能业务的人提供足够的 GPU 加速器。Meta 似乎也在研究人工通用智能 (AGI)这一难以捉摸的概念,这对于最新的 GPU 技术来说是一项极其艰巨的任务,但对于专用的 ASIC 芯片设计来说,却能从中获益匪浅。 ... PC版: 手机版:

封面图片

英特尔"Aurora"突破Exaflops障碍 成为AI领域速度最快的超级计算机

英特尔"Aurora"突破Exaflops障碍 成为AI领域速度最快的超级计算机 由英特尔、阿贡国家实验室(Argonne National Laboratory)和HPE合作研发的Aurora超级计算机以585.34 petaflops的部分系统运行速度排名第二。阿贡的早期科学计划取得了重大进展,该计划重点关注科学研究中的高性能计算和人工智能应用。图为安装团队成员在阿贡国家实验室的众多机架中穿行。(图片来源:阿贡国家实验室)Aurora超级计算机部署在阿贡国家实验室,由惠普企业公司(HPE)合作建造,有望成为高性能计算和人工智能领域表现最出色的产品之一。该平台由英特尔至强 CPU Max 和数据中心 GPU Max 系列提供支持,与AMD 展开了激烈的竞争,后者成功地率先突破了Exaflops关卡。与此同时,尽管早在 2019 年就宣布了 Aurora 超级计算机,但它几乎没能达到预期目标,但如今,该系统的运行能力已达到 87%,即总共 9234 个节点。在规格方面,Aurora 超级计算机由 166 个机架组成,其中包括 10624 个刀片服务器、21248 个英特尔至强 CPU Max 芯片(第四代)和 63744 个英特尔数据中心 GPU Max 系列单元(Ponte Vecchio)。它基于 HPE slingshot 光纤架构进行互连,使用 84992 个端点。在性能指标方面,Aurora 超级计算机在 HPL LINPACK 基准测试中名列第二,但仅用了总节点容量的 87%(9234 个节点对 10624 个节点)就达到了 1.012 exaflops,成功突破了1 Exaflops障碍。在 HPCG 测试中,该系统也以 5612 TFLOPs/second 的成绩排名第三,仅使用了系统的 39%。利用 Xe 核心架构及其多个人工智能硬件模块,曙光超级计算机目前在人工智能性能排行榜上名列第一,额定总性能为 10.6 AI Exaflops。该性能使用 LINPACK 混合精度(HPL-MxP)基准进行测量。采用英特尔至强CPU Max系列和英特尔数据中心GPU Max系列技术部署的新型超级计算机彰显了英特尔推进高性能计算和人工智能的目标。这些系统包括欧洲-地中海气候变化中心(CMCC)的Cassandra,用于加速气候变化建模;意大利国家新技术、能源和可持续经济发展局(ENEA)的CRESCO 8,用于实现核聚变能源的突破;德克萨斯高级计算中心 (TACC),该中心已全面投入使用,可对超音速湍流进行生物数据分析,并对多种材料进行原子模拟;以及英国原子能管理局 (UKAEA),用于解决未来核聚变发电厂设计中的内存约束问题。混合精度人工智能基准测试的结果将为英特尔面向人工智能和高性能计算的下一代 GPU(代号为 Falcon Shores)奠定基础。Falcon Shores将利用下一代英特尔Xe架构和英特尔高迪的最佳性能。这种集成实现了统一的编程接口。英特尔至强6的早期性能结果显示,与上一代产品相比, 配备P核和多路复用器组合级(MCR)内存(8800 MT/s)的实际高性能计算应用(如欧洲海洋建模核心(NEMO))的性能提高了2.3倍,为成为高性能计算解决方案的首选主机CPU奠定了坚实的基础。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人