直到去年，Meta在处理AI工作负载时，主要使用的还是CPU。CPU是计算机的主力芯片，几十年来数据中心用的也是CPU，但它在A

直到去年，Meta在处理AI工作负载时，主要使用的还是CPU。CPU是计算机的主力芯片，几十年来数据中心用的也是CPU，但它在AI工作上表现并不佳。据悉，Meta还曾自研芯片，在内部设计的定制芯片上进行推理。但在2021年，Meta还是失望地发现，比起GPU，这种双管齐下的方法速度更慢、效率更低。而且GPU在运行不同类型的模型上，远比Meta的芯片更灵活。标签: #Meta #AI 频道: @GodlyNews1 投稿: @Godlynewsbot

在Telegram中查看

相关推荐

消息称Meta计划开发新AI芯片，此前因迟迟未用GPU导致AI开发落后

消息称Meta计划开发新AI芯片，此前因迟迟未用GPU导致AI开发落后消息人士透露，Meta 之前发展 AI 业务时，一直没有接受使用 GPU，相反，直到去年，Meta都在主要使用 CPU 队列运行人工智能工作负载，这也是Meta在AI进程上落后对手的关键原因之一。Meta曾计划在2022年推出定制芯片，但后来放弃；同年其订购了数十亿美元的英伟达GPU。目前，Meta内部已开始计划开发一款新型芯片，类似GPU，既能训练AI模型，又能进行推理，该项目将于2025年左右完成。

黄仁勋抛出2700W功耗的真核弹还有240TB显存的AI超级计算机

黄仁勋抛出2700W功耗的真核弹还有240TB显存的AI超级计算机 Blackwell B200 GPU首次采用了chiplet晶粒封装，包含两颗B100，而B200之间再通过带宽翻倍达1.8TB/s的第五代NVLink 5总线互连，最多可连接576块。B100采用专门定制的台积电4NP工艺制造(H100/RTX 40 4N工艺的增强版)，已经达到双倍光刻极限尺寸，彼此通过10TB/s带宽的片间互联带宽，连接成一块统一的B200 GPU。B100集成多达1040亿个晶体管，比上代H100 800亿个增加了足足30％，B200整体就是2080亿个晶体管。核心面积未公布，考虑到工艺极限应该不会比814平方毫米的H100大太多。CUDA核心数量也没说，但肯定会大大超过H100 16896个，不知道能不能突破2万个？每颗B100连接四颗24GB HBM3E显存/内存，等效频率8GHz，位宽4096-bit，带宽达4TB/s。如此一来，B200就有多达192GB HBM3E，总位宽8096-bit，总带宽8TB/s，相比H100分别增加1.4倍、58％、1.4倍。性能方面，B200新增支持FP4 Tensor数据格式，性能达到9PFlops(每秒9千万亿次)，INT/FP8、FP16、TF32 Tensor性能分别达到4.5、2.25、1.1PFlops，分别提升1.2倍、1.3倍、1.3倍，但是FP64 Tensor性能反而下降了40％(依赖GB200)，FP32、FP64 Vector性能则未公布。Blackwell GPU还支持第二代Transformer引擎，支持全新的微张量缩放，在搭配TensorRT-LLM、NeMo Megatron框架中的先进动态范围管理算法，从而在新型4位浮点AI推理能力下实现算力和模型大小的翻倍。其他还有RAS可靠性专用引擎、安全AI、解压缩引擎等。至于功耗，B100控制在700W，和上代H100完全一致，B200则首次达到了1000W。NVIDIA宣称，Blackwell GPU能够在10万亿参数的大模型上实现AI训练和实时大语言模型推理。GB200 Grace Blackwell是继Grace Hopper之后的新一代超级芯片(Superchip)，从单颗GPU＋单颗CPU升级为两颗GPU加一颗CPU，其中GPU部分就是B200，CPU部分不变还是Grace，彼此通过900GB/s的带宽实现超低功耗片间互联。在大语言模型推理工作负载方面，GB200超级芯片的性能对比H100提升了多达30倍。不过代价也很大，GB200的功耗最高可达2700W，可以使用分冷，更推荐使用液冷。基于GB200超级芯片，NVIDIA打造了新一代的AI超级计算机“DGX SuperPOD”，配备36块超级芯片，也就是包含36颗Grace CPU、72颗B200 GPU，彼此通过NVLink 5组合在一起，还有多达240TB HBM3E。这台AI超级计算机可以处理万亿参数的大模型，能保证超大规模生成式AI训练和推理工作负载的持续运行，FP4精度下的性能高达11.5EFlops(每秒1150亿亿次)。DGX SuperPOD还具有极强的扩展性，可通过Quantum-X800 InfiniBand网络连接，扩展到数万颗GB200超级芯片，并加入BlueField-3 DPU数据处理单元，而每颗GPU都能获得1.8TB/s的高带宽。第四代可扩展分层聚合和规约协议(SHARP)技术，可提供14.4TFlops的网络计算能力，比上代提升4倍。此外，NVIDIA还发布了第六代通用AI超级计算平台“DGX B200”，包含两颗Intel五代至强处理器、八颗B200 GPU，具备1.4TB HBM3E、64TB/s带宽，FP4精度性能144PFlops(每秒14亿亿次)，万亿参数模型实时推理速度提升15倍。DGX B200系统还集成八个NVIDIA ConnectX-7网卡、两个BlueField-3 DPU高性能网络，每个连接带宽高达400Gb/s，可通过Quantum-2 InfiniBand、Spectrum?-X以太网网络平台，扩展支持更高的AI性能。基于Blackwell GPU的产品将在今年晚些时候陆续上市，亚马逊云、戴尔、谷歌、Meta、微软、OpenAI、甲骨文、特斯拉、xAI等都会采纳。亚马逊云、谷歌云、微软Azeure、甲骨文云将是首批提供Blackwell GPU驱动实例的云服务提供商，NVIDIA云合作伙伴计划的中的Applied Digital、CoreWeave、Crusoe、IBM Cloud、Lambda也将提供上述服务。Indosat Ooredoo Hutchinson、Nebius、Nexgen Cloud、甲骨文欧盟主权云、甲骨文美国/英国/澳大利亚政府云、Scaleway、新加坡电信、Northern Data Group旗下的Taiga Cloud、Yotta Data Services旗下的Shakti Cloud、YTL Power International 等主权AI云，也将提供基于Blackwell架构的云服务和基础设施。 ... PC版：手机版：

为什么有了CPU，还要研究GPU？

为什么有了CPU，还要研究GPU？ llk的回答一句话结论就是之前是软件时代，现在是AI时代。真是时代的浪潮一波接一波，三国演义里的片头词很合适：滚滚长江东逝水，浪花淘尽英雄。是非成败转头空。青山依旧在，几度夕阳红。白发渔樵江渚上，惯看秋月春风。一壶浊酒喜相逢。古今多少事，都付笑谈中曾几何时，在CPU市场，Intel通过wintel联盟统治了消费端，反过来通过消费端的利润和技术迭代从IBM/SUN等手里抢过了数据中心业务。那是一段关于CPU在指令集架构，和实现微架构上荡气回肠的历史，Intel最终成为了CPU市场的赢家，而广大消费者也用上了性价比越来越高的计算机。那个时候NVIDIA还是一家GPU公司，营收不到Intel的零头，产品GPU更是作为CPU的一个加速设备而存在。但是伴随CPU性能提升的逐渐放缓，Intel或者说CPU上的光环不在。人们转向并行计算，而NVIDIA则在这一转变中成功抓住机会，在2006年推出了Tesla架构，成功从GPU变成GPGPU NVIDIA称这一架构叫做scalable processor array，真是贴切，既可以在SM里扩展SP，又可以在芯片层面扩展SM。所以伴随摩尔定律，NVIDIA的GPGPU越来越大，性能也越来越强。一直到2012年，AI的浪潮爆发了，NVIDIA多年前的技术上的决策得到了回报，GPGPU大行其道，甚至成为AI计算的标准。而大语言模型的爆发更是催生了对高性能计算的迫切需求，NVIDIA股价更是一飞冲天。而随着GPGPU成为计算的主力，之前计算的主力CPU的市场就被大大削弱了。看看NVIDIA的DGX-1系统 8个GPU才搭配两个CPU，GPU成功从曾经的从设备变成了主角，而CPU则从王座跌落，成了主角背后的辅助。雷军说过，风口上的猪都能飞起来，更何况NVIDIA本来就是图形和并行计算领域的领导者。时来天地皆同力，运去英雄不自由这是对GPU和CPU最好的注释了。 via 知乎热榜 (author: llk)

戴尔解释如何检查Windows 11计算机是否"支持AI"

戴尔解释如何检查Windows 11计算机是否"支持AI" 据戴尔公司称，用于更高效地处理基于人工智能的任务的专用硬件和软件可以让你的电脑"启用人工智能"。虽然传统计算机也可以使用人工智能，但专用硬件加速器可以优化处理过程，降低能耗。这种"专用硬件"被称为 NPU 或神经处理单元：NPU 经过优化，可处理深度学习算法所需的复杂计算。这种优化使 NPU 在处理人工智能任务（如自然语言处理、图像分析等）时具有惊人的效率。NPU 集成在 CPU 中，衡量 NPU 性能的一个标准是每秒 Tera 运算次数（TOPs）。Windows 11 需要一个专用的 NPU 来处理 Windows Studio 特效，其中包括背景模糊、眼部接触校正、自动取景和语音对焦。不过，得益于 Windows 11 最近的改进，Voice Clarity很快就能在所有系统上使用。电脑还需要一个 NPU 来处理即将推出的下一代 Windows 11 功能，例如传闻中的 AI Explorer。在效率方面，戴尔表示，搭载英特尔最新酷睿Ultra处理器的电脑通过将自动成帧、背景模糊和眼球跟踪功能从 CPU 卸载到 NPU，在 Zoom 通话期间最多可节省 38% 的电池。采用英特尔第 14 代处理器、AMD Ryzen 7000 和8000 系列以及高通公司 Snapdragon 8cx Gen2 或Snapdragon X Elite及更新处理器的电脑中都有专用神经处理单元。要检查您的电脑是否有 NPU，可以启动任务管理器并转到"性能"选项卡。受支持的电脑在 CPU、内存、存储、网络和 GPU 旁边会显示"NPU 0"。或者，进入设备管理器，查找 Intel AI Boost（在 Intel 系统上）或 AMD IPU Device（在 AMD 系统上）。如果看不到这些设备，则可能需要从制造商网站下载驱动程序。采用高通芯片的电脑已预装 NPU 驱动程序，可通过 Windows Update 下载。你可以在戴尔的官方网站上找到更多关于"AI-enabled"PC 的信息。有趣的是，英特尔最近也发布了类似的信息，确认如果电脑拥有 NPU 和带有专用物理按键的 Copilot，那么它就有资格成为"AI PC"。 ... PC版：手机版：

Meta正在招募芯片工程师以开发下一代AI和ML专用加速器

Meta正在招募芯片工程师以开发下一代AI和ML专用加速器根据最近在网上发布的招聘信息，Meta 公司希望招聘高技能的硬件工程师来开发新一代专用集成电路（ASIC）设计。ASIC 芯片在硬件层面为特定的计算用途而定制，这意味着它们不像传统 CPU 那样用于通用用途。但是，ASIC 在其设计用途上也非常高效，例如为人工智能工作负载和聊天机器人服务提供机器学习算法。Meta公司最新招聘职位分布在印度班加罗尔和加利福尼亚桑尼维尔。在印度，Facebook 母公司正在招聘一名ASIC 工程师，为其数据中心构建硬件加速器。招聘信息称，这名新员工将成为 ASIC 团队不可或缺的一员，该团队致力于开发最先进的芯片架构，以加速人工智能/机器学习算法。尽管人工智能应用对能源的需求巨大，但 Meta 仍希望打造"绿色"数据中心加速器。新任 ASIC 工程师需要开发新的先进硬件架构和算法，以支持和测试这些新芯片。该职位的职责包括开发性能和功能模型以验证新架构，创建机器学习内核以分析 ASIC 芯片，以及针对 ML 工作负载优化架构。Facebook 公司正在寻找至少拥有计算机科学或工程学士学位、10 年以上工作经验并了解处理器、内存系统和片上互连网络等计算机架构概念的人才。应聘者还需要在 C++（和 C）等低级面向对象编程语言方面有丰富的经验。Meta的一些与ASIC架构相关的招聘信息最早是在2023年12月发布的，但两周前又重新发布了。该公司此前曾表示，希望开发自己的"推理加速器"，并将于 2024 年上线。据 NVIDIA 首席执行官黄仁勋（Jensen Huang）称，GPU 在改善 Meta 的"推荐引擎"和公司整体收入方面发挥了关键作用。但 NVIDIA 也表示，在不久的将来，它很可能无法为任何从事人工智能业务的人提供足够的 GPU 加速器。Meta 似乎也在研究人工通用智能（AGI）这一难以捉摸的概念，这对于最新的 GPU 技术来说是一项极其艰巨的任务，但对于专用的 ASIC 芯片设计来说，却能从中获益匪浅。 ... PC版：手机版：

PS5 Pro更多规格外泄：CPU、内存带宽小幅度提升

PS5 Pro更多规格外泄：CPU、内存带宽小幅度提升系统内存带宽标准版PS5：448 GB/s (14 GT/s)PS5 Pro：576 GB/s (18GT/s)，比标准版PS5提升了28%CPU标准版PS5：x86-64-AMD Ryzen Zen 8核/16线程，3.5GHz (可变频率)PS5 Pro：虽然PS5 Pro的CPU和标准版PS5一样，但Pro的CPU频率更高，来到了3.85GHz，比PS5提升了10%注：在高CPU频率模式下，更多的功率分配给CPU，并将GPU降频约1.5%，导致GPU性能降低约1%音频PS5 Pro的ACV拥有比标准版PS5更高的时钟速度，从而使ACM库性能提升35%。这意味着：可以处理更多的卷积混响 (convolution reverb)可以处理更多的快速傅里叶变换 (FFT) 或逆快速傅里叶变换 (IFFT)GPU渲染速度比PS5快45%光线追踪性能提升2-3倍（某些情况下可达4倍）33.5TFLOPS浮点性能PSSR (PlayStation光谱超级分辨率缩放) 用于画面缩放和抗锯齿未来SDK版本计划支持高达8K分辨率定制机器学习架构AI加速器，支持300 TOPS（8位运算）/67 TFLOPS（16位浮点运算）GPU补充标准版PS5：GPU为18个WGP（工作组处理器）/36个CUPS5 Pro：GPU升级为拥有30个WGP（工作组处理器）/60个CU的RDNA 3架构芯片注：WGP是AMD在RDNA架构中开始使用，与之前使用了10多年的GCN架构中的CU单元有很大不同。简单来说，1个WGP相当于2个CU单元。 PS5 Pro使用30 WGP的话就相当于60组CU单元，3840个流处理器单元，预计仍将采用RDNA3架构。这个GPU规模比RX 7900 XT的84组CU单元弱一些，应该与RX 7800相当。额外信息：1TB硬盘可拆卸光驱PS5 Pro当前SKD为9.00，而今年秋季发售时SKD为10.00 ... PC版：手机版：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人