直到去年,Meta在处理AI工作负载时,主要使用的还是CPU。CPU是计算机的主力芯片,几十年来数据中心用的也是CPU,但它在A

直到去年,Meta在处理AI工作负载时,主要使用的还是CPU。CPU是计算机的主力芯片,几十年来数据中心用的也是CPU,但它在AI工作上表现并不佳。 据悉,Meta还曾自研芯片,在内部设计的定制芯片上进行推理。 但在2021年,Meta还是失望地发现,比起GPU,这种双管齐下的方法速度更慢、效率更低。而且GPU在运行不同类型的模型上,远比Meta的芯片更灵活。 标签: #Meta #AI 频道: @GodlyNews1 投稿: @Godlynewsbot

相关推荐

封面图片

消息称Meta计划开发新AI芯片,此前因迟迟未用GPU导致AI开发落后

消息称Meta计划开发新AI芯片,此前因迟迟未用GPU导致AI开发落后 消息人士透露,Meta 之前发展 AI 业务时,一直没有接受使用 GPU,相反,直到去年,Meta都在主要使用 CPU 队列运行人工智能工作负载,这也是Meta在AI进程上落后对手的关键原因之一。Meta曾计划在2022年推出定制芯片,但后来放弃;同年其订购了数十亿美元的英伟达GPU。目前,Meta内部已开始计划开发一款新型芯片,类似GPU,既能训练AI模型,又能进行推理,该项目将于2025年左右完成。

封面图片

周三,IP 核心设计公司 Arm 宣布了其面向旗舰智能手机的下一代 CPU 和 GPU 设计:Cortex-X925 CPU 和

周三,IP 核心设计公司 Arm 宣布了其面向旗舰智能手机的下一代 CPU 和 GPU 设计:Cortex-X925 CPU 和 Immortalis G925 GPU。它们都是 Cortex-X4 和 Immortalis G720 的直接继任者,目前这些芯片为包括 Vivo X100 和 X100 Pro 以及 Oppo Find X7 在内的旗舰智能手机中的联发科天玑 9300 芯片提供动力。 Arm 更改了其 Cortex-X CPU 设计的命名规则,以突出其所谓的更快的 CPU 设计。它声称 X925 的单核性能比 X4 快 36%(在 Geekbench 中测量)。Arm 表示,它将 AI 工作负载性能提高了 41%,时间到令牌,并且拥有高达 3MB 的私有 L2 缓存。 Cortex-X925 也带来了新一代的 Cortex-A 微架构(“小”核心):Cortex-A725。Arm 公司表示,它的性能效率比上一代的 A720 提高了 35%,而且 Cortex-A520 的能效提高了 15%。 Arm 公司表示,他们最新的 Immortalis G925 GPU 是迄今为止“性能最强、效率最高”的 GPU。与上一代 G720 相比,它在图形应用上的速度快了 37%,在处理复杂物体的光线追踪性能上提升了 52%,在人工智能和机器学习任务上的表现提升了 34%,而且功耗降低了 30%。 Arm将首次提供其新型CPU和GPU设计的“优化布局”,并表示这将使设备制造商更容易将其“投放”或实现到自己的片上系统(SoC)布局中。Arm表示,这种新的物理实现解决方案将帮助其他公司更快地将他们的设备推向市场。 作为对移动游戏开发者的额外奖励,虚幻引擎上的 Lumen 光线追踪现在支持 Immortalis 标签: #Arm #GPU #芯片 频道: @GodlyNews1 投稿: @GodlyNewsBot

封面图片

黄仁勋抛出2700W功耗的真核弹 还有240TB显存的AI超级计算机

黄仁勋抛出2700W功耗的真核弹 还有240TB显存的AI超级计算机 Blackwell B200 GPU首次采用了chiplet晶粒封装,包含两颗B100,而B200之间再通过带宽翻倍达1.8TB/s的第五代NVLink 5总线互连,最多可连接576块。B100采用专门定制的台积电4NP工艺制造(H100/RTX 40 4N工艺的增强版),已经达到双倍光刻极限尺寸,彼此通过10TB/s带宽的片间互联带宽,连接成一块统一的B200 GPU。B100集成多达1040亿个晶体管,比上代H100 800亿个增加了足足30%,B200整体就是2080亿个晶体管。核心面积未公布,考虑到工艺极限应该不会比814平方毫米的H100大太多。CUDA核心数量也没说,但肯定会大大超过H100 16896个,不知道能不能突破2万个?每颗B100连接四颗24GB HBM3E显存/内存,等效频率8GHz,位宽4096-bit,带宽达4TB/s。如此一来,B200就有多达192GB HBM3E,总位宽8096-bit,总带宽8TB/s,相比H100分别增加1.4倍、58%、1.4倍。性能方面,B200新增支持FP4 Tensor数据格式,性能达到9PFlops(每秒9千万亿次),INT/FP8、FP16、TF32 Tensor性能分别达到4.5、2.25、1.1PFlops,分别提升1.2倍、1.3倍、1.3倍,但是FP64 Tensor性能反而下降了40%(依赖GB200),FP32、FP64 Vector性能则未公布。Blackwell GPU还支持第二代Transformer引擎,支持全新的微张量缩放,在搭配TensorRT-LLM、NeMo Megatron框架中的先进动态范围管理算法,从而在新型4位浮点AI推理能力下实现算力和模型大小的翻倍。其他还有RAS可靠性专用引擎、安全AI、解压缩引擎等。至于功耗,B100控制在700W,和上代H100完全一致,B200则首次达到了1000W。NVIDIA宣称,Blackwell GPU能够在10万亿参数的大模型上实现AI训练和实时大语言模型推理。GB200 Grace Blackwell是继Grace Hopper之后的新一代超级芯片(Superchip),从单颗GPU+单颗CPU升级为两颗GPU加一颗CPU,其中GPU部分就是B200,CPU部分不变还是Grace,彼此通过900GB/s的带宽实现超低功耗片间互联。在大语言模型推理工作负载方面,GB200超级芯片的性能对比H100提升了多达30倍。不过代价也很大,GB200的功耗最高可达2700W,可以使用分冷,更推荐使用液冷。基于GB200超级芯片,NVIDIA打造了新一代的AI超级计算机“DGX SuperPOD”,配备36块超级芯片,也就是包含36颗Grace CPU、72颗B200 GPU,彼此通过NVLink 5组合在一起,还有多达240TB HBM3E。这台AI超级计算机可以处理万亿参数的大模型,能保证超大规模生成式AI训练和推理工作负载的持续运行,FP4精度下的性能高达11.5EFlops(每秒1150亿亿次)。DGX SuperPOD还具有极强的扩展性,可通过Quantum-X800 InfiniBand网络连接,扩展到数万颗GB200超级芯片,并加入BlueField-3 DPU数据处理单元,而每颗GPU都能获得1.8TB/s的高带宽。第四代可扩展分层聚合和规约协议(SHARP)技术,可提供14.4TFlops的网络计算能力,比上代提升4倍。此外,NVIDIA还发布了第六代通用AI超级计算平台“DGX B200”,包含两颗Intel五代至强处理器、八颗B200 GPU,具备1.4TB HBM3E、64TB/s带宽,FP4精度性能144PFlops(每秒14亿亿次),万亿参数模型实时推理速度提升15倍。DGX B200系统还集成八个NVIDIA ConnectX-7网卡、两个BlueField-3 DPU高性能网络,每个连接带宽高达400Gb/s,可通过Quantum-2 InfiniBand、Spectrum?-X以太网网络平台,扩展支持更高的AI性能。基于Blackwell GPU的产品将在今年晚些时候陆续上市,亚马逊云、戴尔、谷歌、Meta、微软、OpenAI、甲骨文、特斯拉、xAI等都会采纳。亚马逊云、谷歌云、微软Azeure、甲骨文云将是首批提供Blackwell GPU驱动实例的云服务提供商,NVIDIA云合作伙伴计划的中的Applied Digital、CoreWeave、Crusoe、IBM Cloud、Lambda也将提供上述服务。Indosat Ooredoo Hutchinson、Nebius、Nexgen Cloud、甲骨文欧盟主权云、甲骨文美国/英国/澳大利亚政府云、Scaleway、新加坡电信、Northern Data Group旗下的Taiga Cloud、Yotta Data Services旗下的Shakti Cloud、YTL Power International 等主权AI云,也将提供基于Blackwell架构的云服务和基础设施。 ... PC版: 手机版:

封面图片

为什么有了CPU,还要研究GPU?

为什么有了CPU,还要研究GPU? llk的回答 一句话结论就是之前是软件时代,现在是AI时代。 真是时代的浪潮一波接一波,三国演义里的片头词很合适:滚滚长江东逝水,浪花淘尽英雄。是非成败转头空。青山依旧在,几度夕阳红。 白发渔樵江渚上,惯看秋月春风。一壶浊酒喜相逢。古今多少事,都付笑谈中曾几何时,在CPU市场,Intel通过wintel联盟统治了消费端,反过来通过消费端的利润和技术迭代从IBM/SUN等手里抢过了数据中心业务。那是一段关于CPU在指令集架构,和实现微架构上荡气回肠的历史,Intel最终成为了CPU市场的赢家,而广大消费者也用上了性价比越来越高的计算机。那个时候NVIDIA还是一家GPU公司,营收不到Intel的零头,产品GPU更是作为CPU的一个加速设备而存在。 但是伴随CPU性能提升的逐渐放缓,Intel或者说CPU上的光环不在。 人们转向并行计算,而NVIDIA则在这一转变中成功抓住机会,在2006年推出了Tesla架构,成功从GPU变成GPGPU NVIDIA称这一架构叫做scalable processor array,真是贴切,既可以在SM里扩展SP,又可以在芯片层面扩展SM。所以伴随摩尔定律,NVIDIA的GPGPU越来越大,性能也越来越强。一直到2012年,AI的浪潮爆发了,NVIDIA多年前的技术上的决策得到了回报,GPGPU大行其道,甚至成为AI计算的标准。 而大语言模型的爆发更是催生了对高性能计算的迫切需求,NVIDIA股价更是一飞冲天。而随着GPGPU成为计算的主力,之前计算的主力CPU的市场就被大大削弱了。看看NVIDIA的DGX-1系统 8个GPU才搭配两个CPU,GPU成功从曾经的从设备变成了主角,而CPU则从王座跌落,成了主角背后的辅助。 雷军说过,风口上的猪都能飞起来,更何况NVIDIA本来就是图形和并行计算领域的领导者。时来天地皆同力,运去英雄不自由这是对GPU和CPU最好的注释了。 via 知乎热榜 (author: llk)

封面图片

NVIDIA展示数据中心级超级计算机Eos 在TOP 500榜单中名列第9位

NVIDIA展示数据中心级超级计算机Eos 在TOP 500榜单中名列第9位 Eos由576套英伟达DGX H100系统、NVIDIA Quantum-2 InfiniBand网络和软件组成,可提供总计18.4 exaflops的FP8人工智能性能。Eos超级计算机于11月在2023年超级计算贸易展上亮相,Eos以希腊神话中每天打开黎明之门的女神命名,体现了英伟达致力于推动人工智能技术发展的承诺。每台DGX H100系统都配备了8颗英伟达H100 Tensor Core GPU。Eos总共配备了4,608个H100 GPU。因此,Eos 可以处理最大的人工智能工作负载,以训练大型语言模型、推荐系统、量子模拟等。它展示了NVIDIA技术在大规模工作时的能力。Eos的诞生恰逢人们正在利用生成式人工智能改变世界,从药物发现到聊天机器人再到自主机器等等。为了实现这些突破,他们需要的不仅仅是人工智能专业知识和开发技能。他们需要一个人工智能工厂一个随时可用的专用人工智能引擎,它可以帮助提高他们大规模构建人工智能模型的能力。Eos在全球最快超级计算机TOP 500 榜单中名列第 9 位,推动了人工智能技术和基础设施的发展。它包括NVIDIA先进的加速计算和网络,以及先进的软件产品,如NVIDIA Base Command和NVIDIA AI Enterprise。Eos的架构针对需要在大型加速计算节点集群中实现超低延迟和高吞吐量互联的人工智能工作负载进行了优化,使其成为希望扩展人工智能能力的企业的理想解决方案。基于英伟达Quantum-2 InfiniBand与网内计算技术,其网络架构支持400 Gb/s的数据传输速度,促进了训练复杂人工智能模型所必需的大型数据集的快速移动。Eos的核心是由英伟达DGX H100系统支持的开创性DGX SuperPOD架构。该架构旨在为人工智能和计算领域提供能够进行大规模计算的紧密集成的全栈系统。随着全球企业和开发人员都在寻求利用人工智能的力量,Eos作为一种关键资源,有望加速人工智能应用的发展。 ... PC版: 手机版:

封面图片

戴尔解释如何检查Windows 11计算机是否"支持AI"

戴尔解释如何检查Windows 11计算机是否"支持AI" 据戴尔公司称,用于更高效地处理基于人工智能的任务的专用硬件和软件可以让你的电脑"启用人工智能"。虽然传统计算机也可以使用人工智能,但专用硬件加速器可以优化处理过程,降低能耗。这种"专用硬件"被称为 NPU 或神经处理单元:NPU 经过优化,可处理深度学习算法所需的复杂计算。这种优化使 NPU 在处理人工智能任务(如自然语言处理、图像分析等)时具有惊人的效率。NPU 集成在 CPU 中,衡量 NPU 性能的一个标准是每秒 Tera 运算次数(TOPs)。Windows 11 需要一个专用的 NPU 来处理 Windows Studio 特效,其中包括背景模糊、眼部接触校正、自动取景和语音对焦。不过,得益于 Windows 11 最近的改进,Voice Clarity很快就能在所有系统上使用。电脑还需要一个 NPU 来处理即将推出的下一代 Windows 11 功能,例如传闻中的 AI Explorer。在效率方面,戴尔表示,搭载英特尔最新酷睿Ultra处理器的电脑通过将自动成帧、背景模糊和眼球跟踪功能从 CPU 卸载到 NPU,在 Zoom 通话期间最多可节省 38% 的电池。采用英特尔第 14 代处理器、AMD Ryzen 7000 和8000 系列以及高通公司 Snapdragon 8cx Gen2 或Snapdragon X Elite及更新处理器的电脑中都有专用神经处理单元。要检查您的电脑是否有 NPU,可以启动任务管理器并转到"性能"选项卡。受支持的电脑在 CPU、内存、存储、网络和 GPU 旁边会显示"NPU 0"。或者,进入设备管理器,查找 Intel AI Boost(在 Intel 系统上)或 AMD IPU Device(在 AMD 系统上)。如果看不到这些设备,则可能需要从制造商网站下载驱动程序。采用高通芯片的电脑已预装 NPU 驱动程序,可通过 Windows Update 下载。你可以在戴尔的官方网站上找到更多关于"AI-enabled"PC 的信息。有趣的是,英特尔最近也发布了类似的信息,确认如果电脑拥有 NPU 和带有专用物理按键的 Copilot,那么它就有资格成为"AI PC"。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人