ℹIntel 偷臭 NVIDIA 的 AI 成功只是运气好,NVIDIA 反击是你自己没远见#

ℹIntel 偷臭 NVIDIA 的 AI 成功只是运气好,NVIDIA 反击是你自己没远见# 虽然 AMD、Intel 等公司都陆续推出 AI 产品,要来抢 AI 这个大商机,但就目前来说,NVIDIA 依旧是独大,其运算效能是其他...

相关推荐

封面图片

NVIDIA找上Intel代工 每月可产30万颗AI芯片

NVIDIA找上Intel代工 每月可产30万颗AI芯片 如果全部切割成H100芯片,在理想情况下最多能得到30万颗,可以大大缓解NVIDIA供应紧张的局面。作为对比,台积电在2023年年中已经可以每月生产最多8000块CoWoS晶圆,当时计划在年底提高到每月1.1万块,2024年底继续提高到每月2万块。NVIDIA旗下的几乎所有AI芯片,包括A100、A800、A30、H100、H800、GH200,全都依赖台积电CoWoS-S封装技术,基于65nm的硅中介层。与之最接近的就是Intel Foveros 3D封装,基于22FFL工艺的中介层。有趣的是,就在日前,Intel宣布已经在美国新墨西哥州Fab 9工厂实现了业界领先的半导体封装解决方案的大规模生产,其中就包括Foveros封装。Intel没有透露具体的产品,看起来很可能就是NVIDIA GPU。 ... PC版: 手机版:

封面图片

Intel CEO将宴请台湾供应链:包括被NVIDIA独漏的仁宝电脑

Intel CEO将宴请台湾供应链:包括被NVIDIA独漏的仁宝电脑 报道称此次晚宴名单中共有11位家台厂供应链业者的董事长、副董事长、CEO、总经理,并且大多与英伟达、AMD的主力供应链有所雷同。主要包括鸿海、广达、仁宝、英业达、纬创、和硕、纬颖、华硕、宏碁、技嘉、微星, 而日前在股东会上喊话“被英伟达独漏”的仁宝电脑,也成功入列。台北国际电脑展是全球领先的AIoT和新创产业展览,今年将从6月4日至6月7日在南港展览馆举行。展会期间,将有多位国际AI专家深入探讨AI应用和硬件创新,同时,众多科技界重量级人物也将出席,包括AMD董事长苏姿丰、高通总裁艾蒙等。 ... PC版: 手机版:

封面图片

Intel Gaudi 3 AI加速器可以卖给中国 但挥刀砍掉一半

Intel Gaudi 3 AI加速器可以卖给中国 但挥刀砍掉一半 Intel声称,它相比上代拥有2倍的FP8 AI算力、4倍的BF16 AI算力、2倍的网络功耗为600W带宽、1.5倍的内存带宽,而对比NVIDIA H100 LLM推理性能领先50%、训练时间快40%。Gaudi 3的首发版本编号HL-325L,OAM形态,已经出货,功耗900W,风冷散热。它的中国特供版将在6月份推出,编号HL-328,功耗减半至450W,HMB内存、缓存、解码器等完全保留,但既然功耗少了一半,算力差不多也会被腰斩。10月份还会有个液冷版本HL-335,支持双路并联,但不能卖给中国,也没有特供版。PCIe扩展卡形态将在9月份出货,风冷,满血版编号HL-338,,中国特供版编号HL-388,功耗又被限制在450W。通用基板形态的编号为HLB-325,但具体规格和出货时间暂时不详。说起来,NVIDIA是最早做中国特供版AI加速器的,也就是H800、A800,后来也被禁售了,最近又拿出了H20、L20、L2、RTX 4090D,都能卖。AMD也设计了特供版Instinct MI309、MI388X,但都被美政府以算力还是太强为由给打回,而年底将要升级到MI350。 ... PC版: 手机版:

封面图片

Intel的“大小核”:只是个过渡方案吗?

Intel的“大小核”:只是个过渡方案吗? “大小核”之缘起2021年10月,Intel发布了第12代酷睿处理器,正式引入了“大小核”设计,也就是官方口中的“异构多核”。当时,Intel的竞争对手(苹果、AMD)大概率能用上台积电5nm工艺,而Intel大概只能使用Intel 7工艺。要知道,台积电5nm工艺几乎可以算是领先了Intel 7工艺一个大版本,采用5nm工艺制造的CPU性能更强且更加省电。在工艺短期内无法突破瓶颈的情况下,Intel决定在芯片设计方面“整个活”,“大小核”方案应运而生。对于一款CPU来说,我们可以采用PPA进行评估,即:Performance(性能)、Power(功耗)、Area(尺寸)。换句话来说,芯片的设计目标是实现更高的性能、更低的功耗和更小的面积。Intel的“大核”:最大限度地提高单线程性能和响应速度。从PPA的角度来看,就是优先堆性能,功耗和尺寸不是很在意。不过这样的结果就是性能上限很高,但能效(每瓦可提供的性能)很差。Intel的“小核”:为现代多任务处理提供可扩展的多线程性能和高效的后台任务卸载。从PPA的角度来看就是用不是很大的功耗和尺寸实现不错的性能。这样做的结果就是能效很高,但性能上限会差一些。理想情况下,将高性能的大核与高效能的小核融合,能够灵活地应对各类任务挑战。在这种模式下,轻量负载任务可以分配小核去处理,功耗大大降低;大核则可以专注于重负载任务,无需操劳其它轻量任务。对于笔记本电脑等移动设备来说,这种模式还可以降低发热量,增强续航能力。然而现实并不理想。任务调度的困难“大小核”在电脑上的最终表现取决于很多方面的因素。由于电脑上的应用往往是直接跟操作系统“打交道”,因此操作系统的任务调度机制成为了最关键的一环。由于采用了“大小核”方案设计的CPU内部集成了两种不同性能的核心,这就造成了在调度层面上会比单一核心架构更为复杂。调度这两种核心时,需要考虑到它们各自的特点和性能差异,从而增加了调度的复杂性。我们在这里简单分析一下世界上两大系统厂商苹果和微软分别是如何解决这个问题的。首先从系统调度策略上看:苹果搞QoS比微软早,而且还比微软细。根据苹果官网上的文档显示,苹果的开发者可以设置进程的QoS等级,然后系统可以根据QoS优先级来调度。另外根据文档日志显示,该文档最初更新于2014年7月,最后更新于2016年9月。也就是说,苹果这套“解决方案”已经搞了大概10年。在这10年间,应用和系统之间的磨合已经达成了默契,每个程序应该跑大核或者小核已成定数。微软方面则是在Windows 10 1709版本才加入基本的QoS策略,而且这个QoS策略做得比较粗糙,比如对于不同窗口状态下的服务质量仅分成了高、中、低三挡。因此从系统调度策略上看,苹果胜。之后我们从软件生态和应用方面看:苹果的软件供应商更听话,更加愿意配合苹果去优化适配“大小核”。由于很多苹果用户习惯于从“苹果商店”下载应用程序,而应用程序想要上架“苹果商店”需要服从苹果的相关规范,所以对于苹果来说,让整个生态适配大小核设计是比较容易的。对于微软来说,微软长期的策略是保持强大的兼容性。比如一些很老旧的软件放在新系统上仍然能够运行。不过这些老旧软件肯定是没有QoS策略的,而对于微软来说并没有办法强制让老旧软件的原始开发者回来更新软件。所以老旧软件对于“大小核”方案的适配工作其实很难推进,而对于新软件来说,它也并不一定要写QoS策略。毕竟“微软应用商店”的存在感非常低,微软没有太好的办法强制软件商去适配“大小核”方案。因此从软件生态和应用方面看,苹果再次获胜。所以从这个局面上看,Intel要想搞“大小核”CPU,去抱苹果大腿才是最优选择。但是,Intel已经没有这个选项了。Intel在搞“大小核”的时候,苹果那边已经开始要使用自己的CPU了,也就是M1系列。所以Intel“大小核”CPU+苹果系统的组合基本上是不太可能了。这种情况下消费级市场上也就主要是Windows+Intel“大小核”方案了。虽然微软在“大小核”适配方面不太给力,但Intel方面其实也没有完全躺平。Intel推出了硬件线程调度器(Thread Director),I通过识别每个工作负载的级别并使用其能源和性能内核评分机制,帮助操作系统将线程调度到性能和效率最佳的内核上。但是官网上关于硬件线程调度器有这样一段描述需要注意:“向操作系统提供运行时反馈,以便针对任何工作负载做出最佳决策。”也就是说,“硬件线程调度器”可以向操作系统提出任务调度的相关建议,但操作系统听不听它的就是另一个问题了。所以“硬件线程调度器”并不是一个可以独立解决问题的方案,很大程度上还是需要依靠微软的配合。而且Intel这边也需要相当长的时间打磨自己的调度算法,才能让这种调度方式良好运行。Intel 3工艺与至强6“大小核”起源于工艺落后,最终也许会因为工艺进步而结束。从Intel前不久发布的至强6系列处理器中,就可以看出一些端倪。至强6处理器分成了两大产品系列能效核处理器以及性能核处理器。其中能效核处理器专门针对高核心密度和规模扩展任务所需的高效能优化,而性能核处理器则面向计算密集型和AI工作负载所需的高性能进行优化,两者架构兼容,共享软件栈和开放的软、硬件供应商生态。简言之,至强6系列处理器回到了之前的“传统”设计思路。这背后的原因,是因为至强6能效核处理器用上了Intel 3制程工艺。与上一个制程节点Intel 4相比,Intel 3实现了约0.9倍的逻辑微缩和17%的每瓦性能提升,高于业界一般标准。此外,Intel对EUV(极紫外光刻)技术的运用更加娴熟,在Intel 3的更多生产工序中增加了对EUV的应用。Intel 3还引入了更高密度的设计库,提升了晶体管驱动电流,并通过减少通孔电阻优化了互连技术堆栈。Intel现在所使用的Intel 3工艺已经不再明显落后于同行。这样一来,Intel如果回归到“每个处理器中只有一种核心”的“传统”模式,那么操作系统的调度就会相对更容易。用户的选择也会变得更容易,可以根据使用场景来选择自己需要的产品线。全面回归“传统”设计 非一朝一夕至强6处理器的问世为消费级“大小核”CPU带来了一种全新的发展思路。在当前工艺不断进步的背景下,坚持大小核设计似乎没有那么必要。回归至"传统"的设计理念可以简化复杂的任务调度问题,确实成为了一种可行的策略。然而,即便有这样的想法,实际推行起来却并非易事。现在Intel虽然有了Intel 3工艺,但由于新工艺成本高、产能有限,全面普及应该还需要很长的时间。就比如Intel于2023年10月发布的最新的第14代酷睿处理器仍然使用Intel 7工艺,连Intel 4工艺都没有用上。“大小核”方案在低功耗设备上的优势确实存在,所以Intel要放弃“大小核”方案应该会从功耗不敏感的台式机处理器入手,之后循序渐进再到笔记本平台。举例来说,即将在今年第三季度面世的针对笔记本平台的Lunar Lake处理器,依然沿用了大小核设计。这一选择无疑表明,在未来几代的笔记本平台CPU中,大小核设计仍将占据主导地位。 ... PC版: 手机版:

封面图片

高通在Windows AI PC上的成功可能会吸引NVIDIA重返客户端SoC业务

高通在Windows AI PC上的成功可能会吸引NVIDIA重返客户端SoC业务 由高通、英特尔和 AMD 等公司提供支持的 Windows AI PC 市场广阔,它们各自销售 15 W 级处理器,集成的 NPU 可达到 50 AI TOPS,而这正是 Copilot+ 所需要的。英伟达(NVIDIA)持有 Arm 许可证已有数十年之久,至今仍在生产基于 Arm 的 CPU,如英伟达 Grace,不过,那是一款大型服务器处理器,用于其 AI GPU 服务器。英伟达已经在 Tegra 品牌下生产了针对智能手机的客户端处理器,并在去年停止了生产。此后,英伟达一直在为其汽车自动驾驶硬件部门生产 Drive PX 处理器;当然还有 Grace。英伟达暗示,它可能会在 2025 年为人工智能 PC 市场推出客户端 CPU。在采访中,彭博社向英伟达首席执行官黄仁勋(Jensen Huang)提出了一个尖锐的问题:英伟达是否也应该在 AI PC 市场占有一席之地?戴尔首席执行官迈克尔-戴尔(Michael Dell)在采访中插话说:"明年再来吧。"黄仁勋肯定地说:"正是如此。"如果英伟达正在开发一款新的 PC 处理器,并将于 2025 年推出,那么戴尔将处于最前线和最中心的位置,而黄仁勋的点头几乎证实了这一点。英伟达拥有充足的开发 PC 处理器的人才和知识产权其 Grace 和 Drive 团队可以开发 Arm CPU 内核,英伟达已经是消费级图形处理器的老大,开发 iGPU 应该不成问题,而 NPU 的开发应该也不难。如果英伟达芯片上的 NPU 不是一个物理组件,而是一个虚拟设备,只需利用 iGPU 的 AI 加速功能及其张量内核作为硬件后端,出现这种情况我们也不会感到惊讶。英伟达的 AI PC 之旅还有一个小障碍,那就是高通公司(Qualcomm)与微软公司(Microsoft)在目前的Windows-on-Arm笔记本电脑上的Snapdragon X 系列芯片上享有的排他性。英伟达必须与微软合作,才能获得与高通一样的市场准入。如果一切顺利,为人工智能电脑提供动力的英伟达 PC 处理器将于 2025 年推出。 ... PC版: 手机版:

封面图片

NVIDIA业绩再度令全球震撼 以一己之力重振“AI信仰”

NVIDIA业绩再度令全球震撼 以一己之力重振“AI信仰” 在截至1月28日的2024财年第四季度,英伟达总营收规模增加了两倍多,达到221亿美元。扣除某些项目后,NON-GAAP准则下的每股收益为5.16美元,均大幅超过华尔街分析师普遍预测的204亿美美元以及每股收益4.60美元。更重要的是,英伟达预计本季度总营收将再次大幅增长,这有助于证明其股价大涨趋势完全合理,使其继续成为全球最有价值的公司之一。总营收凸显出英伟达业绩连续增长规模:就在2021财年,英伟达一整个财年的总营收也未能达到这一数值。此外,英伟达最核心业务部门,即为全球数据中心提供A100/H100芯片的业务部门数据中心业务部门,Q4营收规模达到约184亿美元,同比激增409%。继2023年股价暴涨240%之后,2024年迄今英伟达股价涨幅高达40%。英伟达市值今年增加了4000多亿美元,使其总市值达到1.67万亿美元,投资者们押注该公司仍将是人工智能计算热潮的最主要受益者。英伟达首席执行官黄仁勋表示:“GPU加速计算和生成人工智能可谓已经达到‘临界点’。”“全球各公司、行业,乃至多数国家的需求都在激增。“在与华尔街分析师的业绩电话会议上,黄仁勋表示,今年剩余时间,英伟达最新产品将继续供不应求。他表示,尽管供应在不断增长,但需求并没有显示出任何程度的放缓迹象。“生成式人工智能开启了一个全新的投资周期。”黄仁勋表示。他预计:“未来数据中心基础设施规模将在五年内翻番,代表着每年数千亿美元的市场机会”。关于中国市场,黄仁勋表示,该公司已开始向中国市场的客户派送符合限制政策的新芯片样品。这应该有助于中国业务再次复苏。“我们将尽最大努力在该市场竞争并取得成功。”黄仁勋强调。英伟达无比炸裂的业绩公布后,盘后股价一度暴涨超11%,美股芯科技股,尤其是芯片股板块盘后集体暴涨,要知道自本周以来,这些与AI相关的科技股与芯片股持续疲软,主要因全球资金在英伟达财报公布前的谨慎情绪。因此,AI芯片领域“最强卖铲人”英伟达可谓以一己之力重振全球科技股投资者们的“AI信仰”,科技股投资者们对于AI的信仰或许将在全球股市再度掀起巨大波浪。来自华尔街知名投资机构Wolfe Research的分析师克里斯·卡索(Chris Caso)在一份报告中表示:“全球股票市场都在关注这份报告,因此预期也有所提高,但是英伟达公布的业绩展望足够强劲,显示股价涨势合理,同时也为下半年的持续上涨留下了空间。”但是毋庸置疑的是,AI芯片领域竞争将变得愈发激烈。英伟达最强竞争对手AMD(AMD.US)最近开始销售MI300系列的AI GPU加速器,AMD预计今年将从该系列产品中获得35亿美元营收,高于此前预测的20亿美元。AI芯片初创企业后续也将是英伟达有力挑战者,近日Groq推出自研LPU,文本生成速度甚至比眨眼还快,推理性能则比英伟达GPU快10倍。但英伟达并未停滞不前,分析师们预计,该公司即将量产性能更强大的AI芯片H200,以及备受瞩目的B100。英伟达当前AI领域最强买铲人最新业绩证明,英伟达仍然为全球AI领域当之无愧的“最强卖铲人”,靠着在AI训练领域高达90%的份额,乘着全球企业布局AI的前所未有热潮疯狂吸金。比如,上述Groq推出的LPU目前更加适用于推理,要想训练大语言模型,仍然需要大批量购买英伟达GPU。英伟达很早就认识到GPU在AI和深度学习领域的潜力,因此投入大量资源进行相关研发,并成功构建了围绕其GPU硬件的强大软硬件生态系统。英伟达在全球高性能计算领域已深耕多年,尤其是其一手打造的CUDA运算平台风靡全球,可谓AI训练/推理等高性能计算领域首选的软硬件协同系统。英伟达当前最火爆的AI芯片H100 GPU加速器则基于英伟达突破性的Hopper GPU架构,提供了前所未有的计算能力,尤其是在浮点运算、张量核心性能和AI特定加速方面。ChatGPT开发者OpenAI、美国科技巨头亚马逊(Amazon.com Inc.)、Facebook与Instagram母公司Meta Platforms、特斯拉、微软以及谷歌母公司Alphabet都是英伟达最大规模客户,占其总营收规模近50%,它们当前正倾尽全力投资与人工智能算力相关的硬件,比如英伟达AI芯片。特斯拉CEO马斯克将科技企业的人工智能军备竞赛比作一场高风险的“扑克游戏”,即企业需要每年在人工智能硬件上投入数十亿美元,才能保持竞争力。这位亿万富翁表示,在2024年,特斯拉仅仅在英伟达的人工智能芯片上就将耗费超过5亿美元,但他警告称,特斯拉未来还需要价值“数十亿美元”的硬件才能赶上一些最大规模的竞争对手。随着全球迈入AI时代,数据中心业务已经成为英伟达最核心业务,而不是此前重度依赖游戏显卡需求的游戏业务。英伟达在细分业务方面,英伟达为全球数据中心提供A100/H100芯片的业务部门数据中心业务部门,曾经可谓是英伟达“副业”(自英伟达创立之处,游戏业务一直是英伟达的最重要业务),已经成为该科技巨头整体营收的最强大贡献力量。英伟达的数据中心业务部门多个季度以来均为所有业务中表现最出色的部门,数据中心业务Q4创造的营收达到184亿美元,较上年同期激增约409%。此外,英伟达预计,未来数据中心基础设施规模将在五年内翻番。与此同时,该公司游戏业务部门受益于全球芯片需求复苏趋势,创造的营收同比增长56%,至29亿美元。英伟达目前正致力于将其人工智能软硬件生态推广到大型数据中心之外。61岁的黄仁勋近期周游世界,认为各国政府均需要主权级别的人工智能系统,既能保护数据,又能获得AI竞争优势。黄仁勋在近期首提“主权AI能力”,暗示国家级人工智能硬件需求激增。黄仁勋表示,当今世界各国都打算在本国国内建立和运行自己的人工智能基础设施,这将全面推高对英伟达硬件产品的需求。黄仁勋近期在接受采访时表示,包括印度、日本、法国和加拿大在内的国家都在谈论投资“主权人工智能能力”的重要性。业绩预期方面,全球市值最高芯片公司英伟达在业绩展望部分表示,该公司2024财年Q4(截至2024年4月底)总营收将达到约240亿美元。这一数据可谓大幅超越219亿美元的华尔街分析师平均预测数据。这一强劲无比的业绩前景凸显出英伟达位列全球企业布局AI热潮的最佳受益者,堪称AI核心基础设施领域的“最强卖铲人”。面对消费者对ChatGPT以及谷歌Bard等生成式人工智能产品,以及其他企业AI软件等日益重要的AI辅助工具的需求激增,来自全球各地的科技巨头以及数据中心运营商正在竭尽全力储备该公司的H100 GPU加速器,H100可谓极度擅长处理人工智能训练/推理所需的繁重工作负载。AI时代最核心基建之一GPU随着全球迈入AI时代以及万物互联进程加速,意味着全球算力需求迎来爆炸式增长,尤其是基于AI训练领域的各项AI细分任务涉及大量的矩阵运算、神经网络的前向和反向传播等对硬件性能要求极高的计算密集型高强度操作。然而,这些难题远非享受摩尔定律红利多年的CPU所能够解决。哪怕大量CPU也无法解决这一问题,毕竟 CPU设计初衷是在多种常规任务之间进行通用型计算,而不是处理天量级别的并行化计算模式以及高计算密度的矩阵运算。更重要的是,随着全球芯片领域的创新与发展步入“后摩尔时代”(Post-Moore Era),作为曾推动人类社会发展主力军的CPU已经无法实现像22nm-10nm那样在不到5年间实现“阔nm”级别的快速突破,后续nm级别突破面临量子隧穿以及巨额投资规模等重重阻碍,这也使得CPU性能升级和优化层面面临极大限制。 PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人