SPEC作废Intel 2600多项官方测试不允许特殊优化

SPEC作废Intel 2600多项官方测试不允许特殊优化软件优化的一个关键要素就是编译器，简单地说它负责对程序代码进行重新解释，让处理器以最佳方式、最高性能来运行。SPEC指出，这次作废的Intel 2600多项测试成绩，所用的Intel oneAPI DPC++/C++编译器特别针对523.xalancbmk_r、623.xalancbmk_s测试项目进行了优化编译，导致成绩偏高。涉事编译器版本为2022.0到2023.0，也就是大部分测试成绩来自2022年，多数源自Sapphire Rapids四代至强，而新发布的Emerald Rapids五代至强应该不受影响。根据Phoronix的测试结果，Intel的特殊优化将SPECint性能整体提升了9％。多年来，优化测试一直是个极具争议的话题，Intel、AMD、NVIDIA都曾多次招致非议。比如早在2003年，NVIDIA就被指通过驱动优化，提升了3DMark 2003的显卡跑分。2010年，NVIDIA又指责AMD，在游戏中关闭特定驱动设置，以牺牲性能换取更好的画质。Intel Arc锐炫显卡发布之后，也出现了3DMark跑分非常高、实际游戏性能偏低的情况。 ... PC版：手机版：

在Telegram中查看

相关推荐

Intel第二代独显架构Battlemage“BMG-G21”崭露头角

Intel第二代独显架构Battlemage“BMG-G21”崭露头角在最近的LLVM编译器补丁中，赫然已经可以看到“BMG-G21”，也就是Intel第二代独显架构Battlemage的高端大核心版本。较小的核心则是G10，但尚未出现。这足以证明，G21核心已经完成了硬件研发，正在系统和软件优化阶段。Intel二代独显预计要到今年晚些时候才会发布，大概率在双11之后，不过可能只有桌面版，不再做笔记本移动版。这下好了，NVIDIA、AMD、Intel三家的新显卡，Intel、AMD的新处理器，都会在年底蜂拥而至。另外，Intel今天发布了31.0.101.5518 Beta测试版显卡驱动，这次变化不大，没有鸡血提升。新版只是新增支持了两款游戏《对马岛之魂》、《家园3》，修复了《龙之信条》、《死亡空间》性能偏低的问题。 ... PC版：手机版：

Hidet是一个强大的深度学习编译器，可简化在现代加速器（例如 NVIDIA GPU）上实现高性能深度学习运算符的过程。借助 P

Hidet是一个强大的深度学习编译器，可简化在现代加速器（例如 NVIDIA GPU）上实现高性能深度学习运算符的过程。借助 PyTorch 2.0 中的新功能torch.compile(...)，将新型编译器集成到 PyTorch 中比以往任何时候都更容易Hidet 现在可以用作torch.compile(...)加速 PyTorch 模型的后端，这对于想要提高其推理性能的 PyTorch 用户来说是一个有吸引力的选择模型，特别是对于那些还需要实施极其优化的自定义运算符的人。 | #编译器

Intel 3工艺官方深入揭秘：号称性能飙升18％

Intel 3工艺官方深入揭秘：号称性能飙升18％ Intel 3作为现有Intel 4的升级版，带来了更高的晶体管密度和性能，并支持1.2V电压的超高性能应用，不但用于自家产品，还首次开放对外代工，未来多年会持续迭代。首先强调，Intel 3工艺的定位一直就是需要高性能的数据中心市场，重点升级包括改进设计的晶体管、晶体管通孔电阻更低的供电电路、与客户的联合优化等等，还支持0.6V以下的低电压、1.3V以上的高电压，以实现最大负载。为了获得性能、密度的最佳均衡，Intel还同时使用了240nm高性能库、210nm高密度库的组合Intel 4只有前者。客户如果有不同需求，还可以在三种不同的金属堆栈层数中选择：14层的成本最低，18层的性能和成本最均衡，21层的性能最高。此外，Intel 3工艺的EUV极紫外光刻运用更加娴熟，在更多生产工序中使用了EUV。最终的结果是，Intel保证新工艺可以在同等功耗、晶体管密度之下，相比Intel 4带来最多18％的提升！Intel之前还曾表示，Intel 3相比于Intel 4逻辑缩微缩小了约10％(可以理解为晶体管尺寸)，每瓦性能(也就是能效)则提升了17％。不过在关键尺寸方面，Intel 3、Intel 4是基本一致的，接触孔多晶硅栅极间距(CPP)都是50nm，鳍片间距、M0间距都是30nm，另外库高度 x CPP的面积除了12K，还增加了10.5K版本，也是为了优化性能和成本平衡。Intel 3后续还会优化推出不同的版本，针对性加强某个角度：Intel 3-T：重点引入采用硅通孔(TSV)技术，针对3D堆叠进行优化。Intel 3-E：扩展更多功能，比如1.2V原生电压、深N阱、长通道模拟设备、射频等，可用于生产芯片组、存储芯片等。Intel 3-PT：在3-E的基础上，增加9微米间距的硅通孔，以及混合键合，性能再提升至少5％，使用也更简单，可用于AI、HPC芯片以及通用计算芯片。 ... PC版：手机版：

NVIDIA封杀转译兼容CUDA 摩尔线程官方：MUSA、MUSIFY不受影响

NVIDIA封杀转译兼容CUDA 摩尔线程官方：MUSA、MUSIFY不受影响 3月5日晚间，摩尔线程发表官方声明回应称，旗下的MUSA、MUSIFY技术均未受影响！摩尔线程强调，MUSA、MUSIFY不涉及NVIDIA EULA相关条款，开发者可放心使用。据介绍，MUSA是摩尔线程自主研发、拥有全部知识产权、软硬一体的全功能GPU先进计算统一系统架构，与CUDA无任何依赖关系。MUSIFY是摩尔线程面向MUSA开发者提供的开发工具，方便在MUSA计算平台上进行应用移植与开发。它可以让开发者将自己的C++源代码，转换成MUSA C++源代码，再通过MUSA编译器MCC编译生成基于MUSA指令集的二进制代码，最终运行在摩尔线程的全功能GPU上。摩尔线程还向开发者提供MUSA SDK，这是摩尔线程GPU并行计算开发SDK的集合，包含了MUSAToolkits（内置运行时/编译器/GPU加速计算库/迁移/优化工具）及计算库、神经网络加速库、通信库等一系列开发工具，可让开发者快速开发出针对摩尔线程GPU优化的并行计算应用。摩尔线程强调，将充分发挥从芯片到显卡到集群的智算产品优势，继续打磨MUSA，持续为大模型训练与推理提供高性能算力支撑。 ... PC版：手机版：

Intel宣布“AI PC加速计划” 合作伙伴已过百家带来300多项专属功能

Intel宣布“AI PC加速计划” 合作伙伴已过百家带来300多项专属功能 2023年10月底，Intel面向全球正式启动了“AI PC加速计划”，以鼓励AI应用创新，加速AI在消费级客户端市场上的落地和普及。在当时，Intel AI PC计划的ISV合作伙伴已经超过100家，已开发的AI加速功能更是超过了300项。新增的“AI PC 开发者计划”专为软件开发者、独立软件供应商量身打造，提供一系列完备工具、优化工作流程、AI部署框架、开发套件，可以更便捷地实现新型AI技术在酷睿Ultra平台上的大规模应用。Intel已经更新了开发者资源页面，为开发者提供一站式便利服务，包括AI PC软件开发工具包、相关文档、培训资源，可最大化AI、ML应用的性能，并加速新用例落地。独立硬件供应商加入“AI PC加速计划”之后，可以利用Intel提供的资源，进行充分准备、深度优化，使其硬件深度适配Intel AI PC的需求。符合条件的合作伙伴，可以通过访问Intel Open Labs(开放实验室)，在硬件解决方案和平台开发初期就获得专业技术与协作的支持。通过该计划，Intel还为独立硬件供应商合作伙伴提供参考硬件，使之在产品发布前，就充分测试并优化自己的技术，实现上市即有高效表现。Intel计划在2024年面向全球市场推出12家OEM厂商的230多款搭载酷睿Ultra处理器的AI笔记本产品，支持300多项专属AI加速功能。 ... PC版：手机版：

远超RTX 2050 Intel下一代核显跑分无限逼近AMD

远超RTX 2050 Intel下一代核显跑分无限逼近AMD 酷睿Ultra 200V系列的核显有两种，锐炫140V 8个Xe核心，锐炫130V 7个Xe核心，和后续的锐炫B系列独显在架构上同宗同源。根据最新曝料，酷睿Ultra 200V核显搭配LPDDR5X-8533高频内存的时候，30W功耗释放下核显3DMark Time Spy跑分可达4151，17W功耗下也有3438。这已经和锐龙AI 9 HX 370 890M核显在54W释放的跑分非常接近了，无论低功耗还是高功耗下都只差区区2％左右。对比独立显卡，30W下已经可以领先45W RTX 2050几乎有10％，同时距离RTX 3050 50W只差了大约7.5％。不过注意，酷睿Ultra 200V整合封装了内存，容量16/32GB，而且频率高达8533MHz，相比于AMD这边只有7500MHz，在频率、延迟上都有优势。其次，酷睿Ultra 200V因为整合内存，功耗上会多个2-3W，而核显性能对功耗释放是非常敏感的。当然，3DMark跑分只是理论值，最终还要看游戏和应用的优化。 ... PC版：手机版：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人