英特尔详细介绍了FFmpeg中的oneVPL CPU和GPU加速特性

英特尔详细介绍了FFmpeg中的oneVPLCPU和GPU加速特性英特尔介绍了该公司包含在FFmpegoneAPI工具包中的视频处理和加速库的oneVPL支持。oneVPL视频处理库有助于在处理器和公司内部的GPU加速中调用最新的12代酷睿AlderLake和IntelXe硬件。加速的重点是英特尔ArcGraphics和DG2硬件,指导媒体SDK支持前几代显卡,能够适应其他潜在的CPU和GPU后端。PC版:https://www.cnbeta.com/articles/soft/1316605.htm手机版:https://m.cnbeta.com/view/1316605.htm

相关推荐

封面图片

英特尔开源 NPU 加速库,方便使开发人员优化其 AI 应用

英特尔开源NPU加速库,方便使开发人员优化其AI应用X用户@TonyMongkolsmai发现,英特尔已经在GitHub上开源了其NPU加速库,支持Windows和Linux。开发人员可以按照相应文档对其软件进行优化,从而适配新一代AI模型,包括TinyLlama和Gemma-2b-it。根据官方描述:英特尔NPU加速库是一个Python库,旨在利用英特尔神经处理单元(NPU)的强大性能在兼容硬件上执行高速计算,从而提高应用的效率。英特尔还表示其NPU加速库目前不断开发中,后续将推出各种能显著提高性能的功能,截至目前已经实现了8bit量化、Float16支持、torch.compile支持等,后续还将支持NPU/GPU异构计算等功能。线索:@ZaiHuabot投稿:@TNSubmbot频道:@TestFlightCN

封面图片

英特尔在整个CPU和GPU产品组合中为微软Phi-3 AI模型做好了准备

英特尔在整个CPU和GPU产品组合中为微软Phi-3AI模型做好了准备在讨论细节之前,我们先来看看微软的Phi-3开放模型系列。该公司的新GenAI模型侧重于在更小、更高效的层面上提供功能,偏离了行业规范。有了Phi-3,我们可以看到小语言模型(SLM)的出现,它是处理能力有限的低功耗设备的理想选择。英特尔已成为首批在其产品阵容中支持SLM的硬件制造商之一,现在英特尔的GaudiAI加速器、至强和酷睿UltraCPU以及英特尔的ArcGPU(独立和集成)都已优化,以支持微软的Phi-3型号。英特尔公司副总裁兼数据中心与人工智能软件部总经理PallaviMahajan介绍说:"我们利用业内最新的人工智能模型和软件,为客户和开发人员提供强大的人工智能解决方案。与人工智能软件生态系统中的其他领导者(如微软)积极合作,是让人工智能无处不在的关键。我们很荣幸能与微软密切合作,确保英特尔硬件(涵盖数据中心、边缘和客户端)积极支持几种新的Phi-3模型。"微软发布了多个Phi-3GenAI模型,并根据各自的参数进行了分类。这些型号包括迷你型、小型和中型;有趣的是,英特尔展示了其所有开放型号产品的性能。从英特尔第六代至强CPU(GraniteRapids)开始,该公司对Phi-3中型4k和128k变体进行了基准测试,与第五代至强(EmeraldRapids)相比,该平台的性能提高了2倍。谈到英特尔的酷睿UltraCPU平台,该公司表示,Phi-3型号将催化边缘人工智能进程,并将提供"个性化和响应速度"等多项优势。为此,该公司用英特尔酷睿Ultra7165H对Phi-3mini机型进行了测试,板载的独立GPU为ArcA770,基准测试确实显示出令人印象深刻的性能和词元生成延迟。微软Phi-3人工智能模型的首次亮相确实将为个性化人工智能计算时代打开新的大门,而凭借现代处理器所拥有的性能,运行这样的模型完全不是问题。...PC版:https://www.cnbeta.com.tw/articles/soft/1432319.htm手机版:https://m.cnbeta.com.tw/view/1432319.htm

封面图片

英特尔将其 Python NPU 加速库开源

英特尔将其PythonNPU加速库开源英特尔长期以来一直在开发iVPULinux内核驱动程序,该驱动程序位于内核上游,用于从MeteorLake开始支持英特尔NPU(以前称为VPU)。这个NPU加速库是一个方便的Python库,可以充分利用NPU的潜力。英特尔神经处理单元库支持8位量化、Float16支持、torch.compile支持、静态形状推理和其他功能。NPU加速库可从GitHub下载,也可通过PIP方便地安装:https://github.com/intel/intel-npu-acceleration-library英特尔NPU加速库GitHub页面上的Python代码示例展示了在NPU上进行单矩阵乘法运算、为NPU编译模型,甚至在NPU上运行Tiny-Llama模型。随着人工智能时代的到来以及NPU在更多英特尔处理器上的应用,这个库将变得越来越重要。...PC版:https://www.cnbeta.com.tw/articles/soft/1422025.htm手机版:https://m.cnbeta.com.tw/view/1422025.htm

封面图片

英特尔推出专为工作站和专业应用程序设计的Arc Pro GPU

英特尔推出专为工作站和专业应用程序设计的ArcProGPU英特尔今天推出了ArcPro系列GPU,主要为强大的桌面工作站和笔记本电脑而设计。英特尔ArcProA40和A50都将用于工作站,而A30M将用于专注于专业的笔记本电脑。所有这三款GPU都能够进行基于硬件的光线追踪和AV1硬件加速,且其设计考虑到了人工智能任务和AdobePremierePro等创作者应用程序。英特尔ArcProA40将以小型单插槽(半高刀卡)的形式出货,具有3.5teraflops的图形处理能力,8个光线追踪核心,以及6GB的GDDR6内存,英特尔将这种GPU定位于超薄工作站或小尺寸PC。更大的A50采用双插槽设计,具有4.8teraflops的图形处理能力,8个光线追踪核心和6GB的GDDR6内存。由于其双插槽设计,它的外形更适合于传统工作站。这两款工作站GPU都将包括四个MiniDisplayPorts,用于多显示器配置,支持两个8K60Hz的显示器,一个5K240Hz的显示器,两个5K120Hz的显示器,或四个4K60Hz的显示器。虽然从技术上讲,这些GPU上玩游戏也没有问题,但它们不是为游戏设计的。相反,英特尔正在为专业任务和创作者应用程序进行优化,如Blender、HandBrake、PremierePro、DaVinciResolveStudio等等。英特尔的目标是让这些GPU获得工程和建筑、建筑和制造方面的应用认证。这些GPU还将支持完整的AV1硬件加速,这被英特尔称为行业第一。用于移动设备的MobileA30MGPU芯片将包括3.5teraflops的图形性能,8个光线追踪核心,以及4GBGDDR6内存,它被设计为使用35到50瓦的峰值功率,而显示输出将取决于OEM厂商的笔记本电脑配置。英特尔为其最近推出的消费类游戏GPU设定了较低的期望值,而且该公司还没有提供任何关于工作站性能的指标。英特尔表示,其ArcPro系列的GPU将在今年晚些时候从移动和台式机合作伙伴处获得。PC版:https://www.cnbeta.com/articles/soft/1302175.htm手机版:https://m.cnbeta.com/view/1302175.htm

封面图片

英特尔详细介绍Ponte Vecchio 性能可达英伟达A100平台的2.5倍

英特尔详细介绍PonteVecchio性能可达英伟达A100平台的2.5倍在HotChips34大会期间,英特尔再次详细介绍了SapphireRapidsHBM处理器+PonteVecchio(2-Stack)GPU平台的潜力,称该服务器平台的性能可达英伟达A100竞品的2.5倍。英特尔首席GPU计算架构师HongJiang在演讲中指出,PonteVecchio具有三种配置。(viaWCCFTech)从单一OAM、到配备XeLinks的x4子系统,PonteVecchioGPU不仅能够单独运行、也可部署于SapphireRapids双路服务器平台之上。其中OAM支持4GPU和8GPU平台的all-to-all拓扑,辅以英特尔oneAPI软件堆栈。作为一个零级(LevelZero)API,其为跨架构编程支持提供了低层级的硬件接口。oneAPI主要特性如下:●提供面向其它工具和加速器设备的接口;●支持精细的增益控制、以及低延迟的加速器特性;●具有多线程设计;●将GPU作为驱动程序的一部分而提供。性能指标方面,2-StackPonteVecchioGPU配置(如单一OAM上的配置),可提供高达52TFLOP的FP64/FP32算力。另有419TFLOP的TF32(XMXFloat32)、839TFLOP的BF16/FP16,以及1678TFLOPs的INT8算力。英特尔还详细说明了PonteVecchio的缓存大小/峰值带宽——比如GPU上的寄存器为64MB,提供419TB/s的带宽。L1缓存也为64MB,带宽105TB/s(4:1)。L2缓存为408MB,带宽13TB/s(8:1)。HBM内存池高达128GB,辅以4.2TB/s(4:1)的带宽。以下是英特尔为PonteVecchio配备的系列计算效率(computeefficiency)技术。RegisterFile(寄存器文件):●RegisterCaching(寄存器缓存)●Accumulators(累加器)L1/L2Cache:●WriteThrough(直写)●WriteBack(回写)●WriteStreaming(流式写入)●Uncached(不缓存)Prefetch(预取):●支持L1和(或)L2缓存的软件(指令)预取;●支持到L2获取指令和数据的CommandStreamer预取。英特尔解释称,更大的L2缓存,可为2D-FFT和DNN等工作负载带来巨大的效益,并且分享了完整PonteVecchioGPU和80/32MB模块之间的一些性能比较。此外英特尔搬出了运行CUDA和SYCL的英伟达AmpereA100,与使用SYCL的PonteVecchioGPU平台展开了性能横比。在miniBUDE(一种可预测配体与目标结合能的计算工作负载)中,PonteVecchioGPU模拟测试结果的速度,更是AmpereA100的2倍。另外在ExaSMR核反应堆设计仿真设计中,英特尔PonteVecchioGPU也以1.5倍领先于英伟达竞品方案。不过需要指出的是,英伟达早已向市场投放了性能更加强悍的HopperH100,所以英特尔这里拿AmpereA100进行比较还是相当投机取巧的。言归正传,英特尔概述了PonteVecchio旗舰数据中心GPU的一些关键特性,例如128个Xe内核、128个光追(RT)单元、HBM2e显存、以及连接到一起的8个Xe-HPCGPU。该芯片在两个独立的堆栈中提供了高达408MB的L2缓存、之间通过EMIB互连,且各部分芯片混用了Intel7和台积电N7/N5等多个工艺节点。由两块(2Tiles)组成的每个堆栈有16裸片,最大的activedie尺寸为41m㎡、ComputeTile则是650m㎡。以下是PonteVecchioGPU的完整小芯片/工艺节点描述:●英特尔...PC版:https://www.cnbeta.com/articles/soft/1307501.htm手机版:https://m.cnbeta.com/view/1307501.htm

封面图片

英特尔至强"Emerald Rapids"CPU详细资料 比Sapphire Rapids快达40%

英特尔至强"EmeraldRapids"CPU详细资料比SapphireRapids快达40%这些幻灯片来自@InstLatX64发现的英特尔"以数据为中心的处理器路线图"演示文稿。由于缺少几个关键数据点,该演示文稿看起来还很不完整,但我们可以了解到代号为"翡翠急流"的第五代至强处理器阵容的一些额外信息。从细节入手,我们首先看到了第五代英特尔至强CPU的首张特写芯片照片,其中详细介绍了它的各个架构模块。EmeraldRapidsCPU基于RaptorCoveISA下的P-Core架构。旗舰芯片至强8592+拥有64个内核、128个线程和480MB三级缓存。如你所见,英特尔已从第四代蓝宝石急流处理器的4层设计转变为第五代翡翠急流处理器的2层设计。每个芯片组通过位于两个核心和高速缓存阵列之间的模块化芯片结构连接。每个阵列共有35个内核,其中每个芯片禁用3个内核。每个芯片组有2个内存控制器,支持速度高达5600MT/s的DDR5DIMM、3个PCIe控制器(共6个)、2个UPI(共4个)和2个加速器引擎(共4个)。据英特尔公司称,英特尔翡翠急流处理器将提供以下能力:更高的性能和性能/瓦通过更大的共享L3高速缓存增加核心数1类、2类和3类计算高速链路(CXL)更高的英特尔超路径互连速度(UPI)多达80个PCIeGen5通道英特尔加速器引擎内存速度提升第5代至强"翡翠急流"CPU的部分功能包括:高达3倍的LLC高速缓存更快的内存速度更多CPU内核数(最多64个内核)CXL类型3高带宽接口工作负载优化(英特尔AE)优化的电源模式通用性能/功耗最高提升17%利用英特尔加速器引擎卸载CPU内核,提高能效大幅提升推理和训练性能用于内置人工智能加速的英特尔AMX开箱即用的优化软件栈部署第五代至强"翡翠急流"CPU内嵌的加速器引擎提供了最新的AMX(高级矩阵扩展),并由一套利用优化开源框架和工具的可靠AI软件提供支持。英特尔还宣称,与第四代至强芯片相比,下一代至强芯片将提高总体拥有成本(TCO)和性能/美元收益,同时由于CPU与第四代SKU共用相同的插槽和平台,因此为客户提供了无缝升级途径。这就引出了下一个话题,即性能。在所有基准测试中,英特尔将第五代至强铂金版8592+(EmeraldRapids)64核CPU与第四代至强铂金版8480+(SapphireRapids)56核CPU进行了比较。数据中心特定任务和人工智能任务的性能提升如下:第5代至强8592+对第4代至强8480+基准测试:网络(服务器端Java吞吐量)=+20%高性能计算(LAMMPS-Copper)=+30%媒体(FFMPEGFPS转码)=+20%人工智能自然语言处理=+40%人工智能推荐系统=+40%需要注意的是,这些都是官方基准测试,要想获得更客观的结果,应等待第三方测试。虽然对于新产品来说,性能提升还算不错,但是否足以应对AMD基于Zen4和Zen4C架构的EPYC9004/8004产品线,我们拭目以待。英特尔的第五代翡翠急流CPU预计将于12月14日发布。...PC版:https://www.cnbeta.com.tw/articles/soft/1402219.htm手机版:https://m.cnbeta.com.tw/view/1402219.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人