AMD ROCm 6.0发布:新增支持两大GPU显卡、一大AI框架

AMD ROCm 6.0发布:新增支持两大GPU显卡、一大AI框架 如今的ROCm 6.0又迎来了RDNA 3显卡家族的两名新成员:RX 7900 GRE、Radeon PRO W7800。工程师可利用它们进行AI、ML开发,这就进一步拓展了平台范围,降低了开发门槛,无论是性能还是价位都给开发者提供了更多选择。此外,ROCm 6.0还支持了ONNX Runtime,这是一种用于在不同ML框架之间转换AI模型的中间ML框架。因此,开发者可以在本地AMD硬件上以更广泛的源数据执行推理,还可以通过AMD自有的图形推理引擎MIGraphX来处理INT8整数数据此前已支持FP16、FP32浮点数据格式。当然,PyTorch框架是继续支持的,可操作FP16/FP32混合精度数据。随着ROCm 6.0的正式发布,这也预示着AMD正在加快、加深对ROCm开发平台的建设速度,支持的显卡硬件、框架模型越来越多,让开发者可以更自由地从事AI、ML研究,也在NVIDIA CUDA、Intel openAPI之外提供了同样强有力的平台选择。 ... PC版: 手机版:

相关推荐

封面图片

SCALE 让 CUDA 应用无需修改运行在 AMD GPU 上

SCALE 让 CUDA 应用无需修改运行在 AMD GPU 上 英伟达通过其私有工具 CUDA 建立了护城河,成为 AI 热的最大赢家,大部分 AI 应用都是基于 CUDA 直接运行在英伟达的硬件上。英国公司 Spectral Compute Ltd 开发了一个 GPGPU 工具包 SCALE,允许 CUDA 应用无需修改就能编译运行在 AMD GPU 上,类似性能的 AMD GPU 通常比英伟达 GPU 更便宜。SCALE 目前支持 RDNA 2.0 和 RDNA 3.0 系列显卡,对旧一代的显卡如 Vega 10 和 GCN 5.0 的支持还在开发之后。 via Solidot

封面图片

AMD重启多显卡支持 最多四块、192GB显存

AMD重启多显卡支持 最多四块、192GB显存 AMD在更新日志中表示,多卡支持可以在多服务、多用户环境中,提供更灵活的AI桌面方案。目前支持多卡并行的型号仅限RDNA3 Navi31核心的高端系列,具体包括:RX 7900 XTX、RX 7900 XT、RX 7900 GRE、PRO W7900(双插槽)、PRO W7900、PRO W7800。其中,7900 XTX、PRO W7900可以双卡并行,首次正式支持的PRO W7900(双插槽)可以最多四卡并行。AMD表示,这可以让用户更好地执行超大规模的大语言模型,比如700亿参数的Llama 3,四块PRO W9700可以提供多达192GB GDDR6显存。此外,ROCm 6.1.3在特定RDNA显卡上支持TensorFlow,初步支持通过Windows WSL子系统运行ROCm。哦对了,以上所有都仅限Ubuntu 22.04.3 HWE操作系统,需要搭配Linux 24.10.3版显卡驱动。 ... PC版: 手机版:

封面图片

高通聘请了前AMD光追专家 以提升Adreno GPU游戏性能和兼容性

高通聘请了前AMD光追专家 以提升Adreno GPU游戏性能和兼容性 据TomsHardware报道,为了提升Adreno GPU的游戏性能,高通聘请了前AMD光线追踪专家Paritosh Kulkarni,加入到其GPU开发团队。据了解,Paritosh Kulkarni将针对Adreno GPU的DirectX 12.2支持展开工作,利用自己的专业知识来帮助完成相关的开发,包括DXR、网格着色器和驱动程序优化等。在AMD期间,Paritosh Kulkarni的工作范围覆盖渲染研究到直接为AMD图形芯片开发驱动程序,随后转向光线追踪领域,成为AMD内部在该领域的顶级专家之一,负责了ProRender、“HIP RT”光线追踪库和其他内部框架的开发。据高通的介绍,Adreno X1是适用于Windows on ARM的骁龙X系列SoC的第一代集成显卡,最多拥有6个着色器,共计1536个FP32 ALU,每周期能够处理96个纹理单元,提供了4.6 TFLOPS的峰值性能,每秒可处理7200万像素的数据。其支持主流的图形API,包括DirectX 12.1(Shader Model 6.7)、DirectX 11、Vulkan 1.3和OpenCL 3.0。虽然微软此前还推出了Automatic super resolution(Auto SR),为高通骁龙X系列在Windows游戏下的运行做了优化,但实际情况却不太理想。不少用户反映游戏在加载之前就崩溃了,即便是官方“Windows on Arm Ready Games”的游戏也可能会遇到各种问题,这都需要Paritosh Kulkarni去协助解决。 ... PC版: 手机版:

封面图片

AMD显卡可以原生跑NVIDIA CUDA应用了 速度还挺快

AMD显卡可以原生跑NVIDIA CUDA应用了 速度还挺快 之后在AMD的支持下,ZLUDA重启了该项目,能够让AMD显卡原生运行CUDA应用,不需要任何转移,也不需要调整代码。唯一要做的,就是用ZLUDA库替代CUDA。虽然它不能保证每一款CUDA应用都跑起来,但已经是以一个巨大的突破。非常可惜,AMD支持这一项目做了两年,也给停了不知道是不是受到了NVIDIA的压力。幸运的是,ZLUDA项目并未彻底消散,已经免费开源,感兴趣有能力的开发者都可以使用,而且确认可以在AMD ROCm平台上无缝运行CUDA应用。比如说,可以将CUDA作为Blender 4.0或者V-Ray的渲染API,尤其是Blender本来就有Radeon HIP计算渲染器,如今跑在ZLUDA上速度还会更快。Andrzej Janik也在继续研究ZLUDA,其中一个目标就是要让AMD显卡运行NVIDIA DLSS。内部测试表明,对比OpenCL方案,其性能大部分时候都更好,最多可以领先超过75%,但因为还在开发之中,部分时候效率反而更低。 ... PC版: 手机版:

封面图片

AMD FSR 3.1发布 支持 Vulkan

AMD FSR 3.1发布 支持 Vulkan FSR 3.1 的另一个显著特点是,它现在可以与其他升频解决方案一起使用。此外,FSR 3.1 现在还支持 Vulkan API,而 FSR 3.0 则只支持 Direct3D 12。现在还支持 Xbox 游戏开发工具包(GDK),允许在 Xbox 游戏中使用 FSR3。至少,FSR 3.1 现在支持 Vulkan API,为 Linux 原生游戏提供了支持的可能性。有关今天通过community.amd.com 发布的 FidelityFX Super Resolution 3.1 的更多详细信息。由于GitHub 上的 FidelityFX SDK仍将 v3.0.4 作为最新版本,因此这似乎只是今天的公告。(FSR 3.1 预计将于下个季度发布) ... PC版: 手机版:

封面图片

调查显示AI专业人士考虑从英伟达转投AMD 对Instinct MI300X充满信心

调查显示AI专业人士考虑从英伟达转投AMD 对Instinct MI300X充满信心 事实上,TensorWave自己也采购了AMD MI300X。AMD Instinct系列产品其实已经发展了很多代,但无论性能还是市场接受度都远逊于对手。这一代的MI300X实现了性能飞跃,相比H100内存容量多2.4倍、带宽高1.6倍、FP8、FP16浮点性能都高1.3倍,FlashAttention 2、Llama2(700亿参数) 1v1对比测试领先20%,Bloom(1760亿参数)、Llama2(700亿参数) 8v8测试领先60%、40%。AMD还打造了MI300A,首次在数据中心同时集成了CPU、GPU,但目前尚未铺开。AMD苏姿丰此前预测,AMD AI芯片2024年的收入将达到35亿美元,大大高于此前预计的20亿美元。当然,AMD在开发支持、生态建设方面还存在较大的差距,仍需努力追赶。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人