AMD ROCm 6.0发布:新增支持两大GPU显卡、一大AI框架

AMD ROCm 6.0发布:新增支持两大GPU显卡、一大AI框架 如今的ROCm 6.0又迎来了RDNA 3显卡家族的两名新成员:RX 7900 GRE、Radeon PRO W7800。工程师可利用它们进行AI、ML开发,这就进一步拓展了平台范围,降低了开发门槛,无论是性能还是价位都给开发者提供了更多选择。此外,ROCm 6.0还支持了ONNX Runtime,这是一种用于在不同ML框架之间转换AI模型的中间ML框架。因此,开发者可以在本地AMD硬件上以更广泛的源数据执行推理,还可以通过AMD自有的图形推理引擎MIGraphX来处理INT8整数数据此前已支持FP16、FP32浮点数据格式。当然,PyTorch框架是继续支持的,可操作FP16/FP32混合精度数据。随着ROCm 6.0的正式发布,这也预示着AMD正在加快、加深对ROCm开发平台的建设速度,支持的显卡硬件、框架模型越来越多,让开发者可以更自由地从事AI、ML研究,也在NVIDIA CUDA、Intel openAPI之外提供了同样强有力的平台选择。 ... PC版: 手机版:

相关推荐

封面图片

SCALE 让 CUDA 应用无需修改运行在 AMD GPU 上

SCALE 让 CUDA 应用无需修改运行在 AMD GPU 上 英伟达通过其私有工具 CUDA 建立了护城河,成为 AI 热的最大赢家,大部分 AI 应用都是基于 CUDA 直接运行在英伟达的硬件上。英国公司 Spectral Compute Ltd 开发了一个 GPGPU 工具包 SCALE,允许 CUDA 应用无需修改就能编译运行在 AMD GPU 上,类似性能的 AMD GPU 通常比英伟达 GPU 更便宜。SCALE 目前支持 RDNA 2.0 和 RDNA 3.0 系列显卡,对旧一代的显卡如 Vega 10 和 GCN 5.0 的支持还在开发之后。 via Solidot

封面图片

高通聘请了前AMD光追专家 以提升Adreno GPU游戏性能和兼容性

高通聘请了前AMD光追专家 以提升Adreno GPU游戏性能和兼容性 据TomsHardware报道,为了提升Adreno GPU的游戏性能,高通聘请了前AMD光线追踪专家Paritosh Kulkarni,加入到其GPU开发团队。据了解,Paritosh Kulkarni将针对Adreno GPU的DirectX 12.2支持展开工作,利用自己的专业知识来帮助完成相关的开发,包括DXR、网格着色器和驱动程序优化等。在AMD期间,Paritosh Kulkarni的工作范围覆盖渲染研究到直接为AMD图形芯片开发驱动程序,随后转向光线追踪领域,成为AMD内部在该领域的顶级专家之一,负责了ProRender、“HIP RT”光线追踪库和其他内部框架的开发。据高通的介绍,Adreno X1是适用于Windows on ARM的骁龙X系列SoC的第一代集成显卡,最多拥有6个着色器,共计1536个FP32 ALU,每周期能够处理96个纹理单元,提供了4.6 TFLOPS的峰值性能,每秒可处理7200万像素的数据。其支持主流的图形API,包括DirectX 12.1(Shader Model 6.7)、DirectX 11、Vulkan 1.3和OpenCL 3.0。虽然微软此前还推出了Automatic super resolution(Auto SR),为高通骁龙X系列在Windows游戏下的运行做了优化,但实际情况却不太理想。不少用户反映游戏在加载之前就崩溃了,即便是官方“Windows on Arm Ready Games”的游戏也可能会遇到各种问题,这都需要Paritosh Kulkarni去协助解决。 ... PC版: 手机版:

封面图片

AMD重启多显卡支持 最多四块、192GB显存

AMD重启多显卡支持 最多四块、192GB显存 AMD在更新日志中表示,多卡支持可以在多服务、多用户环境中,提供更灵活的AI桌面方案。目前支持多卡并行的型号仅限RDNA3 Navi31核心的高端系列,具体包括:RX 7900 XTX、RX 7900 XT、RX 7900 GRE、PRO W7900(双插槽)、PRO W7900、PRO W7800。其中,7900 XTX、PRO W7900可以双卡并行,首次正式支持的PRO W7900(双插槽)可以最多四卡并行。AMD表示,这可以让用户更好地执行超大规模的大语言模型,比如700亿参数的Llama 3,四块PRO W9700可以提供多达192GB GDDR6显存。此外,ROCm 6.1.3在特定RDNA显卡上支持TensorFlow,初步支持通过Windows WSL子系统运行ROCm。哦对了,以上所有都仅限Ubuntu 22.04.3 HWE操作系统,需要搭配Linux 24.10.3版显卡驱动。 ... PC版: 手机版:

封面图片

英特尔的 Arc 显卡驱动被确认不支持挖矿

英特尔的 Arc 显卡驱动被确认不支持挖矿 英特尔的 A380 显卡并不完全是为核心玩家或矿工准备的,因为它是基于该公司的入门级 ACM-G11 GPU,有8个 Xe 核心(相当于1024个流处理器),能够达到约 3 FP32 TFLOPS,并具有96位 GDDR6 内存接口。这块板子很可能不会进入最好的游戏显卡名单,而且目前它根本不支持挖矿,这也不是特别令人惊讶。 (谁拿核显挖矿啊?)

封面图片

调查显示AI专业人士考虑从英伟达转投AMD 对Instinct MI300X充满信心

调查显示AI专业人士考虑从英伟达转投AMD 对Instinct MI300X充满信心 事实上,TensorWave自己也采购了AMD MI300X。AMD Instinct系列产品其实已经发展了很多代,但无论性能还是市场接受度都远逊于对手。这一代的MI300X实现了性能飞跃,相比H100内存容量多2.4倍、带宽高1.6倍、FP8、FP16浮点性能都高1.3倍,FlashAttention 2、Llama2(700亿参数) 1v1对比测试领先20%,Bloom(1760亿参数)、Llama2(700亿参数) 8v8测试领先60%、40%。AMD还打造了MI300A,首次在数据中心同时集成了CPU、GPU,但目前尚未铺开。AMD苏姿丰此前预测,AMD AI芯片2024年的收入将达到35亿美元,大大高于此前预计的20亿美元。当然,AMD在开发支持、生态建设方面还存在较大的差距,仍需努力追赶。 ... PC版: 手机版:

封面图片

AMD Zen5C、Zen6架构细节曝光 核心数创新高

AMD Zen5C、Zen6架构细节曝光 核心数创新高 访问:NordVPN 立减 75% + 外加 3 个月时长 另有NordPass密码管理器 这意味着在Ryzen CPU等双CCD部件上,核心数可达到32个,或者使用相同CCD布局最多可达64个核心。Zen 4在顶级EPYC芯片上部署了多达12个CCD,而Zen 4C则有多达8个CCD,后者每个CCX包含8个核心,最多128个核心。在Zen 5架构中,AMD将堆叠多达16个CCD,而Zen 5C架构中将堆叠12个CCD。Zen 5C芯片将采用单CCX设计,总共16个核心,最多可达192个核心。根据此前报道,Zen6架构将采用2nm工艺制造,IPC性能预计再提升10%,并支持16通道内存,加入AI/ML FP16浮点指令等新技术,同时还将引入PCIe 6.0,提供更高的I/O带宽。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人