AMD显卡可以原生跑NVIDIA CUDA应用了 速度还挺快

AMD显卡可以原生跑NVIDIA CUDA应用了 速度还挺快 之后在AMD的支持下,ZLUDA重启了该项目,能够让AMD显卡原生运行CUDA应用,不需要任何转移,也不需要调整代码。唯一要做的,就是用ZLUDA库替代CUDA。虽然它不能保证每一款CUDA应用都跑起来,但已经是以一个巨大的突破。非常可惜,AMD支持这一项目做了两年,也给停了不知道是不是受到了NVIDIA的压力。幸运的是,ZLUDA项目并未彻底消散,已经免费开源,感兴趣有能力的开发者都可以使用,而且确认可以在AMD ROCm平台上无缝运行CUDA应用。比如说,可以将CUDA作为Blender 4.0或者V-Ray的渲染API,尤其是Blender本来就有Radeon HIP计算渲染器,如今跑在ZLUDA上速度还会更快。Andrzej Janik也在继续研究ZLUDA,其中一个目标就是要让AMD显卡运行NVIDIA DLSS。内部测试表明,对比OpenCL方案,其性能大部分时候都更好,最多可以领先超过75%,但因为还在开发之中,部分时候效率反而更低。 ... PC版: 手机版:

相关推荐

封面图片

SCALE 让 CUDA 应用无需修改运行在 AMD GPU 上

SCALE 让 CUDA 应用无需修改运行在 AMD GPU 上 英伟达通过其私有工具 CUDA 建立了护城河,成为 AI 热的最大赢家,大部分 AI 应用都是基于 CUDA 直接运行在英伟达的硬件上。英国公司 Spectral Compute Ltd 开发了一个 GPGPU 工具包 SCALE,允许 CUDA 应用无需修改就能编译运行在 AMD GPU 上,类似性能的 AMD GPU 通常比英伟达 GPU 更便宜。SCALE 目前支持 RDNA 2.0 和 RDNA 3.0 系列显卡,对旧一代的显卡如 Vega 10 和 GCN 5.0 的支持还在开发之后。 via Solidot

封面图片

Nvidia 禁止使用转译层让 CUDA 软件在其他芯片上运行

Nvidia 禁止使用转译层让 CUDA 软件在其他芯片上运行 Nvidia 现在已禁止使用转译层在其他硬件平台上运行基于 CUDA 的软件。CUDA 11.5 中的一条新条款写道:“您不得对使用软件元素生成的输出的任何部分进行逆向工程、反编译或反汇编,以将此类输出工件转换为目标非 Nvidia 平台。”这似乎是为了阻止 ZLUDA 计划,一个让其他平台兼容 CUDA 的转译层。更重要的是,可以阻止中国 GPU 制造商利用带有转译层的 CUDA 代码。虽然 Nvidia 可能短期内无法阻止所有人在其他硬件平台上运行 CUDA ,然而该公司已经为此设置法律障碍。

封面图片

AMD显卡市场份额同比飙升117% NVIDIA意外大跌

AMD显卡市场份额同比飙升117% NVIDIA意外大跌 更有趣的是显卡份额,可能和很多人想象的不同,AMD显卡虽然份额不多,但势头却一路看涨,出货量环比增加17%,同比则暴涨117%。份额方面,AMD显卡在2022年第四季度只占12%,2023年第三季度升至17%,2023年第四季度更是达到了19%。相比之下,NVIDIA确实一直占统治地位,出货量环比、同比也分别增加了4.7%、22.3%,但份额却在持续下滑:86%、82%、80%……另外,Intel还是打酱油的角色,份额徘徊在1-2%,只能等今年的新一代Battlemage系列出来再看了。JPR在报告中称,经过连续四个季度上涨,独立显卡迎来了一段黄金岁月,价格虽然贵,但确实有着高超的计算性能,无论是AI、生产力设计,还是游戏、视频编辑,都需要越来越强的独立显卡。至于AMD为何势头如此之猛,JPR也没有明确解释,你猜呢? ... PC版: 手机版:

封面图片

Jim Keller:NVIDIA的CUDA不是护城河,是沼泽!

Jim Keller:NVIDIA的CUDA不是护城河,是沼泽! “CUDA 是沼泽,而不是护城河,”凯勒在 X 帖子中写道。“x86 也是一片沼泽。[…] CUDA 并不漂亮。它是通过一次堆积一件东西来构建的。” 确实,就像x86一样,CUDA在保持软件和硬件向后兼容性的同时逐渐增加了功能。这使得英伟达的平台完整且向后兼容,但它影响了性能并使程序开发变得更加困难。同时,很多开源软件开发框架可以比CUDA更高效地使用。“基本上没有人编写 CUDA,”Jim Keller在后续帖子中写道。“如果你确实编写 CUDA,它可能不会很快。[...] Triton、Tensor RT、Neon 和 Mojo 的存在是有充分理由的。”甚至NVIDIA本身也有不完全依赖 CUDA 的工具。例如,Triton Inference Server 是 NVIDIA 的一款开源工具,可简化 AI 模型的大规模部署,支持 TensorFlow、PyTorch 和 ONNX 等框架。Triton 还提供模型版本控制、多模型服务和并发模型执行等功能,以优化 GPU 和 CPU 资源的利用率。NVIDIA的TensorRT是一种高性能深度学习推理优化器和运行时库,可加速NVIDIA GPU上的深度学习推理。TensorRT 从各种框架(例如 TensorFlow 和 PyTorch)中获取经过训练的模型,并对其进行优化以进行部署,从而减少延迟并提高图像分类、对象检测和自然语言处理等实时应用程序的吞吐量。但是,尽管像Arm、CUDA 和x86这样的架构可能会被认为是“沼泽”,因为它们的演进速度相对较慢、必须向后兼容并且体积庞大,但这些平台也不像GPGPU这样分散,这可能根本不是一件坏事。目前尚不清楚 Jim Keller 对 AMD 的ROCm和英特尔的OneAPI有何看法,但很明显,尽管他花了很多年时间设计 x86 架构,但他并不迷恋其未来前景。他的言论还暗示,尽管他曾在世界上一些最大的芯片制造商工作过一段时间,包括苹果、英特尔、AMD、博通(现在是Tenstorrent)等公司,但我们可能不会在NVIDIA的名单上看到他的名字。 ... PC版: 手机版:

封面图片

NVIDIA封杀转译兼容CUDA 摩尔线程官方:MUSA、MUSIFY不受影响

NVIDIA封杀转译兼容CUDA 摩尔线程官方:MUSA、MUSIFY不受影响 3月5日晚间,摩尔线程发表官方声明回应称,旗下的MUSA、MUSIFY技术均未受影响!摩尔线程强调,MUSA、MUSIFY不涉及NVIDIA EULA相关条款,开发者可放心使用。据介绍,MUSA是摩尔线程自主研发、拥有全部知识产权、软硬一体的全功能GPU先进计算统一系统架构,与CUDA无任何依赖关系。MUSIFY是摩尔线程面向MUSA开发者提供的开发工具,方便在MUSA计算平台上进行应用移植与开发。它可以让开发者将自己的C++源代码,转换成MUSA C++源代码,再通过MUSA编译器MCC编译生成基于MUSA指令集的二进制代码,最终运行在摩尔线程的全功能GPU上。摩尔线程还向开发者提供MUSA SDK,这是摩尔线程GPU并行计算开发SDK的集合,包含了MUSAToolkits(内置运行时/编译器/GPU加速计算库/迁移/优化工具)及计算库、神经网络加速库、通信库等一系列开发工具,可让开发者快速开发出针对摩尔线程GPU优化的并行计算应用。摩尔线程强调,将充分发挥从芯片到显卡到集群的智算产品优势,继续打磨MUSA,持续为大模型训练与推理提供高性能算力支撑。 ... PC版: 手机版:

封面图片

NVIDIA免费给显卡升级反被骂 原因何在

NVIDIA免费给显卡升级反被骂 原因何在 相比于完整AD102核心的18432个CUDA,新的AD102-225只用了45.8%,也就是一半都不到。虽然性能没有什么提升,但新显卡的功耗却从285W增加到了295W,尺寸和重量也有所增加,显然是为了压制发热而做出的改变。不过NVIDIA这种操作也不是第一次了,在今年上半年,RTX 4070、RTX 4060Ti和RTX 4060等显卡也被 NVIDIA升级了核心。基本上都是通过采用高规格的芯片,然后屏蔽来达到与原来持平的性能,最关键的是,变更核心后都有不同程度的功耗上涨。更早在30系的时候,NVIDIA也曾把RTX 3070Ti的核心更换为GA102-15,原因可以说是为了解决矿潮信任危机以及消化库存。但是在40系上这么做,原因可能就是AI实在是太挣钱了,在消费显卡市场减产后,NVIDIA也就用更高规格芯片屏蔽做出次等级的显卡。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人