Jim Keller:NVIDIA的CUDA不是护城河,是沼泽!

Jim Keller:NVIDIA的CUDA不是护城河,是沼泽! “CUDA 是沼泽,而不是护城河,”凯勒在 X 帖子中写道。“x86 也是一片沼泽。[…] CUDA 并不漂亮。它是通过一次堆积一件东西来构建的。” 确实,就像x86一样,CUDA在保持软件和硬件向后兼容性的同时逐渐增加了功能。这使得英伟达的平台完整且向后兼容,但它影响了性能并使程序开发变得更加困难。同时,很多开源软件开发框架可以比CUDA更高效地使用。“基本上没有人编写 CUDA,”Jim Keller在后续帖子中写道。“如果你确实编写 CUDA,它可能不会很快。[...] Triton、Tensor RT、Neon 和 Mojo 的存在是有充分理由的。”甚至NVIDIA本身也有不完全依赖 CUDA 的工具。例如,Triton Inference Server 是 NVIDIA 的一款开源工具,可简化 AI 模型的大规模部署,支持 TensorFlow、PyTorch 和 ONNX 等框架。Triton 还提供模型版本控制、多模型服务和并发模型执行等功能,以优化 GPU 和 CPU 资源的利用率。NVIDIA的TensorRT是一种高性能深度学习推理优化器和运行时库,可加速NVIDIA GPU上的深度学习推理。TensorRT 从各种框架(例如 TensorFlow 和 PyTorch)中获取经过训练的模型,并对其进行优化以进行部署,从而减少延迟并提高图像分类、对象检测和自然语言处理等实时应用程序的吞吐量。但是,尽管像Arm、CUDA 和x86这样的架构可能会被认为是“沼泽”,因为它们的演进速度相对较慢、必须向后兼容并且体积庞大,但这些平台也不像GPGPU这样分散,这可能根本不是一件坏事。目前尚不清楚 Jim Keller 对 AMD 的ROCm和英特尔的OneAPI有何看法,但很明显,尽管他花了很多年时间设计 x86 架构,但他并不迷恋其未来前景。他的言论还暗示,尽管他曾在世界上一些最大的芯片制造商工作过一段时间,包括苹果、英特尔、AMD、博通(现在是Tenstorrent)等公司,但我们可能不会在NVIDIA的名单上看到他的名字。 ... PC版: 手机版:

相关推荐

封面图片

Jim Keller 批评英伟达:CUDA 是沼泽,不是护城河

封面图片

Jim Keller大神建议NVIDIA放弃私有标准:可以省几十亿美元

Jim Keller大神建议NVIDIA放弃私有标准:可以省几十亿美元 他还认为,NVIDIA在数据中心网络中,也不该使用自己的方案InfiniBand,也得换成以太网。NVIDIA Infiniband网络虽然具备低延迟、高带宽,最高可达200GbE,但是以太网能做到400GbE乃至是800GbE。AMD、博通、Intel、Meta、微软、甲骨文等巨头也正在合作开发下一代超高速以太网(Utlra Ethernet),吞吐量更高,更适合AI、HPC应用。此外,Jim Keller对于NVIDIA CUDA封闭生态也一直很不满,曾经骂它是沼泽而非护城河。Arm、Intel、高通、三星等也合作组建了统一加速基金会(UXL),目标之一就是取代NVIDIA的方案。不过对于黄仁勋来说,不管NVLink还是CUDA,都是自己公司多少年砸了多少亿美元的成果,更是维护自家利益的神器,怎么能轻易放弃呢? ... PC版: 手机版:

封面图片

Nvidia 禁止使用转译层让 CUDA 软件在其他芯片上运行

Nvidia 禁止使用转译层让 CUDA 软件在其他芯片上运行 Nvidia 现在已禁止使用转译层在其他硬件平台上运行基于 CUDA 的软件。CUDA 11.5 中的一条新条款写道:“您不得对使用软件元素生成的输出的任何部分进行逆向工程、反编译或反汇编,以将此类输出工件转换为目标非 Nvidia 平台。”这似乎是为了阻止 ZLUDA 计划,一个让其他平台兼容 CUDA 的转译层。更重要的是,可以阻止中国 GPU 制造商利用带有转译层的 CUDA 代码。虽然 Nvidia 可能短期内无法阻止所有人在其他硬件平台上运行 CUDA ,然而该公司已经为此设置法律障碍。

封面图片

AMD显卡可以原生跑NVIDIA CUDA应用了 速度还挺快

AMD显卡可以原生跑NVIDIA CUDA应用了 速度还挺快 之后在AMD的支持下,ZLUDA重启了该项目,能够让AMD显卡原生运行CUDA应用,不需要任何转移,也不需要调整代码。唯一要做的,就是用ZLUDA库替代CUDA。虽然它不能保证每一款CUDA应用都跑起来,但已经是以一个巨大的突破。非常可惜,AMD支持这一项目做了两年,也给停了不知道是不是受到了NVIDIA的压力。幸运的是,ZLUDA项目并未彻底消散,已经免费开源,感兴趣有能力的开发者都可以使用,而且确认可以在AMD ROCm平台上无缝运行CUDA应用。比如说,可以将CUDA作为Blender 4.0或者V-Ray的渲染API,尤其是Blender本来就有Radeon HIP计算渲染器,如今跑在ZLUDA上速度还会更快。Andrzej Janik也在继续研究ZLUDA,其中一个目标就是要让AMD显卡运行NVIDIA DLSS。内部测试表明,对比OpenCL方案,其性能大部分时候都更好,最多可以领先超过75%,但因为还在开发之中,部分时候效率反而更低。 ... PC版: 手机版:

封面图片

NVIDIA封杀转译兼容CUDA 摩尔线程官方:MUSA、MUSIFY不受影响

NVIDIA封杀转译兼容CUDA 摩尔线程官方:MUSA、MUSIFY不受影响 3月5日晚间,摩尔线程发表官方声明回应称,旗下的MUSA、MUSIFY技术均未受影响!摩尔线程强调,MUSA、MUSIFY不涉及NVIDIA EULA相关条款,开发者可放心使用。据介绍,MUSA是摩尔线程自主研发、拥有全部知识产权、软硬一体的全功能GPU先进计算统一系统架构,与CUDA无任何依赖关系。MUSIFY是摩尔线程面向MUSA开发者提供的开发工具,方便在MUSA计算平台上进行应用移植与开发。它可以让开发者将自己的C++源代码,转换成MUSA C++源代码,再通过MUSA编译器MCC编译生成基于MUSA指令集的二进制代码,最终运行在摩尔线程的全功能GPU上。摩尔线程还向开发者提供MUSA SDK,这是摩尔线程GPU并行计算开发SDK的集合,包含了MUSAToolkits(内置运行时/编译器/GPU加速计算库/迁移/优化工具)及计算库、神经网络加速库、通信库等一系列开发工具,可让开发者快速开发出针对摩尔线程GPU优化的并行计算应用。摩尔线程强调,将充分发挥从芯片到显卡到集群的智算产品优势,继续打磨MUSA,持续为大模型训练与推理提供高性能算力支撑。 ... PC版: 手机版:

封面图片

Google 和 OpenAI 都未建立 AI 的护城河

Google 和 OpenAI 都未建立 AI 的护城河 根据一份泄露的内部备忘录,Google 声称它和 OpenAI 都未建立 AI 的护城河,开源 AI 将会是最后的赢家,开源模型更快,定制性更高,隐私保护更好,同等规模时性能更强。 130 亿参数的开源模型训练只需要 100 美元,而 Google 和 OpenAI 有 5400 亿参数的模型训练要花费 1000 万美元。 大语言模型不存在什么秘方,参数太多的大模型反而造成拖累,最佳的模型是能快速迭代的,关注开源模型的开发有助于避免重新发明轮子。 频道 @WidgetChannel 投稿 @WidgetPlusBot

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人