DirectX 12工作图正式发布 新GPU自主系统旨在消除CPU瓶颈

DirectX 12工作图正式发布 新GPU自主系统旨在消除CPU瓶颈 简单地说,新系统旨在切换到更高效的 GPU 驱动渲染系统,减少在不同工作负载中使用 CPU 的需求。在许多 GPU 工作负载中,GPU 上的初始计算决定了 GPU 需要进行的后续工作。这可以通过返回 CPU 发布新工作来实现。但通常情况下,GPU 最好能直接为自己提供信息。D3D12 中的 ExecuteIndirect 就是这样一种形式,应用程序使用 GPU 记录一个非常受限的命令缓冲区,该缓冲区需要在 GPU 上进行串行处理,以发布新的工作。考虑一种新方案,假设在 GPU 上运行的着色器线程(生产者)可以请求其他工作运行(消费者)。消费者也可以是生产者。只要 GPU 有能力运行,系统就能安排所请求的工作。应用程序还可以让系统管理任务间数据流的内存。这就是工作图,工作图是一个节点图,每个节点上的着色器代码都可以请求调用其他节点,而无需等待它们启动。工作图可以捕捉用户的算法意图和整体结构,而不会让开发人员过多地了解具体的硬件运行情况。异步的特性使系统可以最大限度地自由决定如何以最佳方式执行工作。有关 DirectX 12 工作图功能的全部详细信息,请访问: ... PC版: 手机版:

相关推荐

封面图片

微软 DirectX 12 “工作图”发布:让 GPU 自主工作,突破 CPU 瓶颈

微软 DirectX 12 “工作图”发布:让 GPU 自主工作,突破 CPU 瓶颈 英伟达 Ampere 和 Ada GPU 支持工作图。AMD 确认工作图目前适用于 RDNA3 架构 RX 7000 GPU。 那以后还会有吕布骑狗效应吗?

封面图片

Google:引领AI推理工作量的是CPU而非GPU

Google:引领AI推理工作量的是CPU而非GPU 人工智能的生命周期分为两个部分:训练和推理。在训练过程中,需要大量的计算能力和巨大的内存容量,以便将不断扩大的人工智能模型装入内存。最新的模型,如 GPT-4 和 Gemini,包含数十亿个参数,需要数千个 GPU 或其他加速器并行工作,才能高效地进行训练。另一方面,推理所需的计算强度较低,但仍能从加速中获益。在推理过程中,会对预先训练好的模型进行优化和部署,以便对新数据进行预测。虽然推理所需的计算量比训练少,但延迟和吞吐量对实时推理至关重要。Google发现,虽然 GPU 是训练阶段的理想选择,但模型通常在 CPU 上进行优化和推理。这意味着,有些客户出于各种原因选择 CPU 作为人工智能推理的媒介。这可能是成本和可用性的问题。与高端 GPU 或专门的人工智能加速器相比,CPU 往往更便宜,也更容易获得。对于许多应用而言,CPU 能以较低的成本提供足够的推理性能。CPU 还具有灵活性。由于大多数系统已经配备了 CPU,它们为较小的人工智能模型提供了便捷的部署途径。GPU 通常需要专门的库和驱动程序,而基于 CPU 的推理可以利用现有的基础设施。这使得将人工智能集成到现有产品和工作流程中变得更加简单。延迟和吞吐量的权衡也会发挥作用。GPU 擅长大规模并行推理吞吐量。但 CPU 通常可以为实时请求提供更低的延迟。对于需要亚秒级响应的在线推荐等应用,CPU 推理可能是首选。此外,CPU 对推理的优化进展迅速。在更快的时钟、更多的内核以及英特尔 AVX-512 和 AMX 等新指令的推动下,性能不断提高,仅靠 CPU 就能流畅运行人工智能工作负载,如果服务器配置了不止一个插槽,意味着有更多的人工智能引擎存在,服务器就能高效处理数十亿参数大小的人工智能模型,则性能尤其出色。英特尔指出,一般来说,参数不超过200 亿的模型在 CPU 上可以正常运行,而更大的模型则必须使用专门的加速器。像 GPT-4、Claude 和 Gemini 这样的人工智能模型都是庞大的模型,参数规模可达一万亿以上。然而,它们是多模式的,也就是说,它们处理文本和视频。现实世界中的企业工作负载可能是一个人工智能模型推断公司的本地文档,以回答客户支持问题。对于这种解决方案来说,运行 GPT-4 这样的模型就显得多余了。相比之下,像LLAMA 2或 Mistral 这样小得多的模型可以很好地实现类似目的,而不需要第三方 API 访问,只需在本地或云服务器上运行几个 CPU 即可。这就降低了总体拥有成本(TCO),简化了人工智能管道。 ... PC版: 手机版:

封面图片

AMD Ryzen AI CPU 和 Radeon RX 7000 GPU 现支持本地运行 LLM 和 AI 聊天机器人

AMD Ryzen AI CPU 和 Radeon RX 7000 GPU 现支持本地运行 LLM 和 AI 聊天机器人 AMD 表示用户可以在包括采用 AMD 新 XDNA NPU 的 Ryzen 7000 和 Ryzen 8000 系列 APU,以及内置 AI 加速核心的 Radeon RX 7000 系列 GPU 设备上,本地运行 LLM 和 AI 聊天机器人

封面图片

:旨在加速SQL操作的零知识证明,提供了CPU和GPU上的加速密码学零知识证明算法的C++库,支持多标量乘法、广义Pederse

:旨在加速SQL操作的零知识证明,提供了CPU和GPU上的加速密码学零知识证明算法的C++库,支持多标量乘法、广义Pedersen承诺和多指数运算等密码学原语,能在单个GPU上以极快的速度运行Proof of SQL,同时提供了CPU支持,用于测试。

封面图片

为什么有了CPU,还要研究GPU?

为什么有了CPU,还要研究GPU? llk的回答 一句话结论就是之前是软件时代,现在是AI时代。 真是时代的浪潮一波接一波,三国演义里的片头词很合适:滚滚长江东逝水,浪花淘尽英雄。是非成败转头空。青山依旧在,几度夕阳红。 白发渔樵江渚上,惯看秋月春风。一壶浊酒喜相逢。古今多少事,都付笑谈中曾几何时,在CPU市场,Intel通过wintel联盟统治了消费端,反过来通过消费端的利润和技术迭代从IBM/SUN等手里抢过了数据中心业务。那是一段关于CPU在指令集架构,和实现微架构上荡气回肠的历史,Intel最终成为了CPU市场的赢家,而广大消费者也用上了性价比越来越高的计算机。那个时候NVIDIA还是一家GPU公司,营收不到Intel的零头,产品GPU更是作为CPU的一个加速设备而存在。 但是伴随CPU性能提升的逐渐放缓,Intel或者说CPU上的光环不在。 人们转向并行计算,而NVIDIA则在这一转变中成功抓住机会,在2006年推出了Tesla架构,成功从GPU变成GPGPU NVIDIA称这一架构叫做scalable processor array,真是贴切,既可以在SM里扩展SP,又可以在芯片层面扩展SM。所以伴随摩尔定律,NVIDIA的GPGPU越来越大,性能也越来越强。一直到2012年,AI的浪潮爆发了,NVIDIA多年前的技术上的决策得到了回报,GPGPU大行其道,甚至成为AI计算的标准。 而大语言模型的爆发更是催生了对高性能计算的迫切需求,NVIDIA股价更是一飞冲天。而随着GPGPU成为计算的主力,之前计算的主力CPU的市场就被大大削弱了。看看NVIDIA的DGX-1系统 8个GPU才搭配两个CPU,GPU成功从曾经的从设备变成了主角,而CPU则从王座跌落,成了主角背后的辅助。 雷军说过,风口上的猪都能飞起来,更何况NVIDIA本来就是图形和并行计算领域的领导者。时来天地皆同力,运去英雄不自由这是对GPU和CPU最好的注释了。 via 知乎热榜 (author: llk)

封面图片

:允许用户在任何地方(Linux/Windows/Mac)通过 gradio web UI 在 GPU 或 CPU 上运行 Ll

:允许用户在任何地方(Linux/Windows/Mac)通过 gradio web UI 在 GPU 或 CPU 上运行 Llama 2。 它支持 Llama-2-7B/13B/70B,并且可以使用 8-bit 或 4-bit 模式。它支持至少有 6 GB VRAM 的 GPU 推理,以及至少有 6 GB RAM 的 CPU 推理。 支持多种模型:Llama-2-7b/13b/70b,所有的Llama-2-GPTQ,所有的Llama-2-GGML等 支持多种模型后端:Nvidia GPU(transformers,bitsandbytes(8-bit 推理),AutoGPTQ(4-bit 推理)),CPU,Mac/AMD GPU(llama.cpp) Web UI接口:gradio

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人