DirectX 12工作图正式发布新GPU自主系统旨在消除CPU瓶颈

DirectX12工作图正式发布新GPU自主系统旨在消除CPU瓶颈简单地说，新系统旨在切换到更高效的GPU驱动渲染系统，减少在不同工作负载中使用CPU的需求。在许多GPU工作负载中，GPU上的初始计算决定了GPU需要进行的后续工作。这可以通过返回CPU发布新工作来实现。但通常情况下，GPU最好能直接为自己提供信息。D3D12中的ExecuteIndirect就是这样一种形式，应用程序使用GPU记录一个非常受限的命令缓冲区，该缓冲区需要在GPU上进行串行处理，以发布新的工作。考虑一种新方案，假设在GPU上运行的着色器线程（生产者）可以请求其他工作运行（消费者）。消费者也可以是生产者。只要GPU有能力运行，系统就能安排所请求的工作。应用程序还可以让系统管理任务间数据流的内存。这就是工作图，工作图是一个节点图，每个节点上的着色器代码都可以请求调用其他节点，而无需等待它们启动。工作图可以捕捉用户的算法意图和整体结构，而不会让开发人员过多地了解具体的硬件运行情况。异步的特性使系统可以最大限度地自由决定如何以最佳方式执行工作。有关DirectX12工作图功能的全部详细信息，请访问：https://devblogs.microsoft.com/directx/d3d12-work-graphs/...PC版：https://www.cnbeta.com.tw/articles/soft/1423400.htm手机版：https://m.cnbeta.com.tw/view/1423400.htm

在Telegram中查看

相关推荐

Microsoft DirectX 12 工作图调度发布：让 GPU 自主工作，突破 CPU 瓶颈

MicrosoftDirectX12工作图调度发布：让GPU自主工作，突破CPU瓶颈MicrosoftDirectX部门计划在本月的GDC2024上展示几项创新技术。该公司近日发布了敏捷软件开发工具包AgilitySDK1.613更新，引入了对ShaderModel6.8和WorkGraphs（工作图调度）功能的支持。目前渲染图像的工作有一部分是由CPU完成的，有一部分是由GPU完成的。但CPU有时会花费过多时间来决定GPU接下来应该做什么。工作图调度是一个帮助CPU和GPU更有效地协同工作的系统。该技术允许CPU提前计划并为GPU组织任务，从而在渲染中让GPU能够即时为自己生成工作任务。更新后的 ShaderModel6.8还带来了新功能，例如StartVertex/InstanceLocation，允许着色器从API调用获取参数。还有扩展比较采样，能够实现更好的跨平台着色。英伟达和AMD都已经为新的SDK推出了Day-1驱动程序。英伟达551.76或更高版本的Ampere和AdaGPU支持工作图。AMD确认工作图目前适用于RDNA3架构RX7000GPU。MicrosoftDeveloperBlog：https://devblogs.microsoft.com/directx/agility-sdk-1-613-0/https://devblogs.microsoft.com/directx/d3d12-work-graphs/线索：@ZaiHuabot投稿：@TNSubmbot频道：@TestFlightCN

DirectX 12更新允许CPU和GPU同时访问显存

DirectX12更新允许CPU和GPU同时访问显存虽然暂时还没有完全清楚新功能的特性，但是性能优势是比较明显的。现在的电子游戏对内存和显存的消耗越来越大，CPU和GPU之间需要传输的数据也越来越多。有了这个功能以后，就能降低游戏时CPU和内存的占用率，CPU不再需要在系统内存和显存上保存数据副本来进行交互。另一个好处是，现在的显存都非常快，如果把数据单独留在显存上或许还能减少延迟。事实上，在配备高速显存的高端显卡上，随着CPU访问时间的增加，延迟可能会有更明显的改善。玩家现在唯一需要做的，就是打开Resizable-Bar或者SmartAccessMemory，为新功能开启大门。对于开发者而言，目前英伟达和英特尔的显卡驱动程序都已支持该功能，前者是GeForceGameReady531.41WHQL或更新的驱动，后者是IntelGraphicsDriver31.0.101.4255或更新的驱动。由于新功能才刚刚推出，玩家不要期待很快会有游戏支持，开发人员还需要花费时间了解清楚，并确认使用后是否会得到显著的性能提升，值得游戏去提供支持。...PC版：https://www.cnbeta.com.tw/articles/soft/1352379.htm手机版：https://m.cnbeta.com.tw/view/1352379.htm

微软DirectX12“工作图”发布：让GPU自主工作，突破CPU瓶颈https://www.ithome.com/0/755/

Google：引领AI推理工作量的是CPU而非GPU

Google：引领AI推理工作量的是CPU而非GPU人工智能的生命周期分为两个部分：训练和推理。在训练过程中，需要大量的计算能力和巨大的内存容量，以便将不断扩大的人工智能模型装入内存。最新的模型，如GPT-4和Gemini，包含数十亿个参数，需要数千个GPU或其他加速器并行工作，才能高效地进行训练。另一方面，推理所需的计算强度较低，但仍能从加速中获益。在推理过程中，会对预先训练好的模型进行优化和部署，以便对新数据进行预测。虽然推理所需的计算量比训练少，但延迟和吞吐量对实时推理至关重要。Google发现，虽然GPU是训练阶段的理想选择，但模型通常在CPU上进行优化和推理。这意味着，有些客户出于各种原因选择CPU作为人工智能推理的媒介。这可能是成本和可用性的问题。与高端GPU或专门的人工智能加速器相比，CPU往往更便宜，也更容易获得。对于许多应用而言，CPU能以较低的成本提供足够的推理性能。CPU还具有灵活性。由于大多数系统已经配备了CPU，它们为较小的人工智能模型提供了便捷的部署途径。GPU通常需要专门的库和驱动程序，而基于CPU的推理可以利用现有的基础设施。这使得将人工智能集成到现有产品和工作流程中变得更加简单。延迟和吞吐量的权衡也会发挥作用。GPU擅长大规模并行推理吞吐量。但CPU通常可以为实时请求提供更低的延迟。对于需要亚秒级响应的在线推荐等应用，CPU推理可能是首选。此外，CPU对推理的优化进展迅速。在更快的时钟、更多的内核以及英特尔AVX-512和AMX等新指令的推动下，性能不断提高，仅靠CPU就能流畅运行人工智能工作负载，如果服务器配置了不止一个插槽，意味着有更多的人工智能引擎存在，服务器就能高效处理数十亿参数大小的人工智能模型，则性能尤其出色。英特尔指出，一般来说，参数不超过200亿的模型在CPU上可以正常运行，而更大的模型则必须使用专门的加速器。像GPT-4、Claude和Gemini这样的人工智能模型都是庞大的模型，参数规模可达一万亿以上。然而，它们是多模式的，也就是说，它们处理文本和视频。现实世界中的企业工作负载可能是一个人工智能模型推断公司的本地文档，以回答客户支持问题。对于这种解决方案来说，运行GPT-4这样的模型就显得多余了。相比之下，像LLAMA2或Mistral这样小得多的模型可以很好地实现类似目的，而不需要第三方API访问，只需在本地或云服务器上运行几个CPU即可。这就降低了总体拥有成本（TCO），简化了人工智能管道。...PC版：https://www.cnbeta.com.tw/articles/soft/1422284.htm手机版：https://m.cnbeta.com.tw/view/1422284.htm

富士通新技术可优化人工智能和高性能计算工作负载的CPU和GPU分配

富士通新技术可优化人工智能和高性能计算工作负载的CPU和GPU分配富士通开发了两项新技术，旨在优化强大的高性能计算系统上的CPU和GPU工作负载。该公司正致力于实时分配资源，以更好地管理具有高执行效率的进程，同时优化多个程序的并行处理。富士通表示，新解决方案旨在解决生成学习和其他人工智能相关技术的爆炸性需求所导致的全球GPU短缺问题。这些优化技术包括一个"自适应GPU分配器"（AdaptiveGPUAllocator），它似乎可以检测出程序是需要在GPU加速器上执行还是在CPU上执行。分配器是作为一个独立的服务器实现的，旨在测量代码执行性能。如果程序希望在HPC系统中使用GPU，分配器服务器就会批准访问，同时检查GPU和CPU上迷你批处理作业的处理时间。如果GPU批次测试不能充分缩短处理时间，分配器就会继续在CPU上重新分配作业。不幸的是，程序需要专门编写，以便通过专用框架使用新的分配器服务器，富士通公司证实了这一点。另一种优化高性能计算工作负载的解决方案是交互式高性能计算（InteractiveHPC），富士通将其描述为世界上第一种"在高性能计算系统上实时切换多个程序执行"的技术。富士通解释说，传统的控制方法采用单播通信，将程序执行"逐个"切换到每台服务器上。交互式HPC采用广播通信方法，向HPC系统中的每个计算节点发送切换指令。富士通表示，在256节点的高性能计算环境中工作时，新方法似乎足以将进程切换时间从几秒缩短到100毫秒。富士通对新GPU分配技术的计划主要集中在AI平台"Kozuchi"上，该公司的人工智能平台旨在为客户提供测试"先进人工智能技术"的快速方法。这项HPC优化技术还将应用于富士通的40量子位量子计算机模拟器。在计算即服务的高性能计算环境中的进一步应用似乎也在考虑之中。...PC版：https://www.cnbeta.com.tw/articles/soft/1397253.htm手机版：https://m.cnbeta.com.tw/view/1397253.htm

英特尔承诺在Arc GPU上提高DirectX 11和传统API游戏性能

英特尔承诺在ArcGPU上提高DirectX11和传统API游戏性能英特尔已经确认，他们将在最近的一个视频中为ArcGPU带来DirectX11支持和传统API游戏性能。该公司承认，他们意识到利用DirectX11的游戏性能不尽人意，并正在努力改善未来的体验。最初在LinusTechTips的评论中报道，该技术机构在利用ArcA770显卡的系统上对《古墓丽影》进行基准测试时，目睹了DirectX11和12版本之间50%的GPU性能差异。在前一个DirectX版本中，游戏达到了接近38FPS，而后者则提高了约80FPS。DirectX11和旧版API的功能与更新的DirectX12、Vulkan和其他当前API不同。较早的API技术需要图形驱动的大部分处理，从增强功能到为性能较低的图形卡进行定制。需要GPU处理更多的游戏工作是为了减轻一些来自游戏开发者的负担，他们希望优化游戏的外观。有了Vulkan和当前的DX12API，提升不再取决于图形驱动，而是取决于游戏的图形引擎。现在，游戏开发者需要处理图形优化的责任，特别是在较弱的系统中，并在游戏的代码中放置任务来承担这一负担。这方面的一个例子是视频内存分配。英特尔长期没有关注图形API，因为他们多年来没有开发GPU。现在，随着该公司的Arc系列图形卡，他们不得不追赶多年来专注于此类技术的公司，即该公司的竞争对手AMD和NVIDIA。该公司对DirectX11和旧API的无所作为，导致英特尔承认需要相当长的时间来了解并找到困扰其目前iGPU和dGPU的问题的解决方案。英特尔研究员汤姆·彼得森最近被引用关于英特尔改善API的途径，他说这个问题将是一个"永远的，充满了爱的劳动"。这些问题大多源于对集成图形软件栈的依赖，与ArcGPU相比，集成图形软件栈的架构非常不同。这导致了性能水平、游戏/API兼容性等方面的不足。"我们在独立显卡上发布的软件显然表现不佳，"Gelsinger说。"我们认为我们将能够利用集成图形软件栈，但它完全不能满足我们需要的性能水平和游戏兼容性等。因此，我们在独立显卡领域没有达到400万台的目标，即使我们现在正在追赶并获得更好的软件发布。""虽然我们不会达到我们的GPU单位目标，但我们仍然有望在今年实现超过10亿美元的收入。""在第二季度，我们开始为笔记本电脑的英特尔Arc显卡加量，OEM厂商包括三星、联想、宏基、惠普和华硕等。与COVID-19有关的供应链问题和我们自己的软件准备挑战造成了供货延迟，我们将继续努力克服。英特尔A5和A7台式机GPU卡将在第三季度开始发货"。现在，英特尔将需要做出尝试，在DX11和旧的API上工作，或者冒着等待的风险，直到行业不再需要任何低于当前可用的下一代API。PC版：https://www.cnbeta.com/articles/soft/1301673.htm手机版：https://m.cnbeta.com/view/1301673.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人