Microsoft DirectX 12 工作图调度发布:让 GPU 自主工作,突破 CPU 瓶颈

MicrosoftDirectX12工作图调度发布:让GPU自主工作,突破CPU瓶颈MicrosoftDirectX部门计划在本月的GDC2024上展示几项创新技术。该公司近日发布了敏捷软件开发工具包AgilitySDK1.613更新,引入了对ShaderModel6.8和WorkGraphs(工作图调度)功能的支持。目前渲染图像的工作有一部分是由CPU完成的,有一部分是由GPU完成的。但CPU有时会花费过多时间来决定GPU接下来应该做什么。工作图调度是一个帮助CPU和GPU更有效地协同工作的系统。该技术允许CPU提前计划并为GPU组织任务,从而在渲染中让GPU能够即时为自己生成工作任务。更新后的 ShaderModel6.8还带来了新功能,例如StartVertex/InstanceLocation,允许着色器从API调用获取参数。还有扩展比较采样,能够实现更好的跨平台着色。英伟达和AMD都已经为新的SDK推出了Day-1驱动程序。英伟达551.76或更高版本的Ampere和AdaGPU支持工作图。AMD确认工作图目前适用于RDNA3架构RX7000GPU。MicrosoftDeveloperBlog:https://devblogs.microsoft.com/directx/agility-sdk-1-613-0/https://devblogs.microsoft.com/directx/d3d12-work-graphs/线索:@ZaiHuabot投稿:@TNSubmbot频道:@TestFlightCN

相关推荐

封面图片

DirectX 12工作图正式发布 新GPU自主系统旨在消除CPU瓶颈

DirectX12工作图正式发布新GPU自主系统旨在消除CPU瓶颈简单地说,新系统旨在切换到更高效的GPU驱动渲染系统,减少在不同工作负载中使用CPU的需求。在许多GPU工作负载中,GPU上的初始计算决定了GPU需要进行的后续工作。这可以通过返回CPU发布新工作来实现。但通常情况下,GPU最好能直接为自己提供信息。D3D12中的ExecuteIndirect就是这样一种形式,应用程序使用GPU记录一个非常受限的命令缓冲区,该缓冲区需要在GPU上进行串行处理,以发布新的工作。考虑一种新方案,假设在GPU上运行的着色器线程(生产者)可以请求其他工作运行(消费者)。消费者也可以是生产者。只要GPU有能力运行,系统就能安排所请求的工作。应用程序还可以让系统管理任务间数据流的内存。这就是工作图,工作图是一个节点图,每个节点上的着色器代码都可以请求调用其他节点,而无需等待它们启动。工作图可以捕捉用户的算法意图和整体结构,而不会让开发人员过多地了解具体的硬件运行情况。异步的特性使系统可以最大限度地自由决定如何以最佳方式执行工作。有关DirectX12工作图功能的全部详细信息,请访问:https://devblogs.microsoft.com/directx/d3d12-work-graphs/...PC版:https://www.cnbeta.com.tw/articles/soft/1423400.htm手机版:https://m.cnbeta.com.tw/view/1423400.htm

封面图片

微软DirectX12“工作图”发布:让GPU自主工作,突破CPU瓶颈https://www.ithome.com/0/755/

封面图片

DirectX 12更新 允许CPU和GPU同时访问显存

DirectX12更新允许CPU和GPU同时访问显存虽然暂时还没有完全清楚新功能的特性,但是性能优势是比较明显的。现在的电子游戏对内存和显存的消耗越来越大,CPU和GPU之间需要传输的数据也越来越多。有了这个功能以后,就能降低游戏时CPU和内存的占用率,CPU不再需要在系统内存和显存上保存数据副本来进行交互。另一个好处是,现在的显存都非常快,如果把数据单独留在显存上或许还能减少延迟。事实上,在配备高速显存的高端显卡上,随着CPU访问时间的增加,延迟可能会有更明显的改善。玩家现在唯一需要做的,就是打开Resizable-Bar或者SmartAccessMemory,为新功能开启大门。对于开发者而言,目前英伟达和英特尔的显卡驱动程序都已支持该功能,前者是GeForceGameReady531.41WHQL或更新的驱动,后者是IntelGraphicsDriver31.0.101.4255或更新的驱动。由于新功能才刚刚推出,玩家不要期待很快会有游戏支持,开发人员还需要花费时间了解清楚,并确认使用后是否会得到显著的性能提升,值得游戏去提供支持。...PC版:https://www.cnbeta.com.tw/articles/soft/1352379.htm手机版:https://m.cnbeta.com.tw/view/1352379.htm

封面图片

Google:引领AI推理工作量的是CPU而非GPU

Google:引领AI推理工作量的是CPU而非GPU人工智能的生命周期分为两个部分:训练和推理。在训练过程中,需要大量的计算能力和巨大的内存容量,以便将不断扩大的人工智能模型装入内存。最新的模型,如GPT-4和Gemini,包含数十亿个参数,需要数千个GPU或其他加速器并行工作,才能高效地进行训练。另一方面,推理所需的计算强度较低,但仍能从加速中获益。在推理过程中,会对预先训练好的模型进行优化和部署,以便对新数据进行预测。虽然推理所需的计算量比训练少,但延迟和吞吐量对实时推理至关重要。Google发现,虽然GPU是训练阶段的理想选择,但模型通常在CPU上进行优化和推理。这意味着,有些客户出于各种原因选择CPU作为人工智能推理的媒介。这可能是成本和可用性的问题。与高端GPU或专门的人工智能加速器相比,CPU往往更便宜,也更容易获得。对于许多应用而言,CPU能以较低的成本提供足够的推理性能。CPU还具有灵活性。由于大多数系统已经配备了CPU,它们为较小的人工智能模型提供了便捷的部署途径。GPU通常需要专门的库和驱动程序,而基于CPU的推理可以利用现有的基础设施。这使得将人工智能集成到现有产品和工作流程中变得更加简单。延迟和吞吐量的权衡也会发挥作用。GPU擅长大规模并行推理吞吐量。但CPU通常可以为实时请求提供更低的延迟。对于需要亚秒级响应的在线推荐等应用,CPU推理可能是首选。此外,CPU对推理的优化进展迅速。在更快的时钟、更多的内核以及英特尔AVX-512和AMX等新指令的推动下,性能不断提高,仅靠CPU就能流畅运行人工智能工作负载,如果服务器配置了不止一个插槽,意味着有更多的人工智能引擎存在,服务器就能高效处理数十亿参数大小的人工智能模型,则性能尤其出色。英特尔指出,一般来说,参数不超过200亿的模型在CPU上可以正常运行,而更大的模型则必须使用专门的加速器。像GPT-4、Claude和Gemini这样的人工智能模型都是庞大的模型,参数规模可达一万亿以上。然而,它们是多模式的,也就是说,它们处理文本和视频。现实世界中的企业工作负载可能是一个人工智能模型推断公司的本地文档,以回答客户支持问题。对于这种解决方案来说,运行GPT-4这样的模型就显得多余了。相比之下,像LLAMA2或Mistral这样小得多的模型可以很好地实现类似目的,而不需要第三方API访问,只需在本地或云服务器上运行几个CPU即可。这就降低了总体拥有成本(TCO),简化了人工智能管道。...PC版:https://www.cnbeta.com.tw/articles/soft/1422284.htm手机版:https://m.cnbeta.com.tw/view/1422284.htm

封面图片

Arm发布G720 GPU:第五代GPU架构 节省40%带宽

Arm发布G720GPU:第五代GPU架构节省40%带宽此前的ArmGPU架构使用的还是基于贴图(tile)的渲染技术,在G720使用的第五代GPU架构使用了全新的DVS(DeferredVertexShading,延迟顶点着色)技术。DVS技术的好处就是顶点着色的过程中,在执行阶段才会载入内存中,不像之前那样需要两次载入内存,因此大幅降低了对带宽的要求。在手机等移动平台的图形渲染中,内存带宽会消耗1/3的功耗,因此DVS技术可以大幅降低游戏功耗,提升续航,同时也提高了能效。根据Arm公布的数据,在《精灵废墟》游戏中带宽节省了41%,《原神》中节省了33%带宽,《堡垒之夜》中为26%,甚至在CAD的应用中也可以节省37%的带宽。不过DVS技术对性能的提升似乎不算夸张,峰值性能提升了15%,每瓦性能提升了15%左右。总的来说,G720的DVS架构更多地是降低了带宽需求,节省了功耗,跟CPU一样都更看重能效提升,这样倒是更符合日常使用,发热会更低,手机续航更好。另外在画质方面,Arm提及的不多,但受益于带宽节省,动态照明、景深及光追等技术也会更好,同时虚幻5引擎年底也会进入手机平台。G720系列GPU这次会分为三个级别,最高端的叫做ImmortalisG720,核心可以更多,至少10个以上,多的可达16核。往下就是Mali-G720,GPU核心数在6到9个之间,再往下就是Mali-G620,GPU核心数在5个及以下。...PC版:https://www.cnbeta.com.tw/articles/soft/1362215.htm手机版:https://m.cnbeta.com.tw/view/1362215.htm

封面图片

富士通新技术可优化人工智能和高性能计算工作负载的CPU和GPU分配

富士通新技术可优化人工智能和高性能计算工作负载的CPU和GPU分配富士通开发了两项新技术,旨在优化强大的高性能计算系统上的CPU和GPU工作负载。该公司正致力于实时分配资源,以更好地管理具有高执行效率的进程,同时优化多个程序的并行处理。富士通表示,新解决方案旨在解决生成学习和其他人工智能相关技术的爆炸性需求所导致的全球GPU短缺问题。这些优化技术包括一个"自适应GPU分配器"(AdaptiveGPUAllocator),它似乎可以检测出程序是需要在GPU加速器上执行还是在CPU上执行。分配器是作为一个独立的服务器实现的,旨在测量代码执行性能。如果程序希望在HPC系统中使用GPU,分配器服务器就会批准访问,同时检查GPU和CPU上迷你批处理作业的处理时间。如果GPU批次测试不能充分缩短处理时间,分配器就会继续在CPU上重新分配作业。不幸的是,程序需要专门编写,以便通过专用框架使用新的分配器服务器,富士通公司证实了这一点。另一种优化高性能计算工作负载的解决方案是交互式高性能计算(InteractiveHPC),富士通将其描述为世界上第一种"在高性能计算系统上实时切换多个程序执行"的技术。富士通解释说,传统的控制方法采用单播通信,将程序执行"逐个"切换到每台服务器上。交互式HPC采用广播通信方法,向HPC系统中的每个计算节点发送切换指令。富士通表示,在256节点的高性能计算环境中工作时,新方法似乎足以将进程切换时间从几秒缩短到100毫秒。富士通对新GPU分配技术的计划主要集中在AI平台"Kozuchi"上,该公司的人工智能平台旨在为客户提供测试"先进人工智能技术"的快速方法。这项HPC优化技术还将应用于富士通的40量子位量子计算机模拟器。在计算即服务的高性能计算环境中的进一步应用似乎也在考虑之中。...PC版:https://www.cnbeta.com.tw/articles/soft/1397253.htm手机版:https://m.cnbeta.com.tw/view/1397253.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人