谷歌发布 WebGPU!90 多位贡献者研发 6 年

谷歌发布 WebGPU!90 多位贡献者研发 6 年 经过六年的开发,谷歌 Chrome 团队正式发布 WebGPU,用于在网络上进行高性能 3D 图形与数据并行计算。WebGPU 现已在 Chrome 113 Beta 中默认启用。 WebGPU 是一种新型 Web 图形 API,浏览器可以借助 webGPU 直接允许网页访问电脑的显卡,具有显著减少同等图形规模下 JavaScript 工作量、将机器学习模型的推理效率提升 3 倍以上等优势。之所以能实现这样的飞跃,要归功于其令 WebGL 无法实现的灵活 GPU 编程和高级功能访问能力。 WebGPU VSWebGL 性能对比 题图这个场景中有 1000 棵树,它们不是使用实例化绘制的,而是每一棵树都有一个 draw call,所以一个场景要有 1000 多个 draw call。如果使用 WebGL 进行绘制的话,可以看到,使用 2070 显卡只能跑到 21FPS,而且每一帧的 CPU 时间需要 44 毫秒,但是同样用 WebGPU 来处理,可以跑到 123 帧,每一帧的 CPU 时间只有 0.1 毫秒,这个是 WebGPU 和 WebGL 最大最显著的性能上的差距。来源 , 来自:雷锋 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

相关推荐

封面图片

谷歌正式发布WebGPU:90多位贡献者研发6年,浏览器终于可以利用底层硬件了 #抽屉IT

封面图片

内部人士称最新泄露的PS5 Pro规格属实 索尼仍将发布日锁定在2024年假期

内部人士称最新泄露的PS5 Pro规格属实 索尼仍将发布日锁定在2024年假期 更大的 GPU 和更快的内存,使光栅化渲染性能提高了 45%;大规模改进的光线追踪架构,速度应是普通 PS5 的 2-3 倍,峰值可达 4 倍;定制机器学习架构,支持 8 位 300 TOPS(每秒万亿次运算);建立 ML 架构是为了实现所谓的 PlayStation 光谱超分辨率(PSSR)升级技术。泄露的文件将其描述为索尼基于 PlayStation 机器学习(PSML)算法的多帧超分辨率版本。根据泄露的信息,PSSR 目前最高支持 4K,但计划增加 8K 支持;PSSR 是时域抗锯齿升频(TAAU)的 ML 增强版本,所需的输入与英伟达 DLSS 或 AMD FSR 相似,并完全支持高动态范围(HDR)管线。此外,与最新版本的 DLSS 一样,PSS 也不需要按游戏进行训练。该文件还称,PSSR 仅需占用 PS5 Pro 的 250MB 内存,目前从全高清升至 4K 的渲染成本为 2 毫秒,但优化工作仍在进行中;该文件还包括与 TAAU 和 AMD FSR 2 的图像对比,据称显示 PSSR 的图像质量更优。从这些 PS5 Pro 信息中可以看出,虽然 AMD 最近透露将在今年发布自己的基于人工智能的升频技术,但索尼似乎决定在这一领域做自己的事情。亨德森在报告中说,PS5 Pro 开发包早在 2023 年 9 月就与第一方 PlayStation 工作室共享了,而第三方开发者则是在 2024 年 1 月拿到的。今年春季,索尼将发布与最终硬件完全相同的开发包。不过,玩家何时才能买到这款游戏机呢?据说索尼仍将 2024 年的假日作为发售窗口,但由于今年的日历上没有任何第一方游戏,这一目标可能会改变。不过,即使推迟发售,索尼也希望 PS5 Pro 能在2025 年《GTA VI》发售时上市。 ... PC版: 手机版:

封面图片

高通公布骁龙X GPU架构细节:性能超67%、功耗低62%

高通公布骁龙X GPU架构细节:性能超67%、功耗低62% Adreno X1是专门针对Windows PC设计的,图形接口完整支持DirectX 12.1(Shader Model 6.7/DirectML)、DirectX 11、Vulkan 1.3、OpenCL 3.0,都有原生驱动支持。FP32单精度浮点性能最高4.6TFlops(每秒4.6万亿次计算),像素填充率最高72Gp/s(每秒720亿次)。如此详细的架构图对于高通GPU来说似乎还是第一次,可以看到分为6个着色处理器(SP),整体共计1536个FP32 ALU,可以通俗地表达为1536个核心,最高频率1.5GHz。粗暴地按照核心数计算,这相当于GTX 1660 Ti,或者说三个Arc A770,或者说四分之三个RX 7600。渲染前端模块支持每时钟周期2个三角形和光栅化处理、双向LRZ(地分辨率深度测试)、基于图像的可变着色率(VSR Tie2)。还有专门用于分箱(binning)的前端模块,与渲染同步运行。6个SP对应6个渲染后端,每时钟周期最多48个像素、96个fragment(用于MSAA抗锯齿)。另外还有GMU,也就是GPU管理单元,完整支持虚拟化(最多8个虚拟机),还有电源管理的作用。细看SP部分,也就是SIMD着色处理器,属于核心执行模块,分为两个uSPTP(微型着色与纹理流水线)。整个SP,分布着256个FP32 ALU(单精度浮点算术逻辑单元),支持FP32/16、INT32/16、BF16数据类型,支持DP4ACC指令(四路INT8点积),以及512个FP16 ALU(半精度浮点算术逻辑单元),支持FP16、INT16、BF16数据类型。此外,还有32个32位EFU(基本功能单元)、384KB GPR(通用寄存器)、指令缓存、本地缓冲、载入/存储单元、纹理流水线和纹理缓存、GMEM单元,等等。GPU内还集成了384KB集群缓存(每两个SP共享128KB)、1MB一体化二级缓存、6MB系统级缓存(即三级缓存),还有一些其他较小的缓存,用于着色器指令、本地纹理数据等。GMEM是个特殊功能单元,也就是高带宽的本地GPU显存,容量3MB,带宽达2TB/s,与系统内存完全异步。而且,它不仅仅是缓存,还可以全部或部分灵活地用于色彩与景深缓存、通用本地内存,无论是图形渲染还是通用计算都可以使用。它可以让GPU大大减少对系统内存的依赖,降低对延迟和带宽的需求,还有着超高的性能与能效。FlexRender弹性渲染技术也值得一提,可以由驱动控制,针对每一个不同的表面动态切换不同的渲染模式,提升性能的同时尽可能降低功耗。具体分为三种模式:一是Direct Mode,PC标准渲染方式,兼容性最好。二是Binned Mode,将每一帧画面切分为不同的区块(Tile),每一个都都会进入GMEM,可尽可能减少数据移动,提高能效。三是Bined Direct Mode,前述两种方式的混合。软件方面,高通承诺每月升级GPU驱动,Adreno控制面板可调节性能和各项功能,而在兼容性方面已经是数百款流行的Windows应用,已测试的游戏均可查询,还有丰富的开发工具。高通声称,Adreno X1对比酷睿Ultra的锐炫核显,同等功耗下性能领先最多67%,同等行下功耗低最多62%!对比锐龙9 7040系列中的Radeon 780M更是性能、能效都遥遥领先。在流行的3A游戏中,官方列出了9款,都基本持平或者优于Intel锐炫核显,优势项目包括《地平线:零之曙光》、《火箭联盟》等。 ... PC版: 手机版:

封面图片

英特尔Xe2 GPU正式发布:性能提升 50% 包含全新光线追踪内核

英特尔Xe2 GPU正式发布:性能提升 50% 包含全新光线追踪内核 英特尔 Xe2 正式发布,并将应用于 Lunar Lake CPU 和代号为"Battlemage"的下一代 Arc 独立显卡阵容。英特尔 Xe2 的部分目标是提高利用率、改善工作分配和减少软件开销。Xe2 是一项从头开始的设计,修复了 Xe"Alchemist"GPU 存在的几个主要问题。一开始,英特尔就用一张 IP 性能效率图向观众展示了高达 12.5 倍的显著收益,让人惊叹不已。我们将深入介绍 Xe2 是什么,以及英特尔是如何实现这些收益的。英特尔表示,Xe2 架构与 Xe 架构一样,具有高度的可扩展性,这将促使其集成到 Lunar Lake 等低功耗移动 SoC 中,并集成到稍后推出的具有独立选项的高端 Arc 显卡中。第二代 Xe 内核或 Xe2 配备了多种计算资源,这些资源被重新划分为本地 SIMD16 引擎,以提高效率。Xe2 核心功能8 个 512 位矢量引擎8 个 2048 位 XMX 引擎支持 64b 原子运算192KB 共享 L1$/SLM矢量引擎也已更新,其中包括:SIMD16 本地 ALU -支持 SIMD16 和 SIMD32 操作Xe 矩阵扩展(支持 INT2、INT4、INT8、FP16、BF16)扩展数学和 FP64 -常数:正弦、余弦、对数、指数3 向共同发行 -FP + INT/EM + XMXAlchemist"Xe"GPU 上也有 Xe 矩阵引擎或 XMX 单元,但现在的变化是,它们支持更多数据类型,运行速度更快,FP16 额定频率为 2048 OPS/时钟,INT8 额定频率为 4096 OPS/时钟。让我们来看看这些新引擎是如何在 Xe2 渲染片段(Xe2 GPU 的基本模块)中堆叠的。这些渲染片可根据需要进行堆叠和扩展,并经过优化,以减少延迟、消除停滞并改善硬件/软件握手。这些渲染片连接到命令前端,该命令前端本机支持间接执行。渲染片还包括一个新的几何引擎,具有 3 倍的顶点获取吞吐量和 3 倍的网格着色性能(具有顶点重用功能);新的 L1$/SLM 缓存,用于顺序外采样(具有压缩纹理);2 倍的无过滤采样吞吐量和可编程偏移;一个新的 HiZ 单元,缓存增加了 50%,并支持对小型基元进行早期 HiZ 剔除。最后,还有两个新的像素后端(Pixel Backends),可提供两倍的混合吞吐量,像素颜色缓存增加了 33%,并可将目标预取渲染至 L2$。Xe2 的最新光线跟踪单元在 Xe1 的基础上进行了改进。Xe2 内核的一个主要部分是 RTU(光线跟踪单元),它具有 3 条遍历管道、18 个方框交叉点(每个方框交叉点 6 个,每个 RTU 3 个方框)和 2 个三角形交叉点。以上就是英特尔 Xe2 GPU 架构的基本概述:第 2 代 Xe2 内核增强型矢量引擎深度缓存新型 XMX 发动机性能和效率 - 优化前端本机硬件支持 exectue 间接命令更大的光线跟踪装置总体而言,英特尔的 Xe2 GPU 架构旨在与游戏更加兼容,并实现更高的利用率。新的执行间接块被游戏用来加速绘制调用,由于它被虚幻引擎等引擎大量使用,因此获得 12.5 倍的提升对游戏玩家来说是个好兆头。第一款采用 Xe2 GPU 的产品是集成配置的 Lunar Lake。Lunar Lake 中的多个区块都与 GPU 有关,如媒体引擎和显示引擎。在谈这些之前,我们先来谈谈 Lunar Lake 的 Xe2 配置:8 个 Xe2 内核64 个矢量引擎2 几何管道8 个采样器4 个像素后端8 个光线追踪单元8 MB L2$Lunar Lake Xe2 GPU 有 8 个 Xe2 内核,每个 Xe2 内核有 8 个 XMX 和 8 个矢量单元、一个负载/存储单元、一个线程排序单元和一个专用的 L1/L$ 缓存。这 4 个 Xe2 内核中的每一个都能生成一个渲染片。那么,与 Meteor Lake 的 Xe GPU 相比,这一切的性能表现如何呢?英特尔表示,Xe2 GPU 在 ISO 下的性能提高了 50%,在性能不变的情况下,功耗大幅降低。XMX 块也是一个重要部分,它涌入了 67 个峰值 INT8 TOPS,为 Lunar Lake CPU 的整体 AI 能力锦上添花。该芯片总共提供 120 个平台 TOPS,其中 48 个 TOPS 来自 NPU4,5 个 TOPS 来自 CPU 本身。月球湖的 Xe 显示引擎现在,我们从 GPU 转向 Lunar Lake CPU 本身的其他模块,首先是显示引擎。显示引擎配备 3 个显示管道,最高支持 8K60 HDR,最高支持 3x 4K60 HDR,最高支持 1080p360 或 1440p360。显示引擎支持 HDMI 2.1、DisplayPort 2.1 和新的 eDP 1.5 功能。显示引擎的前端包括解码/解密和流缓冲区。在像素处理流水线方面,每个流水线有 6 个平面,支持色彩转换和合成的硬件,同时具有灵活性和高能效。此外,还有一个额外的低功耗优化流水线,带有面板重放功能(空闲帧期间的功率门控)和一个带有 LACE(本地自适应对比度增强)功能的全新亮度传感器。在压缩和编码方面,显示流压缩引擎支持 31 种视觉无损压缩和传输编码(HDMI 和 DisplayPort 协议的流编码)。路由器和端口包括流组装和端口路由,最多支持 4 个端口,增加了灵活性。回到带有面板重放功能的 eDP(eDisplayPort)1.5,它被称为面板自刷新的进化版,具有早期传输和自适应同步支持的选择性更新。新的显示功能可减少抖动,改善播放效果,同时提供更高的能效。用于 Lunar Lake 的 Xe 媒体引擎支持 VVC、侧缓存和更好的编码Lunar Lake SOC 与 Xe2 GPU 连接的最后一个区块是媒体引擎,它现在拥有自己专用的 8 MB 共享侧缓存。芯片的其他部分可以使用这个新缓存,但没有必要,因为其他内核本身就有专用缓存。这种侧缓存可为 Lunar Lake 节省大量带宽,因为跨媒体工作负载的系统内存流量减少了。这也大大降低了编码工作负载的功耗。媒体引擎支持最高达 8k60 10 位 HDR 解码、高达 8k60 10 位 HDR 编码、AVC、VP9、H.265 HEVC、AV1 和全新的 VVC 引擎。VVC 引擎大大降低了比特率,同时提供与 AV1 相同的质量(文件大小最多减少 10%)。它还支持自适应分辨率流和屏幕内容编码。最后,我们的 Windows GPU 软件栈已经为 Xe2 GPU 做好了准备。英特尔表示,它花了大量时间调整 Alchemist"Xe"GPU 的 API 级性能,尤其是 DX9,但所有这些软件工作都将转移到 Xe2,并支持所有最新的 API 和框架及其运行时。Xe2 是一种全新的图形架构,它为 Lunar Lake 等集成解决方案和即将推出的 Arc Battlemage 系列的独立选项带来了巨大的性能提升和最新的功能集。公司将在今年晚些时候分享更多有关 Battlemage 独立产品的信息。 ... PC版: 手机版:

封面图片

索尼PS5 Pro是真实存在的 开发人员正为此做好准备

索尼PS5 Pro是真实存在的 开发人员正为此做好准备 代号为 Trinity 的 PlayStation 5 Pro 机型将配备更强大的 GPU 和稍快的 CPU。索尼的所有变化都表明,PS5 Pro 在启用光线追踪或在某些游戏中达到更高分辨率和帧率时,渲染游戏的能力将大大增强。索尼似乎在鼓励开发者在 PS5 Pro 上更多地使用光线追踪等图形功能,如果游戏"提供显著增强",就可以使用"Trinity Enhanced"(PS5 Pro 增强)标签。根据即将推出的游戏机的概述文件,索尼预计 PS5 Pro 的 GPU 渲染将"比标准版 PlayStation 5 快约 45%"。PS5 Pro 的 GPU 将更大,并使用更快的系统内存,以帮助改进游戏中的光线追踪。索尼还在 PS5 Pro 中使用了"更强大的光线追踪架构",其速度是普通 PS5 的三倍。一份文件中写道:"Trinity 是 PlayStation 5 的高端版本,"索尼表示,在这款新机型推出后,它将继续销售标准版 PS5。索尼希望游戏开发商能有一个同时支持 PS5 和 PS5 Pro 游戏机的单一软件包,现有游戏可以通过打补丁获得更高的性能。据了解,开发者现在就可以订购测试工具包,索尼希望 8 月份提交认证的每款游戏都能与 PS5 Pro 兼容。Insider Gaming最先报道了 PS5 Pro 的完整规格,并表示该游戏机将于 2024 年假期期间发布。索尼在改进 PS5 Pro 的 GPU 方面的同时,CPU 将与标准版 PS5 相同,但采用了新的模式,使其主频更高。索尼在给开发者的一份文件中介绍说:Trinity 有一个以 3.85GHz CPU 频率为目标的模式。这比普通 PS5 高出约 10%。索尼将为开发者提供 3.5GHz 的"标准模式"和 3.85GHz 的"高 CPU 频率模式"两种选择。标准模式的运行方式与普通 PS5 无异,CPU 会被分配一定的功率如果功率条件允许,CPU 会以 3.5GHz 的频率运行;如果 PS5 执行"功率密集型操作",CPU 则会以更低的频率运行。索尼表示,这种较低频率的情况很少见,CPU 端未使用的电能会被输送到 GPU。在 PS5 Pro 的这种新的高 CPU 频率模式下,更多的功率分配给了 CPU,这意味着 GPU 的功率略有降低。索尼表示,在该模式下,GPU 的频率降低了约 1.5%,导致"性能降低约 1%"。PS5 Pro 的系统内存也将为开发者带来一些变化。标准 PS5 内存的运行速度为 448GB/s,但索尼将在 PS5 Pro 上把这一速度提高 28%,达到 576GB/s。索尼表示,由于 PS5 Pro 的内存系统效率更高,"带宽提升可能会超过 28%"。开发人员还可以获得更多的系统内存。在 PS5 Pro 上,游戏可以使用额外的 1.2GB 系统内存,因此总体内存为 13.7GB,而基本版 PS5 分配给游戏的内存为 12.5GB。内存速度和分配的增加对索尼新的 PlayStation 光谱超分辨率(PSSR)支持"可能有用"。这基本上是索尼对 NVIDIA 的 DLSS 或 AMD 的 FSR 的升级,以提高 PlayStation 的帧速率和图像质量。索尼在 PS5 Pro 上构建了"机器学习定制架构",支持 300TOPS 的 8 位计算。这种新架构支持索尼定制的 PSSR 插帧解决方案,旨在取代游戏现有的时间抗锯齿或升采样实现。索尼公司指出,"这与 DLSS 或 FSR 非常相似",并包括完全的 HDR 支持。这种支持需要大约 250MB 的内存,这就是为什么 PS5 Pro 的内存分配在这方面会有所帮助。索尼表示,将 1080p 图像升频到 4K 会有大约 2 毫秒的延迟,公司正在努力支持分辨率高达 8K,甚至在未来改善延迟。如果开发商能及时准备好他们的游戏,我完全有望在这个假期看到 PS5 Pro 的发布。索尼似乎在沿用 PS4 的玩法,先推出PS5"瘦身版",然后再推出 Pro 版。我期待在 PS5 Pro 发布时能看到一个"增强型"的现有游戏库,并且随着时间的推移,新的第一方游戏也会陆续推出,并为这款新主机提供更好的光线追踪支持。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人