【讨厌马赛克?Google 表示你可以修复它了】Google的 AI 团队提到了一个新的图片算法,并展现了其最新的研究成果,从效

【讨厌马赛克?Google 表示你可以修复它了】Google的 AI 团队提到了一个新的图片算法,并展现了其最新的研究成果,从效果来看十分震撼通过两种不同的算法,能将 64 X 64 像素的照片还原成 1024 X 1024 像素分辨率,并且细节效果非常逼真。 #抽屉IT

相关推荐

封面图片

未发布的 Moto G64 5G 出现在 Google Play Console上

未发布的 Moto G64 5G 出现在 Google Play Console上 摩托罗拉 Moto G64 5G 最近在Google Play Console上被曝光,同时还公布了一些基本细节。它内置联发科 Dimensity 7020 芯片组,这是一款来自 2023 年的 5G 6nm 芯片,本质上是 Dimensity 930 的换代产品,拥有两个主频高达 2.2 GHz 的 Cortex-A78 内核和六个主频高达 2.0 GHz 的 Cortex-A55 内核,以及一个 IMG BXM-8-256 GPU。Google Play 控制台列出了 Moto G64y 的两个版本一个配备 8GB 内存,一个是 12GB。我们不知道显示屏的对角线尺寸,但我们知道其 FullHD+ 分辨率为 1080 x 2400 像素,像素密度为 400 ppi。从附带的设备图片中,我们还可以看到显示屏上有一个自拍打孔。音量键和电源键似乎也位于手机的右侧。值得注意的是,几天前,Google Play 控制台也发现了一款据称规格完全相同的 Moto G64y 5G,但现在已不在该列表中。也许是为了反映该设备的新名称而对列表进行了编辑。我们还不知道这款新机型与去年的Moto G54 有何不同,后者似乎非常相似。 ... PC版: 手机版:

封面图片

破解ChatGPT惊人耗电 DeepMind新算法训练提效13倍,能耗暴降10倍

破解ChatGPT惊人耗电 DeepMind新算法训练提效13倍,能耗暴降10倍 随着AI计算需求的膨胀,还需要用水来冷却计算系统。研究称,微软用水量从2021年到22年飙升了34%,ChatGPT每处理5-50个提示就会消耗接近半升水。针对这种现状,我们有更好的解决策略吗?最近,GoogleDeepMind研究团队提出了一种加快AI训练的新方法多模态对比学习与联合示例选择(JEST),大大减少了所需的计算资源和时间。JEST以13倍更少的迭代次数,以及10倍更少的计算量,超越了最先进的模型!预训练的参考模型,已经学习了什么样的数据是有“优质的”或“有用的”。然后通过模型,来引导数据选择那些精心筛选过的小型数据集。这一发现揭示了,数据筛选水平可以作为评判Scaling Law的一个新维度。网友激动表示,“我没想到这么快就会发生。模型能够自主选择训练数据的能力是巨大的,因为它使训练变得显著更容易,你不再需要猜测什么是高质量的训练数据,你有一个能够『理解』什么样的数据对自身学习最有价值的模型”。前Google、苹果软件工程师称赞道,这项研究非常令人印象深刻。从“超级batch”中筛选数据无论是语言、视觉还是多模态模型,数据质量是预训练性能的重要驱动因素。比如Phi-3、Gemma 2等模型的成功让我们看到了,更少、更高质量的数据有可能实现更强大的性能。要筛选出高质量的数据,数据管道的建立就成为重要的工作。现有的方法大体可以分为两种:1)手动管理 2)基于模型的数据管理,用正在训练模型的特征选择高质量数据。前者成本高昂且难以扩展,后者则有望为多模态LLM实现Scaling Law。然而,现有方法忽略了一个事实。如果仅在单个数据点的层面进行筛选,就没有考虑到数据集以及batch的总体组成。毕竟,训练数据是以batch为单位,数据点之间的依赖性不可忽视。许多计算机视觉的研究都曾表明,hard negatives(表达空间中相近但标签不同的样本)相比可被平凡解的数据簇,能提供更有效的学习信号。那么如何让模型以batch为单位筛选数据呢?论文提出的JEST算法正是要解决这个问题,原理很好理解:就是直接从“超级batch”中筛选出“子batch”。技术介绍用数学语言来描述这个问题,就是从大小为B的“超级batch”中提取出与学习最相关的子batch ℬ={,∈[1,…,]}⊂,过滤比率可以写作=1−/。之前的优先采样(prioritized sampling)会使用基于模型的评分函数对每个数据点打分,再按比例采样。JEST则直接对整个子batch评分,再按照batch级别的分数采样。一种最直观的启发式方法就是在现有模型参数 : hard⁢(ℬ|)=ℓ⁢(ℬ|) 中,直接选择损失值最高的batch,这种方法可被称之为“硬学习”(hard learner)。这种方法具有丢弃琐碎数据的理想属性,已被证明适用于小型、干净的数据集;然而对于较大、较少管理的数据集往往弊大于利,因为它依旧会采样到噪声数据。另一种方法常用于多模态,使用具有参数 ∗:^easy⁢(ℬ|∗)=−ℓ⁢(ℬ|∗) 的参考模型为预训练模型采样数据。但作者依旧否定了这个方案,因为它无法直接反映模型当前的状态,可能过度依赖参考模型的选择,而且不易于扩展。最后,论文选择借鉴ICML 2022年的一篇论文中提到的方法,将上述两方面的评分结合起来:^learn⁢(ℬ|,∗)=hard⁢(ℬ|)+^easy⁢(ℬ|∗)=ℓ⁢(ℬ|)−ℓ⁢(ℬ|∗),并将这种启发式方法称为“可学习性评分”(learnability score)。其中,batch上的损失值ℓ⁢(ℬ|)是各数据点之和,使用sigmoid对比损失函数计算(sigmoid-contrastive loss),因为相比softmax对比损失而言,它的扩展性更强。由于batch上的对比损失可以分解为每个样本的条件损失之和,因此可学习性评分可被分解为单个样本可学习性评分⁢(|,∗,ℬ)之和,写作:使用的顺序采样方法则受到了block Gibbs采样的启发。在第n次迭代、对第B_n个batch进行采样时,依据如下概率公式对块{X_k}进行无替换采样:将X_k块添加到B_n中来更新当前采样的batch,直至迭代数n=N时终止。算法的总体流程如下图所示:实验中发现,使用迭代数N=16且每次迭代时独立采样b/N=2048个样本时,就足以恢复出学习性非常高的batch。可学习性评分中涉及到使用参考模型为数据点打分,之前的方法惯常使用额外的小型模型,但这会增加每次迭代的计算成本,降低总体FLOP效率增益。因此论文使用了在线模型近似的方法以及效率较高的FlexiViT架构,只使用降低分辨率的32×32的patch来评估“超级batch”,与全分辨率、patch大小为16×16的方法相比减少了72%的FLOP,以及67%的挂钟时间(wall-clock time)。此外,论文还提出了进行多分辨率训练的技巧。将每个batch随机分成两半,使用不同分辨率编码后再拼接起来,提升了评分过程和训练的效率。下图详细描述了全分辨率JEST和多分辨率Flexi-JEST方法的伪代码实现。所有JEST实验都在WebLI数据集上运行,包含经过宽松过滤的十亿规模的英语图像-文本对,参考模型的训练则使用其中经过高质量过滤100M大小的子集(被称为WebLI-curated)。在WebLI的基础上,作者还额外从网络上抓取了6亿个文本-图像对并经过同样强度的过滤,组成WebLI-curated++数据集训练参考模型,拓展出JEST++/FlexiJEST++方法,来探索对数据管理的扩展。论文所报告的平均性能包括4个多模态规范基准:ImageNet 0-Shot和10-Shot 分类以及COCO图像到文本和文本到图像的top-1检索。实验结果图1中可以看到,使用JEST或FlexiJEST方法的最明显优势就是效率提升。左图中,相比原有的SigLIP基线模型,JEST++可以在训练数据量减少13.1×的情况下达到相同准确率。即使考虑到额外引入的打分成本,也有近10×的FLOP效率提升(中图)。右图展现了JEST++/FlexiJEST++(绿色)与先前方法(灰色)的比较,相比CLIP、EVA-CLIP经典模型实现了计算成本和性能的双重提升。左图和中图的平均准确率由8个下游任务得出,右图性能由ImageNet和COCO基准测试得出产生可学习batch研究人员首先评估了JEST在选择可学习batch方面的效果。为了直观地理解这一方法,作者们先将可学习性矩阵进行可视化,即学习模型和参考模型之间,对batch中所有示例对的损失差异。JEST就是按照示例子矩阵的可学习性总和比例进行采样。由于矩阵明显非对角关系(图2,左),独立选择显然是次优的。经过少量迭代(对应于用N=16个块填充batch),作者发现子batch的可学习性快速增加,达到了需要数千次迭代的暴力吉布斯采样(Gibbs sampling )所提取batch的可学习性(图2,中)。对于0.5、0.8和0.9的过滤比例,他们从大小分别为65,536、163,840和327,680的超级batch中选择32,768个示例的子batch。在图2右侧,研究者还发现子batch的可学习性随着更大的过滤比例而增加。总之,JEST算法是在训练过程中选择高度可学习batch的有效,且高效的方法。加速多模态学习接下来,研究人员使用JEST算法选择的可学习batch,检验训练模型的效果。所有实验都使用在WebLI-curated上训练的参考模型,这是一个ViT-B/16和Bert-B图像-文本双编码器,30亿训练样本,采用sigmoid对比损失函数。图3(左)显示了在训练过程中多个下游任务(ImageNet 0-Shot/10-Shot准确率和COCO图像到文本/文本到图像检索)的平均性能。结果还发现,JEST显著加速了学习过程。在使用50%、80%和90%的过滤比例时,分别只需20亿、10亿和6.7亿训练样本就达到了30亿均匀基准的最终性能。在更大的过滤比例下,坐着观察到类似于更大batch size时的训练不稳定性,需要修改Adam优化器(β2 = 0.95)以稳定训练,这表明JEST的数据筛选可以被视为增加了有效batch ... PC版: 手机版:

封面图片

Midjourney危险了!Stable Diffusion最强模型SDXL已上线(含保姆级体验教程)!

Midjourney危险了!Stable Diffusion最强模型SDXL已上线(含保姆级体验教程)! 看到没多少人写sdxl,这里我就给想尝鲜的朋友,写一个如何快速体验SDXL效果的教程。 免下载模型,sdxl体验步骤: 1、sd为什么会搞出sdxl? 这次,SD看着营收上亿的Mj,终于坐不住了。 它发布了全新模型SDXL 1.0,号称是“迄今为止最牛逼的图像生成大模型”。 那你肯定好奇,为什么会搞出这样一个产品? 很简单,SD看到Mj赚了几个亿坐不住了。 我要是sd,我现在大腿都要拍肿了。 人家mj十几个人居然搞出来了上亿美元的收入,你sd那么多的人还在亏损??? 这不对标mj搞出个史诗级的新模型,你家投资人都坐不住了。 毕竟,搞研究是要花钱的,这次的sdxl很显然就是冲着后续抢用户+收费来的。 2、SDXL体验+测评效果总结 根据我的经验,SDXL是一个过渡期的产品,想要尝鲜的朋友一定不要错过。 首先要给第一次接触的朋友讲一下,作为一个拥有35亿参数基础模型和66亿参数模型的生物。 这个SDXL到底比之前几个版本的sd牛逼在哪里? (1)对撰写提示词的要求大大降低。 除了提示词更加精简之外,它的效果主要是体现在不需要质量提升词和负面提示词上。 你不需要输入masterpiece这些常见的品质优化词,就可以实现非常棒的画面效果。 同样的,你也不必像之前那样输入大量的负面提示词,来控制ai对画面的生成。 比如最常见的手部结构出问题,是大家能识别ai的好方法,而现在ai更加能够生成无缺陷的手部结构了。 (2)加强了对自然语言的理解能力。 这个其实也是为了解决目前撰写提示词上的痛点,比如目前ai绘画的提示词都是一个个用逗号连接起来的词条。 而到了SDXL这个版本,即使你输入一连串的自然对话,它也可以理解了。 也就是说,写提示词这件事儿,真的会越来越简单了。 (3)支持更大尺寸的照片,分辨率高很多。 比如你可以直接生成1024x1024大小的图片了。 之前你想直接出这类高清图片其实需要使用高清修复或者其他方法才能达到。 (4)ai终于会写字了。 SDXL已经能识别和生成文字了。

封面图片

CMF Watch Pro 2 和 Buds Pro 2 发布

CMF Watch Pro 2 和 Buds Pro 2 发布 CMF Watch Pro 2 采用圆形 1.32 英寸 AMOLED 显示屏,分辨率为 466 x 466px,刷新率为 60Hz。显示屏的峰值亮度为 620 尼特,具有 100 多种表盘选项。Nothing 还为 Watch Pro 2 推出了可互换的曲面和平面表圈,结合 22 毫米表带选项,表主可以根据自己的风格更换外观。这款手表配有铝合金表壳和中框以及用于导航 UI 的表冠元素。今年的新功能是可自定义的小部件屏幕,只需从主屏幕轻扫即可。您还可以在 CMF Watch 应用中自定义自己的小部件。Watch Pro 2 使用更新的睡眠检测算法跟踪健康读数组合,包括心率、血氧饱和度、压力和睡眠跟踪。用户还可以获得超过 120 种运动模式,包括专用的 Cywee 算法、间歇训练、个人心率区和热身运动。板载 GPS 接收器可确保您的步行、跑步和远足活动得到跟踪。您可以使用 Strava、Apple Health 和 Google Health Connect 导出您的锻炼数据。用户还可以在手表上拨打电话、控制媒体播放和接收通知。它的防尘防水等级为 IP68,配备 305mAh 电池,额定正常使用时间为 11 天,重度使用时间为 9 天。CMF Watch Pro 2 有黑色、橙色和浅蓝色可供选择。起价为 69 美元/69 欧元/69 英镑/4,999 印度卢比,将于 7 月 12 日在和亚马逊上公开销售。CMF Buds Pro 2 采用与 CMF Buds 相同的设计,但在内部进行了一些明显的升级。其中最主要的是双驱动单元,具有 11 毫米动态驱动器和 6 毫米平面高音扬声器,可提供更丰富的音质。Buds Pro 2 还支持 LDAC 编解码器,用于高比特率音频流和自适应噪音消除 (ANC),据称可消除高达 50dB 的周围噪音。另一个很酷的附加功能是,外壳上的拨盘现在是一个功能齐全的按钮,因此您可以调整音量、接听和挂断电话以及打开或关闭 ANC。每只耳机都有 3 个麦克风,并采用更新的语音拾取和风噪降低算法。此外,这款耳机还提供了空间音频效果,可带来环绕声体验。耳机及其外壳的电池续航时间在关闭 ANC 的情况下总播放时间最长可达 41 小时,在开启 ANC 的情况下则为 30 小时。CMF Buds Pro 2 有黑色、橙色、浅蓝色和蓝色(印度独有)三种颜色。起价为 59 美元/59 欧元/59 英镑/4,299和亚马逊将于 7 月 12 日公开发售。 ... PC版: 手机版:

封面图片

OpenAI王炸模型引爆科技圈 官方技术报告说了什么?

OpenAI王炸模型引爆科技圈 官方技术报告说了什么? 而在2024年开年,OpenAI就发布了王炸文生视频大模型Sora,它能够仅仅根据提示词,生成60s的连贯视频,“碾压”了行业目前大概只有平均“4s”的视频生成长度。为了方便理解,我们简单总结了这个模型的强大之处:1、文本到视频生成能力:Sora能够根据用户提供的文本描述生成长达60S的视频,这些视频不仅保持了视觉品质,而且完整准确还原了用户的提示语。2、复杂场景和角色生成能力:Sora能够生成包含多个角色、特定运动类型以及主题精确、背景细节复杂的场景。它能够创造出生动的角色表情和复杂的运镜,使得生成的视频具有高度的逼真性和叙事效果。3、语言理解能力:Sora拥有深入的语言理解能力,能够准确解释提示并生成能表达丰富情感的角色。这使得模型能够更好地理解用户的文本指令,并在生成的视频内容中忠实地反映这些指令。4、多镜头生成能力:Sora可以在单个生成的视频中创建多个镜头,同时保持角色和视觉风格的一致性。这种能力对于制作电影预告片、动画或其他需要多视角展示的内容非常有用。5、从静态图像生成视频能力:Sora不仅能够从文本生成视频,还能够从现有的静态图像开始,准确地动画化图像内容,或者扩展现有视频,填补视频中的缺失帧。6、物理世界模拟能力:Sora展示了人工智能在理解真实世界场景并与之互动的能力,这是朝着实现通用人工智能(AGI)的重要一步。它能够模拟真实物理世界的运动,如物体的移动和相互作用。可以说,Sora的出现,预示着一个全新的视觉叙事时代的到来,它能够将人们的想象力转化为生动的动态画面,将文字的魔力转化为视觉的盛宴。在这个由数据和算法编织的未来,Sora正以其独特的方式,重新定义着我们与数字世界的互动。一反常态,OpenAI在模型公布后的不久,就公布了相关的技术Paper,我们第一时间“啃”了这篇技术报告,希望能够帮助大家理解到底有哪些神奇的技术,让Sora能够有如此强大的魔力。01 以下为OpenAI文生视频模型Sora官方技术报告我们探索了利用视频数据对生成模型进行大规模训练。具体来说,我们在不同持续时间、分辨率和纵横比的视频和图像上联合训练了以文本为输入条件的扩散模型。我们引入了一种transformer架构,该架构对视频的时空序列包和图像潜在编码进行操作。我们最顶尖的模型Sora已经能够生成最长一分钟的高保真视频,这标志着我们在视频生成领域取得了重大突破。我们的研究结果表明,通过扩大视频生成模型的规模,我们有望构建出能够模拟物理世界的通用模拟器,这无疑是一条极具前景的发展道路。这份技术报告主要聚焦于两大方面:首先,我们详细介绍了一种将各类可视数据转化为统一表示的方法,从而实现了对生成式模型的大规模训练;其次,我们对Sora的能力及其局限性进行了深入的定性评估。需要注意的是,本报告并未涉及模型的具体技术细节。在过去的研究中,许多团队已经尝试使用递归网络、生成对抗网络、自回归Transformer和扩散模型等各种方法,对视频数据的生成式建模进行了深入研究。然而,这些工作通常仅限于较窄类别的视觉数据、较短的视频或固定大小的视频上。相比之下,Sora作为一款通用的视觉数据模型,其卓越之处在于能够生成跨越不同持续时间、纵横比和分辨率的视频和图像,甚至包括生成长达一分钟的高清视频。将可视数据转换成数据包(patchs)在可视数据的处理上,我们借鉴了大语言模型的成功经验。这些模型通过对互联网规模的数据进行训练,获得了强大的通用能力。同样,我们考虑如何将这种优势引入到可视数据的生成式模型中。大语言模型通过token将各种形式的文本代码、数学和自然语言统一起来,而Sora则通过视觉包(patchs)实现了类似的效果。我们发现,对于不同类型的视频和图像,包是一种高度可扩展且有效的表示方式,对于训练生成模型具有重要意义。图注:OpenAI专门设计的解码器模型,它可以将生成的潜在表示重新映射回像素空间在更高层次上,我们首先将视频压缩到一个低维度的潜在空间:这是通过对视频进行时间和空间上的压缩实现的。这个潜在空间可以看作是一个“时空包”的集合,从而将原始视频转化为这些包。视频压缩网络我们专门训练了一个网络,专门负责降低视觉数据的维度。这个网络接收原始视频作为输入,并输出经过压缩的潜在表示。Sora模型就是在这个压缩后的潜在空间中接受训练,并最终生成视频。此外,我们还设计了一个解码器模型,它可以将生成的潜在表示重新映射回像素空间,从而生成可视的视频或图像。时空包当给定一个压缩后的输入视频时,我们会从中提取出一系列的时空包,这些包被用作转换token。这一方案不仅适用于视频,因为视频本质上就是由连续帧构成的,所以图像也可以看作是单帧的视频。通过这种基于包的表示方式,Sora能够跨越不同分辨率、持续时间和纵横比的视频和图像进行训练。在推理阶段,我们只需在适当大小的网格中安排随机初始化的包,就可以控制生成视频的大小和分辨率。用于视频生成的缩放TransformersSora是一个扩散模型,它接受输入的噪声包(以及如文本提示等条件性输入信息),然后被训练去预测原始的“干净”包。重要的是,Sora是一个基于扩散的转换器模型,这种模型已经在多个领域展现了显著的扩展性,包括语言建模、计算机视觉以及图像生成等领域。在这项工作中,我们发现扩散转换器在视频生成领域同样具有巨大的潜力。我们展示了不同训练阶段下,使用相同种子和输入的视频样本对比,结果证明了随着训练量的增加,样本质量有着明显的提高。丰富的持续时间、分辨率与纵横比过去,图像和视频生成方法常常需要将视频调整大小、裁剪或修剪至标准尺寸,如4秒、256x256分辨率的视频。但Sora打破了这一常规,它直接在原始大小的数据上进行训练,从而带来了诸多优势。采样更灵活Sora具备出色的采样能力,无论是宽屏1920x1080p视频、垂直1080x1920视频,还是介于两者之间的任何视频尺寸,它都能轻松应对。这意味着Sora可以为各种设备生成与其原始纵横比完美匹配的内容。更令人惊叹的是,即使在生成全分辨率内容之前,Sora也能以较小的尺寸迅速创建内容原型。而所有这一切,都得益于使用相同的模型。图注:Sora可以为各种设备生成与其原始纵横比完美匹配的内容改进构图与框架我们的实验结果显示,在视频的原始纵横比上进行训练,能够显著提升构图和框架的质量。为了验证这一点,我们将Sora与一个将所有训练视频裁剪为方形的模型版本进行了比较。结果发现,在正方形裁剪上训练的模型有时会生成仅部分显示主题的视频。而Sora则能呈现出更加完美的帧,充分展现了其在视频生成领域的卓越性能。图注:将所有训练视频裁剪为方形的模型相比(左),Sora能呈现出更加完美的帧语言理解深化为了训练文本转视频生成系统,需要大量带有相应文本字幕的视频。为此,我们借鉴了DALL·E3中的re-captioning技术,并应用于视频领域。首先,我们训练了一个高度描述性的转译员模型,然后使用它为我们训练集中的所有视频生成文本转译。通过这种方式,我们发现对高度描述性的视频转译进行训练,可以显著提高文本保真度和视频的整体质量。与此同时,与DALL·E3类似,我们还利用GPT技术将简短的用户提示转换为更长的详细转译,并将其发送... PC版: 手机版:

封面图片

英特尔Xe2 GPU正式发布:性能提升 50% 包含全新光线追踪内核

英特尔Xe2 GPU正式发布:性能提升 50% 包含全新光线追踪内核 英特尔 Xe2 正式发布,并将应用于 Lunar Lake CPU 和代号为"Battlemage"的下一代 Arc 独立显卡阵容。英特尔 Xe2 的部分目标是提高利用率、改善工作分配和减少软件开销。Xe2 是一项从头开始的设计,修复了 Xe"Alchemist"GPU 存在的几个主要问题。一开始,英特尔就用一张 IP 性能效率图向观众展示了高达 12.5 倍的显著收益,让人惊叹不已。我们将深入介绍 Xe2 是什么,以及英特尔是如何实现这些收益的。英特尔表示,Xe2 架构与 Xe 架构一样,具有高度的可扩展性,这将促使其集成到 Lunar Lake 等低功耗移动 SoC 中,并集成到稍后推出的具有独立选项的高端 Arc 显卡中。第二代 Xe 内核或 Xe2 配备了多种计算资源,这些资源被重新划分为本地 SIMD16 引擎,以提高效率。Xe2 核心功能8 个 512 位矢量引擎8 个 2048 位 XMX 引擎支持 64b 原子运算192KB 共享 L1$/SLM矢量引擎也已更新,其中包括:SIMD16 本地 ALU -支持 SIMD16 和 SIMD32 操作Xe 矩阵扩展(支持 INT2、INT4、INT8、FP16、BF16)扩展数学和 FP64 -常数:正弦、余弦、对数、指数3 向共同发行 -FP + INT/EM + XMXAlchemist"Xe"GPU 上也有 Xe 矩阵引擎或 XMX 单元,但现在的变化是,它们支持更多数据类型,运行速度更快,FP16 额定频率为 2048 OPS/时钟,INT8 额定频率为 4096 OPS/时钟。让我们来看看这些新引擎是如何在 Xe2 渲染片段(Xe2 GPU 的基本模块)中堆叠的。这些渲染片可根据需要进行堆叠和扩展,并经过优化,以减少延迟、消除停滞并改善硬件/软件握手。这些渲染片连接到命令前端,该命令前端本机支持间接执行。渲染片还包括一个新的几何引擎,具有 3 倍的顶点获取吞吐量和 3 倍的网格着色性能(具有顶点重用功能);新的 L1$/SLM 缓存,用于顺序外采样(具有压缩纹理);2 倍的无过滤采样吞吐量和可编程偏移;一个新的 HiZ 单元,缓存增加了 50%,并支持对小型基元进行早期 HiZ 剔除。最后,还有两个新的像素后端(Pixel Backends),可提供两倍的混合吞吐量,像素颜色缓存增加了 33%,并可将目标预取渲染至 L2$。Xe2 的最新光线跟踪单元在 Xe1 的基础上进行了改进。Xe2 内核的一个主要部分是 RTU(光线跟踪单元),它具有 3 条遍历管道、18 个方框交叉点(每个方框交叉点 6 个,每个 RTU 3 个方框)和 2 个三角形交叉点。以上就是英特尔 Xe2 GPU 架构的基本概述:第 2 代 Xe2 内核增强型矢量引擎深度缓存新型 XMX 发动机性能和效率 - 优化前端本机硬件支持 exectue 间接命令更大的光线跟踪装置总体而言,英特尔的 Xe2 GPU 架构旨在与游戏更加兼容,并实现更高的利用率。新的执行间接块被游戏用来加速绘制调用,由于它被虚幻引擎等引擎大量使用,因此获得 12.5 倍的提升对游戏玩家来说是个好兆头。第一款采用 Xe2 GPU 的产品是集成配置的 Lunar Lake。Lunar Lake 中的多个区块都与 GPU 有关,如媒体引擎和显示引擎。在谈这些之前,我们先来谈谈 Lunar Lake 的 Xe2 配置:8 个 Xe2 内核64 个矢量引擎2 几何管道8 个采样器4 个像素后端8 个光线追踪单元8 MB L2$Lunar Lake Xe2 GPU 有 8 个 Xe2 内核,每个 Xe2 内核有 8 个 XMX 和 8 个矢量单元、一个负载/存储单元、一个线程排序单元和一个专用的 L1/L$ 缓存。这 4 个 Xe2 内核中的每一个都能生成一个渲染片。那么,与 Meteor Lake 的 Xe GPU 相比,这一切的性能表现如何呢?英特尔表示,Xe2 GPU 在 ISO 下的性能提高了 50%,在性能不变的情况下,功耗大幅降低。XMX 块也是一个重要部分,它涌入了 67 个峰值 INT8 TOPS,为 Lunar Lake CPU 的整体 AI 能力锦上添花。该芯片总共提供 120 个平台 TOPS,其中 48 个 TOPS 来自 NPU4,5 个 TOPS 来自 CPU 本身。月球湖的 Xe 显示引擎现在,我们从 GPU 转向 Lunar Lake CPU 本身的其他模块,首先是显示引擎。显示引擎配备 3 个显示管道,最高支持 8K60 HDR,最高支持 3x 4K60 HDR,最高支持 1080p360 或 1440p360。显示引擎支持 HDMI 2.1、DisplayPort 2.1 和新的 eDP 1.5 功能。显示引擎的前端包括解码/解密和流缓冲区。在像素处理流水线方面,每个流水线有 6 个平面,支持色彩转换和合成的硬件,同时具有灵活性和高能效。此外,还有一个额外的低功耗优化流水线,带有面板重放功能(空闲帧期间的功率门控)和一个带有 LACE(本地自适应对比度增强)功能的全新亮度传感器。在压缩和编码方面,显示流压缩引擎支持 31 种视觉无损压缩和传输编码(HDMI 和 DisplayPort 协议的流编码)。路由器和端口包括流组装和端口路由,最多支持 4 个端口,增加了灵活性。回到带有面板重放功能的 eDP(eDisplayPort)1.5,它被称为面板自刷新的进化版,具有早期传输和自适应同步支持的选择性更新。新的显示功能可减少抖动,改善播放效果,同时提供更高的能效。用于 Lunar Lake 的 Xe 媒体引擎支持 VVC、侧缓存和更好的编码Lunar Lake SOC 与 Xe2 GPU 连接的最后一个区块是媒体引擎,它现在拥有自己专用的 8 MB 共享侧缓存。芯片的其他部分可以使用这个新缓存,但没有必要,因为其他内核本身就有专用缓存。这种侧缓存可为 Lunar Lake 节省大量带宽,因为跨媒体工作负载的系统内存流量减少了。这也大大降低了编码工作负载的功耗。媒体引擎支持最高达 8k60 10 位 HDR 解码、高达 8k60 10 位 HDR 编码、AVC、VP9、H.265 HEVC、AV1 和全新的 VVC 引擎。VVC 引擎大大降低了比特率,同时提供与 AV1 相同的质量(文件大小最多减少 10%)。它还支持自适应分辨率流和屏幕内容编码。最后,我们的 Windows GPU 软件栈已经为 Xe2 GPU 做好了准备。英特尔表示,它花了大量时间调整 Alchemist"Xe"GPU 的 API 级性能,尤其是 DX9,但所有这些软件工作都将转移到 Xe2,并支持所有最新的 API 和框架及其运行时。Xe2 是一种全新的图形架构,它为 Lunar Lake 等集成解决方案和即将推出的 Arc Battlemage 系列的独立选项带来了巨大的性能提升和最新的功能集。公司将在今年晚些时候分享更多有关 Battlemage 独立产品的信息。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人