Intel XeSS 1.3发布:2倍原生性能 鬼影更少了

Intel XeSS 1.3发布:2倍原生性能 鬼影更少了 上图来自《如龙:维新!》,可以看到在旧版XeSS之下,背景中的竹帘渲染不正常,根本没法看,XeSS 1.3就没有任何问题了。XeSS 1.3还全面升级了画质/性能预设,超高质量、质量、平衡、性能的缩放比例分别从1.3x、1.5x、1.7x、2.0x提高到了1.5x、1.7x、2.0x、2.3x。同时,新版增加了三种新的预设,一是原生抗锯齿(Native Anti-Aliasing),缩放比例1.0x,也就是原生分辨率。二是超高质量加强(Ultra Quality Plus),缩放比例1.3x,相当于原来的超高质量。三是超高性能(Ultra Performance),缩放比例3.0x,也就是整整3倍分辨率。性能方面,酷睿Ultra 7 155H处理器搭配Arc A750显卡,2K分辨率,高画质,开启光追,XeSS 1.3多款游戏平均性能提升约为10%,《暗黑4》甚至达到了28%。酷睿Ultra 7 155H核显,1080p,中等画质,也能平均提升8%,《巫师3》的帧率甚至达到了原生渲染的整整2倍!《赛博朋克2077》中,超高质量加强的帧率都能略高于原生渲染,超高性能也要原生的2倍。 ... PC版: 手机版:

相关推荐

封面图片

Linux 6.9发布 带来更好的Intel Core Ultra性能表现和更大的控制台字体选项

Linux 6.9发布 带来更好的Intel Core Ultra性能表现和更大的控制台字体选项 最值得关注的是,Linux 6.9提高了英特尔酷睿 Ultra"流星湖"处理器的性能表现,为 AMD Ryzen Linux 用户合并了 AMD P-State Preferred Core 也提高了AMD处理器运行表现,与此同时还在继续为 AMD RDNA3+ / RDNA4 GPU 做准备。作为对未来一代英特尔 CPU 的重要更新,Linux 6.9合并了英特尔 FRED,现在支持在现代/4K+ 显示器上使用更大的帧缓存控制台字体,DM 虚拟数据优化器(VDO)最终被主流化等等。Linux 6.9上发布。新版的发布也意味着现在已经进入 Linux 6.10 周期,预计会有许多新功能。Linus Torvalds 现在也发布了他惯常的6.9 版本公告,有兴趣的人可以看看他的评论。 ... PC版: 手机版:

封面图片

Intel 3工艺官方深入揭秘:号称性能飙升18%

Intel 3工艺官方深入揭秘:号称性能飙升18% Intel 3作为现有Intel 4的升级版,带来了更高的晶体管密度和性能,并支持1.2V电压的超高性能应用,不但用于自家产品,还首次开放对外代工,未来多年会持续迭代。首先强调,Intel 3工艺的定位一直就是需要高性能的数据中心市场,重点升级包括改进设计的晶体管、晶体管通孔电阻更低的供电电路、与客户的联合优化等等,还支持0.6V以下的低电压、1.3V以上的高电压,以实现最大负载。为了获得性能、密度的最佳均衡,Intel还同时使用了240nm高性能库、210nm高密度库的组合Intel 4只有前者。客户如果有不同需求,还可以在三种不同的金属堆栈层数中选择:14层的成本最低,18层的性能和成本最均衡,21层的性能最高。此外,Intel 3工艺的EUV极紫外光刻运用更加娴熟,在更多生产工序中使用了EUV。最终的结果是,Intel保证新工艺可以在同等功耗、晶体管密度之下,相比Intel 4带来最多18%的提升!Intel之前还曾表示,Intel 3相比于Intel 4逻辑缩微缩小了约10%(可以理解为晶体管尺寸),每瓦性能(也就是能效)则提升了17%。不过在关键尺寸方面,Intel 3、Intel 4是基本一致的,接触孔多晶硅栅极间距(CPP)都是50nm,鳍片间距、M0间距都是30nm,另外库高度 x CPP的面积除了12K,还增加了10.5K版本,也是为了优化性能和成本平衡。Intel 3后续还会优化推出不同的版本,针对性加强某个角度:Intel 3-T:重点引入采用硅通孔(TSV)技术,针对3D堆叠进行优化。Intel 3-E:扩展更多功能,比如1.2V原生电压、深N阱、长通道模拟设备、射频等,可用于生产芯片组、存储芯片等。Intel 3-PT:在3-E的基础上,增加9微米间距的硅通孔,以及混合键合,性能再提升至少5%,使用也更简单,可用于AI、HPC芯片以及通用计算芯片。 ... PC版: 手机版:

封面图片

高通公布骁龙X GPU架构细节:性能超67%、功耗低62%

高通公布骁龙X GPU架构细节:性能超67%、功耗低62% Adreno X1是专门针对Windows PC设计的,图形接口完整支持DirectX 12.1(Shader Model 6.7/DirectML)、DirectX 11、Vulkan 1.3、OpenCL 3.0,都有原生驱动支持。FP32单精度浮点性能最高4.6TFlops(每秒4.6万亿次计算),像素填充率最高72Gp/s(每秒720亿次)。如此详细的架构图对于高通GPU来说似乎还是第一次,可以看到分为6个着色处理器(SP),整体共计1536个FP32 ALU,可以通俗地表达为1536个核心,最高频率1.5GHz。粗暴地按照核心数计算,这相当于GTX 1660 Ti,或者说三个Arc A770,或者说四分之三个RX 7600。渲染前端模块支持每时钟周期2个三角形和光栅化处理、双向LRZ(地分辨率深度测试)、基于图像的可变着色率(VSR Tie2)。还有专门用于分箱(binning)的前端模块,与渲染同步运行。6个SP对应6个渲染后端,每时钟周期最多48个像素、96个fragment(用于MSAA抗锯齿)。另外还有GMU,也就是GPU管理单元,完整支持虚拟化(最多8个虚拟机),还有电源管理的作用。细看SP部分,也就是SIMD着色处理器,属于核心执行模块,分为两个uSPTP(微型着色与纹理流水线)。整个SP,分布着256个FP32 ALU(单精度浮点算术逻辑单元),支持FP32/16、INT32/16、BF16数据类型,支持DP4ACC指令(四路INT8点积),以及512个FP16 ALU(半精度浮点算术逻辑单元),支持FP16、INT16、BF16数据类型。此外,还有32个32位EFU(基本功能单元)、384KB GPR(通用寄存器)、指令缓存、本地缓冲、载入/存储单元、纹理流水线和纹理缓存、GMEM单元,等等。GPU内还集成了384KB集群缓存(每两个SP共享128KB)、1MB一体化二级缓存、6MB系统级缓存(即三级缓存),还有一些其他较小的缓存,用于着色器指令、本地纹理数据等。GMEM是个特殊功能单元,也就是高带宽的本地GPU显存,容量3MB,带宽达2TB/s,与系统内存完全异步。而且,它不仅仅是缓存,还可以全部或部分灵活地用于色彩与景深缓存、通用本地内存,无论是图形渲染还是通用计算都可以使用。它可以让GPU大大减少对系统内存的依赖,降低对延迟和带宽的需求,还有着超高的性能与能效。FlexRender弹性渲染技术也值得一提,可以由驱动控制,针对每一个不同的表面动态切换不同的渲染模式,提升性能的同时尽可能降低功耗。具体分为三种模式:一是Direct Mode,PC标准渲染方式,兼容性最好。二是Binned Mode,将每一帧画面切分为不同的区块(Tile),每一个都都会进入GMEM,可尽可能减少数据移动,提高能效。三是Bined Direct Mode,前述两种方式的混合。软件方面,高通承诺每月升级GPU驱动,Adreno控制面板可调节性能和各项功能,而在兼容性方面已经是数百款流行的Windows应用,已测试的游戏均可查询,还有丰富的开发工具。高通声称,Adreno X1对比酷睿Ultra的锐炫核显,同等功耗下性能领先最多67%,同等行下功耗低最多62%!对比锐龙9 7040系列中的Radeon 780M更是性能、能效都遥遥领先。在流行的3A游戏中,官方列出了9款,都基本持平或者优于Intel锐炫核显,优势项目包括《地平线:零之曙光》、《火箭联盟》等。 ... PC版: 手机版:

封面图片

AMD官宣年更芯片:新款MI325X重磅发布 比H200快1.3倍

AMD官宣年更芯片:新款MI325X重磅发布 比H200快1.3倍 芯片年更,与领头羊英伟达一较高下自去年以来,英伟达向投资者明确表示,计划将发布周期缩短为每年一次,现在AMD也紧随其后,开始芯片年更。首席执行官苏姿丰(Lisa Su)表示“每年都有这样的节奏,是因为市场需要更新的产品和能力...... 我们每年都会有下一个大事件,这样我们就始终拥有最具竞争力的产品组合。”她详细介绍了该公司未来两年开发人工智能芯片的计划,以挑战行业领导者英伟达。最新的MI325X加速器将于2024年第四季度上市。即将推出的名为MI350的芯片系列,预计将于2025年上市,并将基于新的芯片架构。与现有的MI300系列人工智能芯片相比,MI350在推理方面的性能预计将提高35倍。2026年,MI400系列将会被推出,该系列将基于名为“Next”的架构。如此这般,AMD和英伟达“你方唱罢我登场”,两者之间的较量充满了刀光剑影。开发生成式人工智能程序的竞赛催生了人工智能数据中心的发展,而支撑数据中心的就是这些先进芯片。AMD一直是英伟达的竞争者,后者目前主导着利润丰厚的人工智能半导体市场,占据了约80%的份额。现在,为了追赶英伟达,AMD更加孤注一掷,“人工智能显然是我们公司的头等大事,我们确实利用了公司内部所有的开发能力来实现这一点。”先不管芯片表现如何,AMD此举也是为了吸引投资者的关注。在华尔街“铲子”交易中投入了数十亿美元的投资者一直在寻求芯片公司的长期更新,因为他们要评估生成式AI蓬勃发展的持久性,而这一趋势迄今为止还没有放缓的迹象。自2023年初以来,AMD股价已上涨一倍多。与同期英伟达股价七倍多的涨幅相比,这一涨幅仍然相形见绌。苏姿丰在4月份表示,AMD预计2024年AI芯片销售额约为40亿美元,比之前的估计增加了5亿美元。在Computex活动上,AMD还表示其最新一代中央处理器单元(CPU)可能会在2024年下半年上市。虽然企业一般会优先考虑在数据中心中使用人工智能芯片,但AMD的部分CPU也会与GPU结合使用,不过两者的比例更倾向于GPU。AMD详细介绍了其新型神经处理单元(NPU)的架构,专门用于处理AI PC中的设备端AI任务。随着个人电脑市场走出长达数年的低谷,芯片制造商们一直寄希望于人工智能功能的增强来推动个人电脑市场的增长。惠普和联想等个人电脑供应商将发布包含AMD AI PC芯片的设备。AMD还放出话来,他们的处理器已经超过了微软对Copilot+PC的硬件要求。3nm EPYC Turin,AI负载超越英特尔苏姿丰在Computex 2024的主题演讲中宣布,备受期待的第五代EPYC Turin处理器,具有192个核心和384个线程,在人工智能工作中比英特尔Xeon快5.4倍,将于2024年下半年推出。这个3nm芯片标志着AMD Zen 5架构首次应用于数据中心芯片,AMD声称它们在关键AI工作负载上的性能比英特尔当前一代的Xeon芯片快5.4倍。Turin据说有两个版本:一个使用标准的Zen 5核心,另一个使用一种称为Zen 5c的密度优化核心。苏姿丰还宣布,AMD现在已经占据了数据中心市场的33%。新的Zen 5c芯片将配备多达192个核心和384个线程,采用3nm工艺节点制造,然后与塞入单个插槽的6nm I/O Die(IOD)配对。整个芯片由17个小单元组成。最高核心数型号采用AMD的Zen 5c架构,该架构使用密度优化的核心,概念上类似于英特尔的e-cores。不过,AMD率先在数据中心的x86芯片中使用这种核心类型。配备标准全性能Zen 5核心的型号配备12 个采用N4P工艺节点的计算芯片和一个中央6纳米IOD芯片,总共13个小芯片。AMD声称,在LLM(聊天机器人)中,AMD的优势是Xeon的5.4倍,在翻译模型中是Xeon的2.5倍,在摘要工作中是Xeon的3.9倍。AMD还展示了其128核Turin模型在科学NAMD工作负载中的3.1倍优势,并现场演示了Turin每秒生成的token数量比Xeon多4倍。192核Zen 5c芯片是AMD EPYC Bergamo的后续系列,后者是业界首款具有密度优化核心的x86数据中心处理器(Zen 4c)。Bergamo的最高核心为128个。采用Zen 5架构的标准Turin型号可扩展到128个核心,每个核心面积减半但功能不变,与当前一代EPYC Genoa(最高96个核心)相比,实现了强劲的代际提升。Zen 5c Turin芯片将与英特尔的144核Sierra Forest芯片和Ampre的192核 AmpereOne处理器展开竞争,前者标志着英特尔在其Xeon数据中心阵容中首次采用效率核心(E-cores),后者则标志着Google和微软正在开发或采用定制芯片。与此同时,标准的Zen 5 EPYC处理器将迎战英特尔即将推出的Xeon 6系列。AMD还分享了一些基准测试,以突出它相对于英特尔竞争型号的优势。随着Turin 芯片越来越接近市场,我们可以期待更多的细节。Ryzen AI 300系列“Strix Point”处理器AMD揭开Ryzen AI 300系列“Strix Point”处理器的神秘面纱50 TOPS的AI性能,Zen 5c密度核心首次应用于Ryzen 9。Strix Point APU配备了XDNA 2 AI加速器,AMD表示该加速器能够实现高达50 TOPS的性能,领先于最近微软使用的高通骁龙X Elite(45 TOPS)。作为一款具有强大集成显卡的APU,游戏也是测试的一部分。AMD希望通过其集成Radeon 880M和890M GPU来确保游戏领域的领先地位。根据AMD的演示,Ryzen AI 300系列芯片平均性能比英特尔Core Ultra 185H快36%。这里的平均分数取自六款主要游戏的基准测试,包括《赛博朋克 2077》、《无主之地 3》、《F1 23》、《刺客信条幻影》、《古墓丽影:暗影》和《孤岛惊魂 6》。代号为Strix Point的全新Ryzen AI 300系列芯片,采用全新的Zen 5 CPU微架构,拥有两种核心、升级的RDNA 3.5图形引擎,当然还有AMD全新的XDNA 2引擎,可在本地运行AI工作负载。AMD的新品牌方案现在将AI直接带入了芯片名称中,这反映了公司对以AI为重点的全新XDNA 2神经处理单元(NPU)的强烈关注。XDNA 2现在可提供50 TOPS的性能,是AMD第三代AI处理器性能的5倍。这一性能水平超越了Windows PC的所有其他芯片,包括高通公司前景看好的骁龙X Elite,并轻松超过了微软对下一代AI PC的40TOPS要求,这是在本地运行Copilot的最低硬件要求。AMD在其他方面也取得了很多进步,针对轻薄型和超轻型笔记本电脑的Zen 5处理器已升级到12核,过去只能使用8个CPU核心,而新的RDNA 3.5集成图形引擎最多可使用16个计算单元,比上一代的最多12个有所增加。旗舰级Ryzen AI 9 HX 370配备了12个核心和24个线程,基本频率为2.0 GHz,峰值频率为5.1GHz。不过,从品牌宣传幻灯片中可以看到,该芯片与GPU和NPU核心一起,在单片芯片上配备了4个标准Zen 5核心和8个密度优化的Zen 5C核心。这标志着更小的Zen 4c核心首次出现在最高级别的Ryzen 9移动系列中,因为这些核心以前仅限于AMD采用上一代鹰点芯片的最低端Ryzen 5和3型号。与标准的Zen 5性能核心相比,AMD的Zen 5c核心旨在减少处理器芯片上的空间占用,同时为要求不高的任务提供足够的性能,从而节省电能,并在每平方毫米上提供比以前更多的计算能力。虽然这种技术在概念上与英特尔的E-cores类似,但AMD的Zen 5c采用了与标准Zen 5核心相同的微架构,并通过较小的核心支持相同的功能,而英特尔的设计则采用了不同的架构和功能支持。不过,较小的Zen 5c核心工作时钟频率较低,因此峰值性能不如标准核心,但它们也为其他附加功能(如更大的GPU和NPU)保留了芯片面积。HX 370芯片还拥有36 MB三级缓存、50 TOPS XDNA 2 NPU和新的RDNA 3.5 Radeon 890M图形引擎。该芯片的额定TDP为 28W,但其宽泛的cTDP范围意味着这并不能反映其实际运行功耗水平。Ryzen AI 9 365配备10个核心,包括4个标准Zen 5核心和6个经过密度优化的Zen 5c核心,基本频率为2.0GHz,峰值频率为5.0 GHz。该芯片还配备了50 TOPS NPU和一个12-CU RDNA 3.5 Radeon 88... PC版: 手机版:

封面图片

破解ChatGPT惊人耗电 DeepMind新算法训练提效13倍,能耗暴降10倍

破解ChatGPT惊人耗电 DeepMind新算法训练提效13倍,能耗暴降10倍 随着AI计算需求的膨胀,还需要用水来冷却计算系统。研究称,微软用水量从2021年到22年飙升了34%,ChatGPT每处理5-50个提示就会消耗接近半升水。针对这种现状,我们有更好的解决策略吗?最近,GoogleDeepMind研究团队提出了一种加快AI训练的新方法多模态对比学习与联合示例选择(JEST),大大减少了所需的计算资源和时间。JEST以13倍更少的迭代次数,以及10倍更少的计算量,超越了最先进的模型!预训练的参考模型,已经学习了什么样的数据是有“优质的”或“有用的”。然后通过模型,来引导数据选择那些精心筛选过的小型数据集。这一发现揭示了,数据筛选水平可以作为评判Scaling Law的一个新维度。网友激动表示,“我没想到这么快就会发生。模型能够自主选择训练数据的能力是巨大的,因为它使训练变得显著更容易,你不再需要猜测什么是高质量的训练数据,你有一个能够『理解』什么样的数据对自身学习最有价值的模型”。前Google、苹果软件工程师称赞道,这项研究非常令人印象深刻。从“超级batch”中筛选数据无论是语言、视觉还是多模态模型,数据质量是预训练性能的重要驱动因素。比如Phi-3、Gemma 2等模型的成功让我们看到了,更少、更高质量的数据有可能实现更强大的性能。要筛选出高质量的数据,数据管道的建立就成为重要的工作。现有的方法大体可以分为两种:1)手动管理 2)基于模型的数据管理,用正在训练模型的特征选择高质量数据。前者成本高昂且难以扩展,后者则有望为多模态LLM实现Scaling Law。然而,现有方法忽略了一个事实。如果仅在单个数据点的层面进行筛选,就没有考虑到数据集以及batch的总体组成。毕竟,训练数据是以batch为单位,数据点之间的依赖性不可忽视。许多计算机视觉的研究都曾表明,hard negatives(表达空间中相近但标签不同的样本)相比可被平凡解的数据簇,能提供更有效的学习信号。那么如何让模型以batch为单位筛选数据呢?论文提出的JEST算法正是要解决这个问题,原理很好理解:就是直接从“超级batch”中筛选出“子batch”。技术介绍用数学语言来描述这个问题,就是从大小为B的“超级batch”中提取出与学习最相关的子batch ℬ={,∈[1,…,]}⊂,过滤比率可以写作=1−/。之前的优先采样(prioritized sampling)会使用基于模型的评分函数对每个数据点打分,再按比例采样。JEST则直接对整个子batch评分,再按照batch级别的分数采样。一种最直观的启发式方法就是在现有模型参数 : hard⁢(ℬ|)=ℓ⁢(ℬ|) 中,直接选择损失值最高的batch,这种方法可被称之为“硬学习”(hard learner)。这种方法具有丢弃琐碎数据的理想属性,已被证明适用于小型、干净的数据集;然而对于较大、较少管理的数据集往往弊大于利,因为它依旧会采样到噪声数据。另一种方法常用于多模态,使用具有参数 ∗:^easy⁢(ℬ|∗)=−ℓ⁢(ℬ|∗) 的参考模型为预训练模型采样数据。但作者依旧否定了这个方案,因为它无法直接反映模型当前的状态,可能过度依赖参考模型的选择,而且不易于扩展。最后,论文选择借鉴ICML 2022年的一篇论文中提到的方法,将上述两方面的评分结合起来:^learn⁢(ℬ|,∗)=hard⁢(ℬ|)+^easy⁢(ℬ|∗)=ℓ⁢(ℬ|)−ℓ⁢(ℬ|∗),并将这种启发式方法称为“可学习性评分”(learnability score)。其中,batch上的损失值ℓ⁢(ℬ|)是各数据点之和,使用sigmoid对比损失函数计算(sigmoid-contrastive loss),因为相比softmax对比损失而言,它的扩展性更强。由于batch上的对比损失可以分解为每个样本的条件损失之和,因此可学习性评分可被分解为单个样本可学习性评分⁢(|,∗,ℬ)之和,写作:使用的顺序采样方法则受到了block Gibbs采样的启发。在第n次迭代、对第B_n个batch进行采样时,依据如下概率公式对块{X_k}进行无替换采样:将X_k块添加到B_n中来更新当前采样的batch,直至迭代数n=N时终止。算法的总体流程如下图所示:实验中发现,使用迭代数N=16且每次迭代时独立采样b/N=2048个样本时,就足以恢复出学习性非常高的batch。可学习性评分中涉及到使用参考模型为数据点打分,之前的方法惯常使用额外的小型模型,但这会增加每次迭代的计算成本,降低总体FLOP效率增益。因此论文使用了在线模型近似的方法以及效率较高的FlexiViT架构,只使用降低分辨率的32×32的patch来评估“超级batch”,与全分辨率、patch大小为16×16的方法相比减少了72%的FLOP,以及67%的挂钟时间(wall-clock time)。此外,论文还提出了进行多分辨率训练的技巧。将每个batch随机分成两半,使用不同分辨率编码后再拼接起来,提升了评分过程和训练的效率。下图详细描述了全分辨率JEST和多分辨率Flexi-JEST方法的伪代码实现。所有JEST实验都在WebLI数据集上运行,包含经过宽松过滤的十亿规模的英语图像-文本对,参考模型的训练则使用其中经过高质量过滤100M大小的子集(被称为WebLI-curated)。在WebLI的基础上,作者还额外从网络上抓取了6亿个文本-图像对并经过同样强度的过滤,组成WebLI-curated++数据集训练参考模型,拓展出JEST++/FlexiJEST++方法,来探索对数据管理的扩展。论文所报告的平均性能包括4个多模态规范基准:ImageNet 0-Shot和10-Shot 分类以及COCO图像到文本和文本到图像的top-1检索。实验结果图1中可以看到,使用JEST或FlexiJEST方法的最明显优势就是效率提升。左图中,相比原有的SigLIP基线模型,JEST++可以在训练数据量减少13.1×的情况下达到相同准确率。即使考虑到额外引入的打分成本,也有近10×的FLOP效率提升(中图)。右图展现了JEST++/FlexiJEST++(绿色)与先前方法(灰色)的比较,相比CLIP、EVA-CLIP经典模型实现了计算成本和性能的双重提升。左图和中图的平均准确率由8个下游任务得出,右图性能由ImageNet和COCO基准测试得出产生可学习batch研究人员首先评估了JEST在选择可学习batch方面的效果。为了直观地理解这一方法,作者们先将可学习性矩阵进行可视化,即学习模型和参考模型之间,对batch中所有示例对的损失差异。JEST就是按照示例子矩阵的可学习性总和比例进行采样。由于矩阵明显非对角关系(图2,左),独立选择显然是次优的。经过少量迭代(对应于用N=16个块填充batch),作者发现子batch的可学习性快速增加,达到了需要数千次迭代的暴力吉布斯采样(Gibbs sampling )所提取batch的可学习性(图2,中)。对于0.5、0.8和0.9的过滤比例,他们从大小分别为65,536、163,840和327,680的超级batch中选择32,768个示例的子batch。在图2右侧,研究者还发现子batch的可学习性随着更大的过滤比例而增加。总之,JEST算法是在训练过程中选择高度可学习batch的有效,且高效的方法。加速多模态学习接下来,研究人员使用JEST算法选择的可学习batch,检验训练模型的效果。所有实验都使用在WebLI-curated上训练的参考模型,这是一个ViT-B/16和Bert-B图像-文本双编码器,30亿训练样本,采用sigmoid对比损失函数。图3(左)显示了在训练过程中多个下游任务(ImageNet 0-Shot/10-Shot准确率和COCO图像到文本/文本到图像检索)的平均性能。结果还发现,JEST显著加速了学习过程。在使用50%、80%和90%的过滤比例时,分别只需20亿、10亿和6.7亿训练样本就达到了30亿均匀基准的最终性能。在更大的过滤比例下,坐着观察到类似于更大batch size时的训练不稳定性,需要修改Adam优化器(β2 = 0.95)以稳定训练,这表明JEST的数据筛选可以被视为增加了有效batch ... PC版: 手机版:

封面图片

Llama2发布了,这版本可以商用了,国内的大模型有救了,我详细整理了一些信息:

Llama2发布了,这版本可以商用了,国内的大模型有救了,我详细整理了一些信息: - Llama2 的性能和参数 - 如何使用和限制条件 - Llama2 的模型架构 - Llama2 的训练方法论 下面是详细的信息 Llama2 的性能和参数 - Llama2有三个大小的版本分别是7B 13B和70B - Llama 2 的训练数据比 Llama 1 多 40%,上下文长度是 Llama 1 的两倍。 - 预训练的Token为2 万亿,上下文长度为4096 - 据Meta所说,Llama 2 在许多外部基准测试中都优于其他开源语言模型,包括推理、编码、熟练程度和知识测试。 如何使用和限制条件 - 与第一次泄漏的版本不同,这次Meta开放了商业使用的权限。 - 现在可以直接在这个页面申请下载模型: - 日活大于7亿的产品需要单独申请商用权限 - 不得使用 Llama 材料或 Llama 材料的任何输出或结果来改进任何其他大型语言模型。 Llama2 的模型架构 - Llama 2-Chat 的基础是 Llama 2 系列预训练语言模型。Llama 2 使用标准的Transformer架构。 - Llama 2-Chat 通过监督微调和强化学习人类反馈进行了优化。先进行监督微调,然后应用包括拒绝采样和PPO在内的强化学习算法进行迭代改进。 - 采用了一些优化,比如预规范化、SwiGLU激活函数和旋转位置嵌入(RoPE)。 - Llama 2-Chat有70亿、34亿、13亿和7亿参数的版本。训练使用公开可获得的数据,没有使用任何Meta用户数据。 Llama2 的训练方法论 1. 预训练 • 使用公开可获得的在线数据进行预训练,总计2万亿个标记。 • 对数据进行了清洗,移除了一些包含大量个人信息的网站。 • 采用标准的Transformer架构,以及一些优化如RoPE等。 2. 监督微调 • 使用高质量的人工标注数据(约3万示例)进行监督微调。 • 优化回答标记,而不是提示标记。 3. 基于人类反馈的强化学习 • 收集人类偏好数据: letting人类比较并选择更好的回复。 • 训练奖励模型,给回复打分。 • 使用拒绝抽样和PPO算法进行迭代调优。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人