【大模型物种进化图，原来BERT后代已绝种】根据论文，大模型发展主要可以分为两类，作者们将它命名为“BERT派”和“GPT派”：

【大模型物种进化图，原来BERT后代已绝种】根据论文，大模型发展主要可以分为两类，作者们将它命名为“BERT派”和“GPT派”：“BERT派”的特征是模型中有编码器架构，具体分为“编解码器”和“只有编码器”两类架构；“GPT派”则主张扔掉编码器，架构中“只有解码器”。 #抽屉IT

在Telegram中查看

相关推荐

是Google研究的一种新的移动端文本生成图像的方法，专为移动设备设计，是一种高效的潜在扩散模型，能够在半秒内生成高质量的512

是Google研究的一种新的移动端文本生成图像的方法，专为移动设备设计，是一种高效的潜在扩散模型，能够在半秒内生成高质量的512x512图像。 MobileDiffusion的设计遵循潜扩散模型，包括三个组件：文本编码器、扩散UNet和图像解码器。 MobileDiffusion通过优化模型架构，包括Diffusion UNet和图像解码器，展现了在计算效率上的出色表现，该技术有望在移动设备上推动快速图像生成体验，拓展了生成模型在提高用户体验和应对隐私问题方面的潜在应用。

：高效且高度可配置的大型语言模型(LLM)推理引擎。可以通过简单修改配置文件中的几行内容，而无需编写源代码，来为大多数常见的Tr

：高效且高度可配置的大型语言模型(LLM)推理引擎。可以通过简单修改配置文件中的几行内容，而无需编写源代码，来为大多数常见的Transformer模型提供服务。主要特点可扩展且高度可配置：使用 Inferflow 服务新模型的典型方法是编辑模型规范文件，但不添加/编辑源代码。我们在 Inferflow 中实现了原子构建块和技术的模块化框架，使其在组合上可推广到新模型。如果该模型中的原子构建块和技术（对于 Inferflow）“已知”，则 Inferflow 可以为该新模型提供服务。 3.5位量化：Inferflow实现2位、3位、3.5位、4位、5位、6位和8位量化。在量化方案中，3.5位量化是Inferflow推出的新方案。多GPU推理的混合模型分区：Inferflow支持多GPU推理，具有三种模型分区策略可供选择：按层分区（管道并行）、按张量分区（张量并行）和混合分区（混合并行））。其他推理引擎很少支持混合分区。宽文件格式支持（并安全加载pickle数据）：Inferflow支持直接加载多种文件格式的模型，而不依赖于外部转换器。支持的格式包括pickle、safetensors、llama.cpp gguf等。众所周知，使用Python代码读取pickle文件存在安全问题。通过在 C++ 中实现简化的 pickle 解析器，Inferflow 支持从 pickle 数据安全地加载模型。广泛的网络类型支持：支持三种类型的变压器模型：仅解码器模型、仅编码器模型和编码器-解码器模型。 GPU/CPU混合推理：支持仅GPU、仅CPU、GPU/CPU混合推理。

机器学习方案手册，一本包含逐步说明为各种任务训练深度学习模型的书。内容覆盖自然语言处理、计算机视觉、图像与文字

机器学习方案手册，一本包含逐步说明为各种任务训练深度学习模型的书。内容覆盖自然语言处理、计算机视觉、图像与文字本书分为3个部分：自然语言处理（NLP）计算机视觉（CV）图片和文字以下是本节各章的简要概述：命名实体识别- 讨论使用conllpp 数据集识别命名实体的训练转换器模型。我们将使用的特定模型称为bert-base-cased。该模型是原始 BERT 的较小版本，并且区分大小写，这意味着它将大写和小写字母视为不同。掩蔽语言建模- 与填空问题类似，我们训练一个模型来使用xsum 数据集预测句子中的掩蔽词。我们将使用的特定模型称为distilbert-base-uncased。这是 bert base uncased 模型的精炼版本，它以相同的方式处理大写和小写字母。机器翻译在本章中，训练一个模型将文本从英语翻译成西班牙语。我们将在新闻评论数据集上训练来自赫尔辛基 NLP 小组的变压器模型。总结在本章中，训练了一个多语言模型来总结英语和西班牙语句子。使用的模型是 T5 Transformer 模型的多语言版本，使用的数据集是amazon reviews dataset。因果语言建模- 本章重点介绍训练模型以自动完成 Python 代码。为此，我们将使用用于训练代码鹦鹉模型的数据。计算机视觉部分涵盖了该领域下最常见的任务。本节中的章节使用pytorch 闪电、pytorch 图像模型（timm）、 albumentations库和权重和偏差平台。以下是本节各章的简要概述：图像分类- 我们将训练卷积神经网络 (CNN) 模型对动物图像进行分类。我们将使用的 CNN 模型是“resnet34”，使用的数据集是动物图像数据集。图像分割- 本章侧重于训练模型以分割给定图像中的道路。我们将使用 U-net 模型来完成此任务。物体检测在本章中，我们将专注于检测图像中的汽车。我们将预测与图像中包围汽车的边界框相对应的坐标。对于这个任务，我们将使用 fast-rcnn 模型。最后一节包含训练模型以在给定图像的情况下生成标题的章节。它将有一个视觉转换器作为编码器，gpt-2 模型作为解码器。 || #电子书 #机器学习 #手册

这是构成Sora基础之一的Diffusion Transformer论文作者关于Sora的一些猜测和技术解释。

这是构成Sora基础之一的Diffusion Transformer论文作者关于Sora的一些猜测和技术解释。这个老哥可能是除了这篇论文的另一个作者（现在在Open AI工作）之外最懂Diffusion Transformer的人了，非常值得关注。有趣的是这篇论文曾经在2023年的计算机视觉会议(CVR2023)上因“缺少创新性”而遭到拒绝，短短一年时间就变成了Sora这怪物模型的理论基础。 -正文开始- 以下是我对Sora技术报告的解读，其中包含了一些可能并不准确的猜测。首先，我非常感谢团队分享了极为有价值的见解和设计决策Sora确实令人惊叹，它将彻底改变视频生成领域。我们目前所了解到的情况如下：架构：Sora基于我们的扩散变换器（Diffusion Transformer，简称DiT）模型构建，该模型已发表在2023年国际计算机视觉会议（ICCV 2023）上。简单来说，它是一个结合了变换器（Transformer）主干的扩散模型： DiT = [变分自编码器（VAE）编码器 + 视觉变换器（ViT）+ 去噪扩散概率模型（DDPM）+ VAE解码器]。根据报告，这个模型似乎没有太多额外的复杂设计。 “视频压缩网络”：这看起来就像是一个在原始视频数据上训练的变分自编码器（VAE）。在实现良好的时间一致性方面，标记化（Tokenization）可能扮演着关键角色。顺便提一下，VAE本质上是一个卷积网络，所以从技术上说，DiT实际上是一个混合模型。 ;) 当Bill和我参与DiT项目时，我们并未专注于创新（详见我之前的推特），而是将重点放在了两个方面：简洁性和可扩展性。这些优先事项带来的不仅仅是概念上的优势。简洁性代表着灵活性。关于标准的视觉变换器（ViT），人们常忽视的一个亮点是，它让模型在处理输入数据时变得更加灵活。例如，在遮蔽自编码器（MAE）中，ViT帮助我们只处理可见的区块，忽略被遮蔽的部分。同样，Sora可以通过在适当大小的网格中排列随机初始化的区块来控制生成视频的尺寸。而UNet并不直接提供这种灵活性。猜测：Sora可能还使用了Google的Patch n’ Pack（NaViT）技术，使DiT能够适应不同的分辨率、持续时间和长宽比。

TencentPretrain：腾讯预训练模型框架

TencentPretrain：腾讯预训练模型框架预训练已经成为人工智能技术的重要组成部分，为大量人工智能相关任务带来了显著提升。TencentPretrain是一个用于对文本、图像、语音等模态数据进行预训练和微调的工具包。TencentPretrain遵循模块化的设计原则。通过模块的组合，用户能迅速精准的复现已有的预训练模型，并利用已有的接口进一步开发更多的预训练模型。通过TencentPretrain，我们建立了一个模型仓库，其中包含不同性质的预训练模型（例如基于不同模态、编码器、目标任务）。用户可以根据具体任务的要求，从中选择合适的预训练模型使用。TencentPretrain继承了的部分工作，并在其基础上进一步开发，形成支持多模态的预训练模型框架。 TencentPretrain有如下几方面优势: 可复现 TencentPretrain已在许多数据集上进行了测试，与原始预训练模型实现（例如BERT、GPT-2、ELMo、T5、CLIP）的表现相匹配模块化 TencentPretrain使用解耦的模块化设计框架。框架分成Embedding、Encoder、Target等多个部分。各个部分之间有着清晰的接口并且每个部分包括了丰富的模块。可以对不同模块进行组合，构建出性质不同的预训练模型多模态 TencentPretrain支持文本、图像、语音模态的预训练模型，并支持模态之间的翻译、融合等操作模型训练 TencentPretrain支持CPU、单机单GPU、单机多GPU、多机多GPU训练模式，并支持使用DeepSpeed优化库进行超大模型训练模型仓库我们维护并持续发布预训练模型。用户可以根据具体任务的要求，从中选择合适的预训练模型使用 SOTA结果 TencentPretrain支持全面的下游任务，包括文本/图像分类、序列标注、阅读理解、语音识别等，并提供了多个竞赛获胜解决方案预训练相关功能 TencentPretrain提供了丰富的预训练相关的功能和优化，包括特征抽取、近义词检索、预训练模型转换、模型集成、文本生成等 ||#框架

GPT-4不是世界模型 ACL力证LLM永远无法模拟世界

GPT-4不是世界模型 ACL力证LLM永远无法模拟世界最近，亚利桑那大学、微软、霍普金斯大学等机构联合发布了一篇论文，从实证的角度得出了否定的结论。最新研究已被ACL 2024顶会接收。论文地址：“没有世界模型，就没有规划能力”。虽然如此，只凭一篇论文又怎么能平息LLM界的重大分歧？支持语言模型的网友很快就在评论区下面反驳LeCun网友：目前的LLM能达到约60%的准确率（不专门为任务进行训练），这至少是某种“世界模型”了，而且每一代LLM都在提升。LeCun：世界模型不会是LLM。网友：也许吧。但这并不意味着LLM内部不存在某种（不准确的）世界模型。不过，在Hinton看来，AI已经不再是仅仅依赖于过去，基于统计模型做下一个token的预测，而是展现出更高的“理解”能力。然而，大模型想要成为世界终极模拟器，还很远。LLM是“世界模拟器”吗？模拟世界，对于AI学习和理解世界至关重要。以往，多数情况下，可用模拟的广度和深度受到现实的限制。因需要人类专家耗费数周，甚至数月的时间做大量的工作。而现在，大模型提供了一种替代的方法，即通过预训练数据集中大量知识，获得对世界的深刻理解。但是，它们准备好，直接用作模拟器了吗？对此，这项研究的团队在“文本游戏”这一领域，来检验这一问题。一般来说，在世界建模和模拟的背景下，应用LLM有两种方式：一是神经符号化方法；二是直接模拟。论文中，作者们首次对LLM直接模拟虚拟环境的能力，进行了量化分析。他们利用JSON模式的结构化表示作为脚手架（scaffold），不仅提高了模拟精度，还可以直接探查LLM在不同领域的能力。结果发现，GPT-4普遍无法捕捉与智能体行为无直接关联的“状态转移”（state transition）。甚至还包括，涉及算术、常识，或科学推理的状态转移。在各种不同条件下，对于模拟一些复杂环境变化时，GPT-4的准确率不及59.9%。同时也表明，LLM还不足以可靠地充当世界模拟器。那么，研究人员具体如何实现的？研究方法在文本环境中，智能体通过自然语言，完成特定的目标。他们将文本的虚拟环境形式化，建模为一种马尔可夫决策过程（POMDP），共有7个元组：S, A, T , O, R, C, D。其中，S表示状态空间，A表示行动空间，T:S×A→S表示状态转移函数，O表示观测函数，R:S×A→R表示奖励函数，C表示用自然语言描述目标和动作语义的“上下文信息”，D:S×A→{0,1}表示二元指示函数，用0或1标记智能体是否完成任务。其中，上下文C为模型提供了除环境外的额外信息，比如行动规则、物体属性、打分规则和状态转换规则等等。然后，研究人员还提出了一个预测任务，称为LLM-as-a-Simulator（LLM-Sim），作为定量评估大模型作为可靠模拟器的能力的一种方法。LLM-Sim任务被定义为实现一个函数作为世界模拟器，将给定的上下文、状态和动作（即）映射到后续的状态、奖励和游戏完成状态（即）。每个状态转移用如下的九元组表示：实际上，整个状态转换模拟器F，应该考虑两种类型的状态转移：行为驱动和环境驱动的转移。对于图1中的示例，行为驱动的状态转移是在执行“打开水槽”动作后，水槽被打开。而环境驱动的转移是，当水槽打开时，水将填满槽中的杯子。此外，LLM的预测模式也分为两种：预测下一步的完整状态，或者预测两个时刻之间的状态差。为了更好地理解LLM对于每种状态转移的建模能力，研究人员进一步将模拟器函数F分解为三种类型：评估结果建模了LLM的决策过程后，作者也同样用文本构建了一个虚拟人物场景。Bytesized32-SP基准测试的数据来源于公开的Bytesized32语料库，其中有32个人类编写的文字游戏。留出一个游戏作为gold label后，测试集总共涉及31个游戏场景，7.6万多个状态转换。LLM根据上下文和前一个状态进行单步预测，给出下一步时的物体属性、任务进展等信息。规则方面，研究人员也提出了三种设定：由游戏作者撰写、由LLM自动生成，或者根本不提供规则。设定好虚拟环境和任务规则后，作者运行GPT-4进行预测得到了如下结果。为了严谨起见，作者根据状态转移前后预测结果是否变化，分成static和dynamic两类分开统计。如果前后两个状态中，结果并没有发生变化，LLM也会更容易预测。不出意料，static一栏的准确率基本都高于dynamic。对于“静态”转移，模型在预测状态差时表现更好。“动态转移”则相反，在完整状态预测中得分更高。作者猜测，这可能是由于预测状态差时需要减少潜在的格式错误，这会为任务输出带来额外的复杂性。还可以看到，预测动作驱动的状态转移的准确率往往高于环境驱动类。在dynamic栏，前者预测最高分有77.1，而后者最高只有49.7。此外，游戏规则如何制定会很大程度上影响LLM的表现。如果不提供游戏规则，LLM预测的性能会有明显的大幅下降，但规则由人类制定或LLM自动生成并不会显著影响准确率。相比之下，规则制定对游戏进度预测的影响更加明显。相比人类规则，LLM生成规则时，GPT-4的预测有超过10个百分点的提升。难道真的是LLM之间更能相互理解？以上结果都只是针对LLM在不同设定下的性能比较。和人类预测相比，结果如何呢？为此，4位论文作者亲自上阵和GPT-4一较高下。不知道李世石看到这个结果会不会有所安慰。人类的总体准确率在80%左右，远高于GPT-4在50%附近徘徊的成绩，这显示了规划能力上的重大差距。对于规划任务中的单步预测模型，每一步的模拟误差都会累积并向后传播，单步的低性能会很大程度上影响全局表现。因此LLM较低的准确率说明了，它并不能成为可靠的“文本世界模拟器”。此外，人类准确率的波动幅度基本不大，说明任务设定比较简单、直接，适合人类的思维模式。GPT-4这种较差的性能表现给我们提供了一个宝贵的机会，可以更具体地剖析LLM究竟在哪方面出现了能力缺陷。因此，论文作者将LLM的预测结果拆开仔细分析，发现在二元布尔值属性上（is开头的属性），模型通常可以做得很好。预测表现比较糟糕的，通常是一些非平凡属性，比如需要算术运算的temprature（温度）、需要常识的current_aperture（当前照相机光圈），或者需要科学知识的on（灯泡是否打开）。相比之前的基准测试，这似乎更准确地暴露了LLM在常识和科学推理方面的缺陷。此外，这也能反映出模型一些行为的“偏执”之处。在进行完整预测时，它通常过于关注动作驱动的状态转移而忽略了环境驱动，出现了很多“未改变值”的错误。但是可以在分开预测的结果中看到，这些错误是本可以避免的。作者提出，这篇文章的局限性之一是只使用了GPT模型进行测试，也许其他模型可以有不同的表现。这项研究的意义更在于基准测试的提出，为探索LLM在“世界模拟器”方面的潜力提供了一套可行的问题形式定义和测试流程。参考资料：... PC版：手机版：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人