[这个知识有争议，我可能没读透，正反观点现在都有，我后面在更新一下(五一后)]

[这个知识有争议，我可能没读透，正反观点现在都有，我后面在更新一下(五一后)] 我看到了一篇文章，大概是描述“为什么CHatGPT要用RLHF，而非指令微调” 核心论点大概是这样的： “因为监督训练会教模型说谎，因为监督训练会让模型倾向于一定给出答案，而RLHF是教会模型辨别答案的好坏所以监督训练泛化性不足，在训练集以外的内容很容易编造、幻觉” 用通俗一点的例子说： 1. 监督学习就像填鸭教育，模型被强调按范文输出，甚至哪怕没有答案，也会被强制要求给出答案（于是幻觉出现） 2. 强化学习像引导学习，教会模型什么是好答案，什么是坏答案，让他具备答案选择能力，这样他更能切实地结合自己的问题回答那么在我们学习的知识如此广泛的情况下，我们更加无法知道他内部的知识有多少，因此教会“学习方式”，胜过教会“填鸭式答题技巧” 这篇文章其实解答了我一个疑惑： 1. 满天飞的小模型Lora+指令微调项目，动不动就说对齐GPT-3，真的这么牛逼吗？如果这么牛逼为什么没有看到任何一个线上应用基于这些表现顶呱呱的模型上线？ 2. 所以我现在看来，确实就是强行对齐了某些范围的能力，通过填鸭学习做了针对性优化，但是这些LLM会出现一些问题 3. 第一，如果超出指令微调的范围，就弱智了；第二，甚至在已微调过的范围内，如果问题深入、刁钻，也会变弱智这个过程中印证了我一个判断技术的方法论：如果一个方法超级广泛地应用，又没有任何实践上的声量，那么就要警惕方法到实践中的鸿沟

在Telegram中查看

相关推荐

大模型微调实战营-应用篇 - 带源码课件

大模型微调实战营-应用篇 - 带源码课件描述：本课程包括大模型基础，大模型指令微调，常用的开源模型微调，大模型对齐，垂直领域大模型应用5个阶段，内容涵盖大模型微调应用场景，大模型基座，LoRA参数微调，模型压缩，QLoRA参数微调，DeepSpeed训练框架解析，Megatron-LM训练框架解析，Flash Attention技术应用，微调模型Benchmark，ChatGLM，LLaMA，Mistral，MoE，大模型对齐，RLHF，DPO，垂直领域大模型应用等前沿技术等全方位知识讲解，并结合8个实战项目，帮助同学们实现学以致用。链接：大小：NG 标签：#学习 #知识 #课程 #资源来自：雷锋频道：@Aliyundrive_Share_Channel 群组：@alyd_g 投稿：@AliYunPanBot

作为当下最受欢迎的开源 AI 大模型解决方案，GitHub 上一个开源项目 Colossal-AI 建立了一整套完整的 RLHF

作为当下最受欢迎的开源 AI 大模型解决方案，GitHub 上一个开源项目 Colossal-AI 建立了一整套完整的 RLHF 流程，包括：监督数据集收集 -> 监督微调 -> 奖励模型训练 -> 强化学习微调。并且，技术团队以 LLaMA 为基础预训练模型，正式推出了 ColossalChat，这也是目前最接近 ChatGPT 原始技术方案的实用开源项目。该项目包括但不限于以下功能： - Demo：可直接在线体验模型效果，无需注册或 waitinglist； - 训练代码：开源完整 RLHF 训练代码，已开源至含 7B 和 13B 两种模型； - 数据集：开源 104K 中、英双语数据集； - 推理部署：4bit 量化推理 70 亿参数模型仅需 4GB 显存； - 模型权重：仅需单台服务器少量算力即可快速复现； - 更大规模模型、数据集、其他优化等将保持高速迭代添加。目前，相关代码已开源至 GitHub，感兴趣的同学可以看下。项目还有提供完整的中文教程，进一步降低学习门槛，让大家能更快上手开发。 |||||

类似 ChatGPT 的系统如何工作？|

类似 ChatGPT 的系统如何工作？| 我们试图在下图中解释它是如何工作的。该过程可以分为两部分。 1. 培训。要训练 ChatGPT 模型，有两个阶段： - 预训练：在此阶段，我们在大量互联网数据上训练 GPT 模型（仅解码器变压器）。目标是训练一个模型，该模型可以以类似于互联网数据的语法正确且语义有意义的方式预测给定句子的未来单词。经过预训练阶段后，模型可以完成给定的句子，但无法回答问题。 - 微调：此阶段分为 3 个步骤，将预训练模型转变为问答型 ChatGPT 模型： 1).收集训练数据（问题和答案），并根据这些数据微调预训练模型。该模型将问题作为输入，并学习生成与训练数据类似的答案。 2).收集更多数据（问题、多个答案）并训练奖励模型，将这些答案从最相关到最不相关进行排序。 3).使用强化学习（PPO 优化）对模型进行微调，使模型的答案更加准确。 2. 回答提示第 1 步：用户输入完整的问题“解释分类算法的工作原理”。步骤 2：问题被发送到内容审核组件。该组件确保问题不违反安全准则并过滤不适当的问题。步骤 3-4：如果输入通过内容审核，则将其发送到 chatGPT 模型。如果输入未通过内容审核，则直接进入模板响应生成。步骤 5-6：模型生成响应后，它会再次发送到内容审核组件。这确保了生成的响应是安全的、无害的、公正的等。步骤 7：如果输入通过内容审核，则会向用户显示。如果输入未通过内容审核，则会进入模板响应生成并向用户显示模板答案。

ChatGPT 的实际工作原理 | 自发布以来，公众一直在玩 ChatGPT，看看它能做什么，但 ChatGPT 实际上是如何工

ChatGPT 的实际工作原理 | 自发布以来，公众一直在玩 ChatGPT，看看它能做什么，但 ChatGPT 实际上是如何工作的？虽然其内部工作的细节尚未公布，但我们可以从最近的研究中拼凑出它的功能原理。 ChatGPT 是 OpenAI 的最新语言模型，对其前身 GPT-3 进行了重大改进。与许多大型语言模型类似，ChatGPT 能够生成各种样式和不同目的的文本，但具有更高的精度、细节和连贯性。它代表了OpenAI大型语言模型系列的下一代，其设计非常注重交互式对话。创建者已经使用了监督学习和强化学习的组合来微调 ChatGPT，但正是强化学习组件使 ChatGPT 与众不同。创建者使用一种称为从人类反馈中强化学习（RLHF）的特定技术，该技术在训练循环中使用人类反馈来最大限度地减少有害、不真实和/或有偏见的输出。在了解 RLHF 的工作原理并了解 ChatGPT 如何使用 RLHF 来克服这些问题之前，我们将研究 GPT-3 的局限性以及它们如何源于其训练过程。最后，我们将通过研究这种方法的一些局限性来结束。

OpenAI把GPT-4原始版给了EPFL研究团队不微调只靠提示词能走多远？

OpenAI把GPT-4原始版给了EPFL研究团队不微调只靠提示词能走多远？也就是不用监督微调、也不用RHLF或其他强化学习对齐方法，只靠提示词能走多远？预训练模型，究竟能不能一步登天，直接改造成聊天机器人或AI助手？如果可行，将大大降低类ChatGPT大模型的开发难度。免微调对齐靠谱吗？免微调对齐，让刚出炉的预训练模型不止会“文本补全”，只从提示词中学会和用户对话、跟随指令，一直是业界关注的研究方向。目前的SOTA方法URIAL来自艾伦研究所，使用系统提示词+少数风格示例就能达到不错的效果。但EPFL团队发现，URIAL仍无法完全弥补与指令微调模型的差距，尤其在多轮对话中的表现更差一些。实验中，在Llama系列、Mistral系列和一般人接触不到的GPT-4-Base都观察到这种现象。其中GPT-4-Base的API访问权限从OpenAI Researcher Access Program项目中申请到。EPFL团队从这里出发，尝试了各种办法来提升上下文学习的效果。首先他们增加示例的数量，但发现帮助不大，没有随着例子数目增加性能就提升的趋势。这一点跟图像分类、机器翻译等任务还不太一样。然后他们使用了贪心搜索算法，从一大堆示例中选择最佳的添加到上下文。这种方法可以进一步提高性能，但与指令微调模型的差距仍然存在，特别是在 AlpacaEval 2.0基准测试中。此外他们还发现，贪心搜索为某个特定模型找到的最佳示例，对于其他模型不能可靠地迁移。也就是说，不同的示例适合不同的模型。团队还进行了一系列消融实验，以更多地了解上下文学习的工作原理。他们发现，在MT-Bench这样的综合评测中，示例包含正确的“问题-答案对”至关重要。这与此前大模型在分类任务中，只要有大量示例，部分标签错了也无所谓的发现非常不同。所以最终得出的结论是：即使采用更多复杂的改进方法，完全缩小上下文学习和指令微调之间的差距也有挑战，即使对于非常长上下文的大模型也是如此。论文最后分析，大语言模型可能通过上下文学习只学会了如何模仿例子里的回答风格，但还没有真正理解执行指令的逻辑。指令跟随任务相对还是比较复杂和开放的，没那么容易掌握。想让AI助手更“听话”，暂时还是很难有捷径可走。 ... PC版：手机版：

Llama2发布了，这版本可以商用了，国内的大模型有救了，我详细整理了一些信息：

Llama2发布了，这版本可以商用了，国内的大模型有救了，我详细整理了一些信息： - Llama2 的性能和参数 - 如何使用和限制条件 - Llama2 的模型架构 - Llama2 的训练方法论下面是详细的信息 Llama2 的性能和参数 - Llama2有三个大小的版本分别是7B 13B和70B - Llama 2 的训练数据比 Llama 1 多 40%，上下文长度是 Llama 1 的两倍。 - 预训练的Token为2 万亿，上下文长度为4096 - 据Meta所说，Llama 2 在许多外部基准测试中都优于其他开源语言模型，包括推理、编码、熟练程度和知识测试。如何使用和限制条件 - 与第一次泄漏的版本不同，这次Meta开放了商业使用的权限。 - 现在可以直接在这个页面申请下载模型： - 日活大于7亿的产品需要单独申请商用权限 - 不得使用 Llama 材料或 Llama 材料的任何输出或结果来改进任何其他大型语言模型。 Llama2 的模型架构 - Llama 2-Chat 的基础是 Llama 2 系列预训练语言模型。Llama 2 使用标准的Transformer架构。 - Llama 2-Chat 通过监督微调和强化学习人类反馈进行了优化。先进行监督微调,然后应用包括拒绝采样和PPO在内的强化学习算法进行迭代改进。 - 采用了一些优化,比如预规范化、SwiGLU激活函数和旋转位置嵌入(RoPE)。 - Llama 2-Chat有70亿、34亿、13亿和7亿参数的版本。训练使用公开可获得的数据,没有使用任何Meta用户数据。 Llama2 的训练方法论 1. 预训练 • 使用公开可获得的在线数据进行预训练,总计2万亿个标记。 • 对数据进行了清洗,移除了一些包含大量个人信息的网站。 • 采用标准的Transformer架构,以及一些优化如RoPE等。 2. 监督微调 • 使用高质量的人工标注数据(约3万示例)进行监督微调。 • 优化回答标记,而不是提示标记。 3. 基于人类反馈的强化学习 • 收集人类偏好数据: letting人类比较并选择更好的回复。 • 训练奖励模型,给回复打分。 • 使用拒绝抽样和PPO算法进行迭代调优。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人