[这个知识有争议,我可能没读透,正反观点现在都有,我后面在更新一下(五一后)]

[这个知识有争议,我可能没读透,正反观点现在都有,我后面在更新一下(五一后)] 我看到了一篇文章,大概是描述“为什么CHatGPT要用RLHF,而非指令微调” 核心论点大概是这样的: “因为监督训练会教模型说谎,因为监督训练会让模型倾向于一定给出答案,而RLHF是教会模型辨别答案的好坏所以监督训练泛化性不足,在训练集以外的内容很容易编造、幻觉” 用通俗一点的例子说: 1. 监督学习就像填鸭教育,模型被强调按范文输出,甚至哪怕没有答案,也会被强制要求给出答案(于是幻觉出现) 2. 强化学习像引导学习,教会模型什么是好答案,什么是坏答案,让他具备答案选择能力,这样他更能切实地结合自己的问题回答 那么在我们学习的知识如此广泛的情况下,我们更加无法知道他内部的知识有多少,因此教会“学习方式”,胜过教会“填鸭式答题技巧” 这篇文章其实解答了我一个疑惑: 1. 满天飞的小模型Lora+指令微调项目,动不动就说对齐GPT-3,真的这么牛逼吗?如果这么牛逼为什么没有看到任何一个线上应用基于这些表现顶呱呱的模型上线? 2. 所以我现在看来,确实就是强行对齐了某些范围的能力,通过填鸭学习做了针对性优化,但是这些LLM会出现一些问题 3. 第一,如果超出指令微调的范围,就弱智了;第二,甚至在已微调过的范围内,如果问题深入、刁钻,也会变弱智 这个过程中印证了我一个判断技术的方法论: 如果一个方法超级广泛地应用,又没有任何实践上的声量,那么就要警惕方法到实践中的鸿沟

相关推荐

封面图片

大模型微调实战营-应用篇 - 带源码课件

大模型微调实战营-应用篇 - 带源码课件 描述:本课程包括大模型基础,大模型指令微调,常用的开源模型微调,大模型对齐,垂直领域大模型应用5个阶段,内容涵盖大模型微调应用场景,大模型基座,LoRA参数微调,模型压缩,QLoRA参数微调,DeepSpeed训练框架解析,Megatron-LM训练框架解析,Flash Attention技术应用,微调模型Benchmark,ChatGLM,LLaMA,Mistral,MoE,大模型对齐,RLHF,DPO,垂直领域大模型应用等前沿技术等全方位知识讲解,并结合8个实战项目,帮助同学们实现学以致用。 链接: 大小:NG 标签:#学习 #知识 #课程 #资源 #大模型微调实战营 #quark 频道:@yunpanshare 群组:@yunpangroup

封面图片

大模型微调实战营-应用篇 - 带源码课件

大模型微调实战营-应用篇 - 带源码课件 描述:本课程包括大模型基础,大模型指令微调,常用的开源模型微调,大模型对齐,垂直领域大模型应用5个阶段,内容涵盖大模型微调应用场景,大模型基座,LoRA参数微调,模型压缩,QLoRA参数微调,DeepSpeed训练框架解析,Megatron-LM训练框架解析,Flash Attention技术应用,微调模型Benchmark,ChatGLM,LLaMA,Mistral,MoE,大模型对齐,RLHF,DPO,垂直领域大模型应用等前沿技术等全方位知识讲解,并结合8个实战项目,帮助同学们实现学以致用。 链接: 大小:NG 标签:#学习 #知识 #课程 #资源 来自:雷锋 频道:@Aliyundrive_Share_Channel 群组:@alyd_g 投稿:@AliYunPanBot

封面图片

作为当下最受欢迎的开源 AI 大模型解决方案,GitHub 上一个开源项目 Colossal-AI 建立了一整套完整的 RLHF

作为当下最受欢迎的开源 AI 大模型解决方案,GitHub 上一个开源项目 Colossal-AI 建立了一整套完整的 RLHF 流程,包括:监督数据集收集 -> 监督微调 -> 奖励模型训练 -> 强化学习微调。 并且,技术团队以 LLaMA 为基础预训练模型,正式推出了 ColossalChat,这也是目前最接近 ChatGPT 原始技术方案的实用开源项目。 该项目包括但不限于以下功能: - Demo:可直接在线体验模型效果,无需注册或 waitinglist; - 训练代码:开源完整 RLHF 训练代码,已开源至含 7B 和 13B 两种模型; - 数据集:开源 104K 中、英双语数据集; - 推理部署:4bit 量化推理 70 亿参数模型仅需 4GB 显存; - 模型权重:仅需单台服务器少量算力即可快速复现; - 更大规模模型、数据集、其他优化等将保持高速迭代添加。 目前,相关代码已开源至 GitHub,感兴趣的同学可以看下。 项目还有提供完整的中文教程,进一步降低学习门槛,让大家能更快上手开发。 |||||

封面图片

大模型微调实战营-应用篇 - 带源码课件

大模型微调实战营-应用篇 - 带源码课件 描述:本课程包括大模型基础,大模型指令微调,常用的开源模型微调,大模型对齐,垂直领域大模型应用5个阶段,内容涵盖大模型微调应用场景,大模型基座,LoRA参数微调,模型压缩,QLoRA参数微调,DeepSpeed训练框架解析,Megatron-LM训练框架解析,Flash Attention技术应用,微调模型Benchmark,ChatGLM,LLaMA,Mistral,MoE,大模型对齐,RLHF,DPO,垂直领域大模型应用等前沿技术等全方位知识讲解,并结合8个实战项目,帮助同学们实现学以致用。 链接:https://www.alipan.com/s/D4K4qJ6s1Mi 大小:NG 标签:#学习 #知识 #课程 #资源 来自:雷锋 版权:版权反馈/DMCA 频道:@shareAliyun 群组:@aliyundriveShare 投稿:@aliyun_share_bot

封面图片

类似 ChatGPT 的系统如何工作?|

类似 ChatGPT 的系统如何工作?| 我们试图在下图中解释它是如何工作的。该过程可以分为两部分。 1. 培训。要训练 ChatGPT 模型,有两个阶段: - 预训练:在此阶段,我们在大量互联网数据上训练 GPT 模型(仅解码器变压器)。目标是训练一个模型,该模型可以以类似于互联网数据的语法正确且语义有意义的方式预测给定句子的未来单词。经过预训练阶段后,模型可以完成给定的句子,但无法回答问题。 - 微调:此阶段分为 3 个步骤,将预训练模型转变为问答型 ChatGPT 模型: 1).收集训练数据(问题和答案),并根据这些数据微调预训练模型。该模型将问题作为输入,并学习生成与训练数据类似的答案。 2).收集更多数据(问题、多个答案)并训练奖励模型,将这些答案从最相关到​​最不相关进行排序。 3).使用强化学习(PPO 优化)对模型进行微调,使模型的答案更加准确。 2. 回答提示 第 1 步:用户输入完整的问题“解释分类算法的工作原理”。 步骤 2:问题被发送到内容审核组件。该组件确保问题不违反安全准则并过滤不适当的问题。 步骤 3-4:如果输入通过内容审核,则将其发送到 chatGPT 模型。如果输入未通过内容审核,则直接进入模板响应生成。 步骤 5-6:模型生成响应后,它会再次发送到内容审核组件。这确保了生成的响应是安全的、无害的、公正的等。 步骤 7:如果输入通过内容审核,则会向用户显示。如果输入未通过内容审核,则会进入模板响应生成并向用户显示模板答案。

封面图片

OpenAI把GPT-4原始版给了EPFL研究团队 不微调只靠提示词能走多远?

OpenAI把GPT-4原始版给了EPFL研究团队 不微调只靠提示词能走多远? 也就是不用监督微调、也不用RHLF或其他强化学习对齐方法,只靠提示词能走多远?预训练模型,究竟能不能一步登天,直接改造成聊天机器人或AI助手?如果可行,将大大降低类ChatGPT大模型的开发难度。免微调对齐靠谱吗?免微调对齐,让刚出炉的预训练模型不止会“文本补全”,只从提示词中学会和用户对话、跟随指令,一直是业界关注的研究方向。目前的SOTA方法URIAL来自艾伦研究所,使用系统提示词+少数风格示例就能达到不错的效果。但EPFL团队发现,URIAL仍无法完全弥补与指令微调模型的差距,尤其在多轮对话中的表现更差一些。实验中,在Llama系列、Mistral系列和一般人接触不到的GPT-4-Base都观察到这种现象。其中GPT-4-Base的API访问权限从OpenAI Researcher Access Program项目中申请到。EPFL团队从这里出发,尝试了各种办法来提升上下文学习的效果。首先他们增加示例的数量,但发现帮助不大,没有随着例子数目增加性能就提升的趋势。这一点跟图像分类、机器翻译等任务还不太一样。然后他们使用了贪心搜索算法,从一大堆示例中选择最佳的添加到上下文。这种方法可以进一步提高性能,但与指令微调模型的差距仍然存在,特别是在 AlpacaEval 2.0基准测试中。此外他们还发现,贪心搜索为某个特定模型找到的最佳示例,对于其他模型不能可靠地迁移。也就是说,不同的示例适合不同的模型。团队还进行了一系列消融实验,以更多地了解上下文学习的工作原理。他们发现,在MT-Bench这样的综合评测中,示例包含正确的“问题-答案对”至关重要。这与此前大模型在分类任务中,只要有大量示例,部分标签错了也无所谓的发现非常不同。所以最终得出的结论是:即使采用更多复杂的改进方法,完全缩小上下文学习和指令微调之间的差距也有挑战,即使对于非常长上下文的大模型也是如此。论文最后分析,大语言模型可能通过上下文学习只学会了如何模仿例子里的回答风格,但还没有真正理解执行指令的逻辑。指令跟随任务相对还是比较复杂和开放的,没那么容易掌握。想让AI助手更“听话”,暂时还是很难有捷径可走。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人