ChatGPT 的实际工作原理 | 详文

ChatGPT的实际工作原理自发布以来，公众一直在玩ChatGPT，看看它能做什么，但ChatGPT实际上是如何工作的？虽然其内部工作的细节尚未公布，但我们可以从最近的研究中拼凑出它的功能原理。ChatGPT是OpenAI的最新语言模型，对其前身GPT-3进行了重大改进。与许多大型语言模型类似，ChatGPT能够生成各种样式和不同目的的文本，但具有更高的精度、细节和连贯性。它代表了OpenAI大型语言模型系列的下一代，其设计非常注重交互式对话。创建者已经使用了监督学习和强化学习的组合来微调ChatGPT，但正是强化学习组件使ChatGPT与众不同。创建者使用一种称为从人类反馈中强化学习（RLHF）的特定技术，该技术在训练循环中使用人类反馈来最大限度地减少有害、不真实和/或有偏见的输出。在了解RLHF的工作原理并了解ChatGPT如何使用RLHF来克服这些问题之前，我们将研究GPT-3的局限性以及它们如何源于其训练过程。最后，我们将通过研究这种方法的一些局限性来结束。

在Telegram中查看

相关推荐

类似 ChatGPT 的系统如何工作？| 原贴

类似ChatGPT的系统如何工作？我们试图在下图中解释它是如何工作的。该过程可以分为两部分。1.培训。要训练ChatGPT模型，有两个阶段：-预训练：在此阶段，我们在大量互联网数据上训练GPT模型（仅解码器变压器）。目标是训练一个模型，该模型可以以类似于互联网数据的语法正确且语义有意义的方式预测给定句子的未来单词。经过预训练阶段后，模型可以完成给定的句子，但无法回答问题。-微调：此阶段分为3个步骤，将预训练模型转变为问答型ChatGPT模型：1).收集训练数据（问题和答案），并根据这些数据微调预训练模型。该模型将问题作为输入，并学习生成与训练数据类似的答案。2).收集更多数据（问题、多个答案）并训练奖励模型，将这些答案从最相关到最不相关进行排序。3).使用强化学习（PPO优化）对模型进行微调，使模型的答案更加准确。2.回答提示第1步：用户输入完整的问题“解释分类算法的工作原理”。步骤2：问题被发送到内容审核组件。该组件确保问题不违反安全准则并过滤不适当的问题。步骤3-4：如果输入通过内容审核，则将其发送到chatGPT模型。如果输入未通过内容审核，则直接进入模板响应生成。步骤5-6：模型生成响应后，它会再次发送到内容审核组件。这确保了生成的响应是安全的、无害的、公正的等。步骤7：如果输入通过内容审核，则会向用户显示。如果输入未通过内容审核，则会进入模板响应生成并向用户显示模板答案。

首个使用ChatGPT实现人与虚拟人面对面对话的应用程序。| 详文

首个使用ChatGPT实现人与虚拟人面对面对话的应用程序。这个应用程序名ChatD-ID顾名思义，就是整合了ChatGPT与D-ID（他们公司就叫D-ID）生成式技术。它使用实时人脸动画和先进的文本到语音来营造一种身临其境的感觉。据官方介绍，用户最多可以与数字人进行五次聊天，每次聊天包含5次来回互动。（不过亲测有20次）另外，还提供API给企业和开发者来使用。背后的这家公司D-ID，还打造了一家CreativeReality工作室，利用生成式AI，包括深度学习面部动画技术、GPT-3以及StableDIffusion来生成视频。

微软开源Deep Speed Chat

微软开源DeepSpeedChat微软宣布开源，帮助用户轻松训练类ChatGPT等大语言模型，使得人人都能拥有自己的ChatGPT！DeepSpeedChat是基于微软DeepSpeed深度学习优化库开发而成，具备训练、强化推理等功能，还使用了RLHF（人工反馈机制的强化学习）技术，可将训练速度提升15倍以上，成本却大幅度降低。例如，一个130亿参数的类ChatGPT模型，只需1.25小时就能完成训练。简单来说，用户通过DeepSpeedChat提供的“傻瓜式”操作，能以最短的时间、最高效的成本训练类ChatGPT大语言模型，这标志着一个人手一个ChatGPT的时代要来了。来源，来自：雷锋频道：@kejiqu群组：@kejiquchat投稿：@kejiqubot

ChatGPT的环境成本究竟有多大？

ChatGPT的环境成本究竟有多大？要想从大气中吸收这些二氧化碳，相当于需要栽种超过6.5万棵树。虽然“虚拟”的属性让人们容易忽视数字产品的碳账本，但事实上，互联网却无疑是地球上最大的煤炭动力机器之一。训练机器成碳排“大户”聊天机器人、数字助理以及来自流媒体服务的电影和音乐推荐都依赖于“深度学习”——一种训练计算机模型以识别数据模式的过程。这种训练需要强大的计算机和大量的能量支撑。对于ChatGPT全生命周期的碳足迹数据，这个阶段是名副其实的排放大户。最精细的深度学习模型之一，目标就是产生类似人类的语言。在ChatGPT问世前，OpenAI公司先开发了一套复杂的自然语言模型，命名为GPT-3。ChatGPT和GPT-3都是在大量文本数据上训练而成的，允许它们对文本输入产生类似人类的响应，但由于后者专门为会话任务而设计，GPT-3则更通用一些，所以参数库要小100多倍。“ChatGPT是基于GPT-3的一个升级版本，在GPT-3的模型架构基础上又进行了优化并在训练时期增加了强化学习。”唐淑姝对华尔街见闻分析，“所以要估算ChatGPT在训练阶段的碳排，可以参考GPT-3的排放值。”有数据显示，当时训练GPT-3消耗了1287MWh，排放出552吨温室气体。“GPT-3的大量排放可以部分解释为它是在较旧、效率较低的硬件上进行训练的，但因为没有衡量二氧化碳排放量的标准化方法，这些数字是基于估计，另外，这部分碳排放值中具体有多少应该分配给训练ChatGPT，标准也是比较模糊的，需要注意的是，由于强化学习本身还需要额外消耗电力，所以ChatGPT在模型训练阶段所产生的的碳排放应该大于这个数值。”可持续数据研究者卡斯帕-路德维格森如是分析。仅以552吨排放量计算，这些相当于126个丹麦家庭每年消耗的能量。运行阶段的碳成本用户在操作ChatGPT时的动作耗电量很小，但由于全球每天可能发生十亿次，累积之下使其成为了第二大碳排放来源。唐淑姝对华尔街见闻表示，可以将另一个大型语言模型BLOOM作为类比来推测ChatGPT运行阶段的碳排放。BLOOM曾在具有16个NVIDIAA10040GBGPU的GoogleCloudPlatform实例上部署并运行了18天，共432小时。“BLOOM与ChatGPT前身GPT-3的模型大小大致相同，假设把相同的硬件用于ChatGPT，并在16个NVIDIAA10040GBGPU上运行，并推测硬件利用率始终为100%，”唐淑姝通过使用MLCO2Impact计算机，估算出ChatGPT的每日碳排放为25.92kg。Databoxer联合创始人克里斯·波顿则解释了另一种计算方法。“首先，我们估计每个响应词在A100GPU上需要0.35秒，假设有100万用户，每个用户有10个问题，产生了10000000个响应和每天300000000个单词，每个单词0.35秒，可以计算得出每天A100GPU运行了29167个小时。”CloudCarbonFootprint列出了Azure数据中心中A100GPU的最低功耗46W和最高407W，由于很可能没有多少ChatGPT处理器处于闲置状态，以该范围的顶端消耗计算，每天的电力能耗将达到11870kWh。“美国西部的排放因子为0.000322167吨/kWh，所以每天会产生3.82吨二氧化碳当量，美国人平均每年约15吨二氧化碳当量，换言之，这与93个美国人每年的二氧化碳排放率相当。”克里斯·波顿说。Ai的能源账依据唐淑姝的观点，从全生命周期角度看还应该包含ChatGPT在制造阶段的隐性碳排。仍以BLOOM作为参照，训练总时间共持续108万小时，平均使用48个计算节点上的384个GPU，可以估计与模型训练相关的服务器隐含碳排放大约为7.57吨和GPU3.64吨，总计约11.2吨。“ChatGPT的训练时间大约比BLOOM长3倍，单从这个角度估算，估算ChatGPT中模型训练的隐含碳排放总量约为33.6吨。”唐淑姝对华尔街见闻解释道。事实上，学界对于人工智能与环境成本的关系颇为关切。伯克利大学关于功耗和人工智能主题的研究认为，人工智能几乎吞噬了能源。比如Google的预训练语言模型T5使用了86兆瓦的电力，产生了47公吨的二氧化碳排放量；Google的多轮开放领域聊天机器人Meena使用了232兆瓦的电力，产生了96公吨的二氧化碳排放；Google开发的语言翻译框架-GShard使用了24兆瓦的电力，产生了4.3公吨的二氧化碳排放；Google开发的路由算法SwitchTransformer使用了179兆瓦的电力，产生了59公吨的二氧化碳排放。深度学习中使用的计算能力在2012年至2018年间增长了300000倍，这让GPT-3看起来成为了对气候影响最大的一个。然而，当它与人脑同时工作，人脑的能耗仅为机器的0.002%。据估计，全球科技行业占全球温室气体排放量的1.8%至3.9%。尽管这些排放量中只有一小部分是由人工智能和机器学习引起的，但人工智能的碳足迹对于技术中的单个领域来说仍然非常高。发表于Nature的一项计算碳成本的研究揭示了与人工智能相关的碳足迹在各种云计算数据中心训练一系列模型。结果表明，在美国中部或德国的数据中心训练BERT（一种常见的机器学习语言模型）会排放22-28公斤二氧化碳。这是在挪威（大部分电力来自水力发电）或在主要依赖核能的法国进行相同实验产生的排放量的两倍多。而一天中进行实验的时间同样重要。例如，在美国华盛顿州，当该州的电力仅来自于水力发电时，在夜间训练人工智能导致的排放量低于在白天训练，因为那时的电力来自于燃气站。通过更好地了解AI系统消耗了多少能源，或许有助于人类权衡做出在污染和成本之间的更优选择。...PC版：https://www.cnbeta.com.tw/articles/soft/1343683.htm手机版：https://m.cnbeta.com.tw/view/1343683.htm

Anthropic 发现 AI 普遍"谄媚"人类

Anthropic发现AI普遍"谄媚"人类论文研究了5个最先进的语言模型(ChatGPT系列、Claude系列、LLaMA2)，确认这些基于人类反馈强化学习(RLHF)的AI普遍会对人类阿谀奉承。当人类有先入为主的观点时它会主动贴合，当被质疑时它会认错，甚至将正确答案修改为错误答案。Anthropic发现可能是RLHF教育出了这种“马屁精”，这种学习方式虽然在生产高质量AI方面具有明显效用，但通过贴合人类偏好激励的AI会牺牲自己的真实性来“谄媚”人类，人们需要改进训练方法。——

ChatGPT、微软Bing、谷歌Bard为例，深入介绍了如何与AI协作。采用实用的方法，探讨了模型的工作原理，以及如何有效地

ChatGPT、微软Bing、谷歌Bard为例，深入介绍了如何与AI协作。采用实用的方法，探讨了模型的工作原理，以及如何有效地使用每种模型，并将自己的专业知识融入其中。Ethon和Lilach还通过实例提示和指导，展示了如何利用人工智能使教学更轻松、更有效，以及学生如何利用人工智能提高学习效率。小宇宙直达：https://www.xiaoyuzhoufm.com/episode/64ccd02e80c9ec4c5f62686c3⃣与AI深度对话：如何轻松写出promptsEthon和Lilach探讨了3个写Prompts的要点（角色、指令和步骤）；通过写文章为案例，说明了添加语境的重要价值，并提示如何增加限制条件来提升AI输出质量。最重要的一点，两位专家给出了明确指出，你需要在对话中持续占据主导地位。小宇宙直达：https://www.xiaoyuzhoufm.com/episode/64d2195e80c9ec4c5fb50d254⃣善用「类比」来学习新知如何利用人工智能让老师的教学更轻松、更有效，Ethon和Lilach提供了一套学生通过示例和类比来学习的方法，并展示了开发个性化的示例、解释和低分测试，并创建教学上合理的教学大纲。小宇宙直达：https://www.xiaoyuzhoufm.com/episode/64d4a6b9f50b650b287b35295⃣翻转课堂：学生如何使用AI实现个性化学习？Ethon针对学习教学使用场景，提出了一系列实实在在的真知灼见：不要过分相信AI检测工具，它具有欺骗性；要让学生不断批判性思维，自主发现对话式AI的优缺点。小宇宙直达：https://www.xiaoyuzhoufm.com/episode/64d4dc8780c9ec4c5fe85d76（待续更新中）后记：这些观点和新知对于AI普及而言，价值巨大；无论其系统性、实时性和可操作性，都属于难得的精品内容。如之前强调，AI教育和AI应用是两件事，新世界需要更多Ethon这样的有识之士的换位思考与清晰表达。对于无数还未接触或尚未展开人工智能探索的人们意义非凡，这是新的启蒙。秉持同样的教育民主化理念，火烈鸟圆桌进行了翻译、校对和解读工作，并在Shownotes中提供到了大量图文和案例说明，建议一并参考。如果你周围有朋友需要这样入门经典系列，也不妨分享给他们。Enjoy～

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人