类似 ChatGPT 的系统如何工作?|
类似 ChatGPT 的系统如何工作?| 我们试图在下图中解释它是如何工作的。该过程可以分为两部分。 1. 培训。要训练 ChatGPT 模型,有两个阶段: - 预训练:在此阶段,我们在大量互联网数据上训练 GPT 模型(仅解码器变压器)。目标是训练一个模型,该模型可以以类似于互联网数据的语法正确且语义有意义的方式预测给定句子的未来单词。经过预训练阶段后,模型可以完成给定的句子,但无法回答问题。 - 微调:此阶段分为 3 个步骤,将预训练模型转变为问答型 ChatGPT 模型: 1).收集训练数据(问题和答案),并根据这些数据微调预训练模型。该模型将问题作为输入,并学习生成与训练数据类似的答案。 2).收集更多数据(问题、多个答案)并训练奖励模型,将这些答案从最相关到最不相关进行排序。 3).使用强化学习(PPO 优化)对模型进行微调,使模型的答案更加准确。 2. 回答提示 第 1 步:用户输入完整的问题“解释分类算法的工作原理”。 步骤 2:问题被发送到内容审核组件。该组件确保问题不违反安全准则并过滤不适当的问题。 步骤 3-4:如果输入通过内容审核,则将其发送到 chatGPT 模型。如果输入未通过内容审核,则直接进入模板响应生成。 步骤 5-6:模型生成响应后,它会再次发送到内容审核组件。这确保了生成的响应是安全的、无害的、公正的等。 步骤 7:如果输入通过内容审核,则会向用户显示。如果输入未通过内容审核,则会进入模板响应生成并向用户显示模板答案。
在Telegram中查看相关推荐

🔍 发送关键词来寻找群组、频道或视频。
启动SOSO机器人