:大规模、信息丰富、多样化的多轮对话数据,以方便构建具有通用会话能力的强大语言模型
:大规模、信息丰富、多样化的多轮对话数据,以方便构建具有通用会话能力的强大语言模型
为了保证生成质量,生成时采用了两个独立的 ChatGPT Turbo API,其中一个扮演用户角色生成查询,另一个生成响应。
该项目使用精心设计的提示来指导用户模型模仿人类用户行为并迭代调用这两个 API。生成的对话经过进一步的后处理和过滤。 由三个部门组成:
Questions about the World:该部门的对话数据来自与现实世界中的概念、实体和对象相关的广泛查询。涵盖的主题广泛,涵盖技术、艺术和创业等领域。
写作与创作:该领域的对话数据由从零开始的写作/创作需求驱动,涵盖了 AI 助手在创作过程中可能协助完成的任何任务,从电子邮件撰写到制作叙事和剧本,超越。
Assistance on Existent Materials : 该板块的对话数据是基于现有材料生成的,包括但不限于改写、延续、总结和推理,涵盖主题多样。