关于LLM自生成数据集,Sam Altman也说他们几乎不需要人工标注了。在开源拥有更多可能性的图景中,直接生成更高质量的数据集

关于LLM自生成数据集,Sam Altman也说他们几乎不需要人工标注了。在开源拥有更多可能性的图景中,直接生成更高质量的数据集也成为趋势。 目前看到最新颖的相关研究是上个月微软和北大的WizardLM(基于开源的LLaMa 7B)【 WizardLM把扩展数据集完全交给LLM。利用一个「精心设计」的prompt,模型自主将一个简单的问题/指令扩展、深化、复杂化。比如,可以从简单指令“1+1=?”扩展出更复杂、更具有难度的指令(图1)。简单翻了一下他们的prompt(虽然原本就是中国人写的XD)。 开玩笑地说,自生成数据集的路上,我们向着被LLM替代又近了一步。下一步很可能就是让LLM更有参照性地自生成prompt来自监督指令扩展,从而让训练更具效率。 * 这两天和老前辈工程师“友好交流”了LLM的表现,上一辈的技术人员相信精细的工艺和细末的细节,这是工业化的传统沉浸在程序和端口中的习性。但LLM明显更像一种认知体系、一种逻辑和行为的重塑框架,遵循着LLM,我们会走到更宏观的、边界模糊的世界中去吗?虽然有些过分乐观,但我常常“不得不”这样想。

相关推荐

封面图片

具有聊天界面的上下文数据可视化工具,使用自然语言和GPT生成数据集的可视化,可以逐步编辑可视化结果,使其更加准确,无需重新输入整

具有聊天界面的上下文数据可视化工具,使用自然语言和GPT生成数据集的可视化,可以逐步编辑可视化结果,使其更加准确,无需重新输入整个复杂查询。 特点包括:自然语言生成数据可视化、使用聊天上下文编辑可视化、允许用户根据预期修改图表、通过与可视化交互逐步探索数据、上传自己的CSV数据集进行可视化、保存可视化和聊天记录、允许用户使用可视化编辑器进行编辑,并根据用户的喜好生成更好的可视化。 | #可视化 #工具

封面图片

由Mixtral-8x7B-Instruct-v0.1生成的合成数据集,包含超过30亿Token,涵盖了教科书、博客、故事等各种

由Mixtral-8x7B-Instruct-v0.1生成的合成数据集,包含超过30亿Token,涵盖了教科书、博客、故事等各种文本类型。 数据集包含8个子集,涵盖了多个主题,如网络样本、斯坦福课程大纲、故事、WikiHow文章等。 通过使用不同样式和受众,以及精心设计的提示,增加了内容的多样性和信息熵。通过MinHash去重,仅有不到1%的重复样本。还通过去污染流程,排除了来自测试基准的样本,保证数据的干净性。 该数据集可用于研究合成数据领域,促进人工智能相关研究的发展。 | #数据集

封面图片

: 提高编程能力的关键在于数据。CodeGPT是通过GPT生成的用于GPT的代码对话数据集。现在公开了32K条中文数据,让模型更

: 提高编程能力的关键在于数据。CodeGPT是通过GPT生成的用于GPT的代码对话数据集。现在公开了32K条中文数据,让模型更擅长编程。 考虑到代码难度对模型训练效果的影响,此处共收集了四种不同类型、不同难度的代码相关对话数据,收集方法如下: Code-Basic:利用已有的LLM(例如付费API)生成各种编程语言的基础库函数相关的代码对话数据。Prompt类似“请为C语言中的XX函数生成一道非常简单的编程问题及对应的代码答案”,API会输出该基础库函数相关的问题-答案对,将问题作为用户输入,答案作为模型输出(Markdown格式),可得到一条对话数据。 Code-Medium:利用已有的LLM(例如付费API)生成中等难度的编程问题及答案,例如写入内容到文件、查找字符串子串、实现链表等,API同样会输出问题-答案对,将问题作为用户输入,答案作为模型输出(Markdown格式),可得到一条对话数据。 Code-LeetCode:从LeetCode上收集到的问题-答案对,此类问题通常难度较高。将问题作为用户输入,答案作为模型输出(Markdown格式),可得到一条对话数据。 Code-Text:从互联网上收集到的常见面试题及答案,此类问题并不涉及编程,而是侧重于对各种概念的理解。将问题作为用户输入,答案作为模型输出(文本形式),可得到一条对话数据。

封面图片

强烈推荐!让 Clude 生成 prompt,最快的捷径!!

强烈推荐!让 Clude 生成 prompt,最快的捷径!! 基于下面的模型帮我生成一个让 ChatGPT 进行数据分析 prompt: - 指令(Instruction):希望 AI 执行的指定事项 - 角色:通过限定 AI 的身份和能力范围,让它输出更符合要求的内容,例如扮演老师,教我们学编程; - 模型:让 AI 基于成熟的思维框架进行思考,例如 STAR 法则、二八定律等; - 任务:该指令必不可少,指定了 AI 要做的具体事情,例如查询天气、回答问题等。 输入(Input Data):一些可供 AI 参考的素材或数据 - 背景:提供对话的补充信息,能够让 AI 更好地理解上下文; - 受众:假设 AI 生成的内容,会由怎样的人群阅读,例如儿童、牙医等; - 素材:提供一些需要 AI 加工相关文本、图片或其他资料,以扩展模型的知识和信息; - 示例:通过提供一些例子,让 AI 参考并生成符合预期的内容 输出(Output Indicator):限定输出内容的类型、格式等 - 模板:模板定义了 AI 对话的基本结构、内容格式; - 风格:规定 AI 的风格或语气,例如幽默、可爱,或者模仿名人讲话; - 要求:明确 AI 应满足的具体要求或标准,例如准确性、可读性; - 限制:设定模型的限定条件,例如生成数量、最大长度、敏感内容过滤等。

封面图片

SQLBoiler 是一个按需生成数据库模式的 Go ORM 的工具。它是一个“数据库优先”的 ORM,而不是“代码优先”(如

SQLBoiler 是一个按需生成数据库模式的 Go ORM 的工具。它是一个“数据库优先”的 ORM,而不是“代码优先”(如 gorm/gorp)。 这意味着我们必须首先创建数据库模式。 | #工具

封面图片

(Topics in Algorithmic COde Generation dataset)是一个专注于算法代码生成的数据集,

(Topics in Algorithmic COde Generation dataset)是一个专注于算法代码生成的数据集,旨在为代码生成模型领域提供更具挑战性的训练数据集和评估基准。 该数据集由难度更大、更接近真实编程场景的编程竞赛题组成。它强调在实际应用场景中提高或评估模型的理解和推理能力,而不仅仅是实现预定义的函数功能。 规模更大:TACO 包括训练集(25,443 个问题)和测试集(1,000 个问题),使其成为当前可用的最大的代码生成数据集。 更高质量:TACO 数据集中的每个问题都旨在匹配一组不同的解决方案答案,答案大小高达 1.55M。这保证了模型在训练过程中不易出现过拟合,并验证了评估结果的有效性。 细粒度标签:TACO 数据集中的每个问题都包含细粒度标签,例如任务主题、算法、技能和难度级别。这些标签为代码生成模型的训练和评估提供了更准确的参考。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人