: 提高编程能力的关键在于数据。CodeGPT是通过GPT生成的用于GPT的代码对话数据集。现在公开了32K条中文数据,让模型更
: 提高编程能力的关键在于数据。CodeGPT是通过GPT生成的用于GPT的代码对话数据集。现在公开了32K条中文数据,让模型更擅长编程。 考虑到代码难度对模型训练效果的影响,此处共收集了四种不同类型、不同难度的代码相关对话数据,收集方法如下: Code-Basic:利用已有的LLM(例如付费API)生成各种编程语言的基础库函数相关的代码对话数据。Prompt类似“请为C语言中的XX函数生成一道非常简单的编程问题及对应的代码答案”,API会输出该基础库函数相关的问题-答案对,将问题作为用户输入,答案作为模型输出(Markdown格式),可得到一条对话数据。 Code-Medium:利用已有的LLM(例如付费API)生成中等难度的编程问题及答案,例如写入内容到文件、查找字符串子串、实现链表等,API同样会输出问题-答案对,将问题作为用户输入,答案作为模型输出(Markdown格式),可得到一条对话数据。 Code-LeetCode:从LeetCode上收集到的问题-答案对,此类问题通常难度较高。将问题作为用户输入,答案作为模型输出(Markdown格式),可得到一条对话数据。 Code-Text:从互联网上收集到的常见面试题及答案,此类问题并不涉及编程,而是侧重于对各种概念的理解。将问题作为用户输入,答案作为模型输出(文本形式),可得到一条对话数据。
在Telegram中查看相关推荐

🔍 发送关键词来寻找群组、频道或视频。
启动SOSO机器人