CodeGPT: 提高编程能力的关键在于数据。CodeGPT是通过GPT生成的用于GPT的代码对话数据集。现在公开了32K条中文

:提高编程能力的关键在于数据。CodeGPT是通过GPT生成的用于GPT的代码对话数据集。现在公开了32K条中文数据,让模型更擅长编程。考虑到代码难度对模型训练效果的影响,此处共收集了四种不同类型、不同难度的代码相关对话数据,收集方法如下:Code-Basic:利用已有的LLM(例如付费API)生成各种编程语言的基础库函数相关的代码对话数据。Prompt类似“请为C语言中的XX函数生成一道非常简单的编程问题及对应的代码答案”,API会输出该基础库函数相关的问题-答案对,将问题作为用户输入,答案作为模型输出(Markdown格式),可得到一条对话数据。Code-Medium:利用已有的LLM(例如付费API)生成中等难度的编程问题及答案,例如写入内容到文件、查找字符串子串、实现链表等,API同样会输出问题-答案对,将问题作为用户输入,答案作为模型输出(Markdown格式),可得到一条对话数据。Code-LeetCode:从LeetCode上收集到的问题-答案对,此类问题通常难度较高。将问题作为用户输入,答案作为模型输出(Markdown格式),可得到一条对话数据。Code-Text:从互联网上收集到的常见面试题及答案,此类问题并不涉及编程,而是侧重于对各种概念的理解。将问题作为用户输入,答案作为模型输出(文本形式),可得到一条对话数据。

相关推荐

封面图片

TACO(Topics in Algorithmic COde Generation dataset)是一个专注于算法代码生成的

(TopicsinAlgorithmicCOdeGenerationdataset)是一个专注于算法代码生成的数据集,旨在为代码生成模型领域提供更具挑战性的训练数据集和评估基准。该数据集由难度更大、更接近真实编程场景的编程竞赛题组成。它强调在实际应用场景中提高或评估模型的理解和推理能力,而不仅仅是实现预定义的函数功能。规模更大:TACO包括训练集(25,443个问题)和测试集(1,000个问题),使其成为当前可用的最大的代码生成数据集。更高质量:TACO数据集中的每个问题都旨在匹配一组不同的解决方案答案,答案大小高达1.55M。这保证了模型在训练过程中不易出现过拟合,并验证了评估结果的有效性。细粒度标签:TACO数据集中的每个问题都包含细粒度标签,例如任务主题、算法、技能和难度级别。这些标签为代码生成模型的训练和评估提供了更准确的参考。

封面图片

Mistral发布首个代码生成人工智能模型Codestral 但不可用于商业活动

Mistral发布首个代码生成人工智能模型Codestral但不可用于商业活动Mistral在一篇博文中解释说,它接受过80多种编程语言的训练,包括Python、Java、C++和JavaScript。Codestral可以完成编码功能、编写测试和"填充"部分代码,还能用英语回答有关代码库的问题。Mistral将这种模式描述为"开放",但这还有待商榷,因为这家初创公司的许可证禁止将Codestral及其产出用于任何商业活动。虽然有"开发"的例外,但即使是"开发"也有注意事项:许可证明确禁止"员工在公司业务活动中的任何内部使用",究其原因可能是Codestral部分训练内容受版权保护。Mistral在博文中没有证实或否认这一点,但这并不奇怪;有证据表明,这家初创公司以前的训练数据集包含版权数据。无论如何,Codestral可能不值得这么麻烦。该模型有220亿个参数,需要一台强大的电脑才能运行。(参数基本上决定了人工智能模型处理问题的能力,比如分析和生成文本)。虽然根据一些基准测试(我们都知道,这些基准测试并不可靠),该模型击败了竞争对手,但这并不能说明它有多厉害。虽然Codestral对大多数开发人员来说并不实用,而且在性能提升方面也是渐进式的,但它肯定会引发关于依赖代码生成模型作为编程助手是否明智的争论。至少在某些编码任务中,开发人员肯定会使用生成式人工智能工具。在2023年6月的StackOverflow民意调查中,44%的开发人员表示,他们现在在开发过程中使用人工智能工具,26%的开发人员计划不久后使用。然而,这些工具有明显的缺陷。GitClear对过去几年中提交到项目仓库的超过1.5亿行代码进行了分析,发现生成式人工智能开发工具正在导致更多错误代码被推送到代码库中。普渡大学的一项研究显示,OpenAI的ChatGPT对编程问题给出的答案有一半以上是错误的。但这并不能阻止Mistral等公司试图将其模式货币化(并获得心智份额)。今天上午,Mistral在其LeChat对话式人工智能平台上推出了托管版Codestral以及付费API。Mistral表示,它还致力于将Codestral纳入LlamaIndex、LangChain、Continue.dev和Tabnine等应用框架和开发环境。...PC版:https://www.cnbeta.com.tw/articles/soft/1432835.htm手机版:https://m.cnbeta.com.tw/view/1432835.htm

封面图片

Meta 推出 LLM Compiler 代码优化模型,可搭配其他 AI 改善代码生成 / 编译能力

Meta推出LLMCompiler代码优化模型,可搭配其他AI改善代码生成/编译能力Meta前天推出了一款名为“LLMCompiler”的模型,该模型基于Meta现有的CodeLlama打造,主打代码优化,目前相关模型已登陆HuggingFace,提供70亿参数及130亿参数两个版本,允许学术及商业使用。Meta认为,尽管业界各大语言模型已在各种编程代码任务中展现了出色的能力,但此类模型在代码优化还有进步空间,目前推出的LLMCompiler模型便是一款专为优化代码任务设计的预训练模型,能够模拟编译器对代码进行优化,或将“已经过优化的代码转换回原本的语言”。LLMCompiler在 5460亿个LLVM-IR和汇编代码标记的庞大语料库上进行了训练,据称能够达到77%的“代码优化潜力”,开发者可以自由将相关模型配合其他 AI 模型一起使用,从而改善生成代码的质量。关注频道@ZaiHuaPd频道爆料@ZaiHuabot

封面图片

数据分析神器:ChatGPT 上线 GPT-4 以来最强应用“代码解释器”

数据分析神器:ChatGPT上线GPT-4以来最强应用“代码解释器”OpenAI的语言模型ChatGPT最近推出了新功能:代码解释器(CodeInterpreter)。这个新功能已经对所有Plus订阅用户开放,代码解释器扩展了ChatGPT的功能,为用户带来了更好的交互式编程体验和强大的数据可视化功能。有了它之后,即使不是程序员,只需要用自然语言向ChatGPT下达指令,也可以完成需要复杂编程技术的任务。使用代码解释器非常简单,用户只需点击ChatGPT平台上的个人资料名,从下拉菜单中进入设置,选择“Beta功能”,就可以找到代码解释器的选项,然后开启即可。代码解释器对于经常使用代码和数据的专业人士和爱好者都非常有用,这是一个多功能的工具,可以用于分析数据、创建图表、编辑文件、执行数学运算等等。——

封面图片

谷歌 Bard 现在可以自己编写代码来回答问题

谷歌Bard现在可以自己编写代码来回答问题谷歌表示Bard在逻辑和推理方面越来越好。谷歌说,现在当你问Bard一个计算任务,如数学或字符串操作,Bard不像其它大语言模型一样显示语言模型的输出,而是会写一个程序,并执行该程序,然后向用户显示该程序的输出作为答案。谷歌举例说,对于“请为我逆转Lollipop这个单词”的问题,ChatGPT会通过语言模型给出答案“pillopoL”,这个答案是错误的。而Bard会显示正确的结果,并给出计算的Python代码。当然,谷歌警告说,Bard可能会对你的问题解释错误从而犯错;也有可能编写了错误的程序,就像人类编写程序一样,往往第一遍是带有错误的。消息来源:投稿:@ZaiHuaBot频道:@TestFlightCN

封面图片

OpenAI与Stack Overflow达成合作 预计可以大幅提高AI模型编程能力

OpenAI与StackOverflow达成合作预计可以大幅提高AI模型编程能力今天OpenAI宣布与StackOverflow达成合作伙伴关系,OpenAI将利用该网站的技术类数据改进人工智能,预计此次双方的合作将可以大幅度提高GPT相关模型在编程开发方面的能力。此次合作分成两个部分:第一个是StackOverflow将在内部使用OpenAIGPT人工智能模型构建新产品;第二个是OpenAI将使用StackOverflowAPI获取数据,这些数据将被用于提高GPT模型的能力。另外StackOverflow也不只是和OpenAI合作,在目前的人工智能热潮下数据是关键,所以StackOverflow还向谷歌提供数据,帮助谷歌提高GoogleGemini系列模型的编程开发能力。来源,频道:@kejiqu群组:@kejiquchat

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人