: 提高编程能力的关键在于数据。CodeGPT是通过GPT生成的用于GPT的代码对话数据集。现在公开了32K条中文数据,让模型更

: 提高编程能力的关键在于数据。CodeGPT是通过GPT生成的用于GPT的代码对话数据集。现在公开了32K条中文数据,让模型更擅长编程。 考虑到代码难度对模型训练效果的影响,此处共收集了四种不同类型、不同难度的代码相关对话数据,收集方法如下: Code-Basic:利用已有的LLM(例如付费API)生成各种编程语言的基础库函数相关的代码对话数据。Prompt类似“请为C语言中的XX函数生成一道非常简单的编程问题及对应的代码答案”,API会输出该基础库函数相关的问题-答案对,将问题作为用户输入,答案作为模型输出(Markdown格式),可得到一条对话数据。 Code-Medium:利用已有的LLM(例如付费API)生成中等难度的编程问题及答案,例如写入内容到文件、查找字符串子串、实现链表等,API同样会输出问题-答案对,将问题作为用户输入,答案作为模型输出(Markdown格式),可得到一条对话数据。 Code-LeetCode:从LeetCode上收集到的问题-答案对,此类问题通常难度较高。将问题作为用户输入,答案作为模型输出(Markdown格式),可得到一条对话数据。 Code-Text:从互联网上收集到的常见面试题及答案,此类问题并不涉及编程,而是侧重于对各种概念的理解。将问题作为用户输入,答案作为模型输出(文本形式),可得到一条对话数据。

相关推荐

封面图片

(Topics in Algorithmic COde Generation dataset)是一个专注于算法代码生成的数据集,

(Topics in Algorithmic COde Generation dataset)是一个专注于算法代码生成的数据集,旨在为代码生成模型领域提供更具挑战性的训练数据集和评估基准。 该数据集由难度更大、更接近真实编程场景的编程竞赛题组成。它强调在实际应用场景中提高或评估模型的理解和推理能力,而不仅仅是实现预定义的函数功能。 规模更大:TACO 包括训练集(25,443 个问题)和测试集(1,000 个问题),使其成为当前可用的最大的代码生成数据集。 更高质量:TACO 数据集中的每个问题都旨在匹配一组不同的解决方案答案,答案大小高达 1.55M。这保证了模型在训练过程中不易出现过拟合,并验证了评估结果的有效性。 细粒度标签:TACO 数据集中的每个问题都包含细粒度标签,例如任务主题、算法、技能和难度级别。这些标签为代码生成模型的训练和评估提供了更准确的参考。

封面图片

Mistral发布首个代码生成人工智能模型Codestral 但不可用于商业活动

Mistral发布首个代码生成人工智能模型Codestral 但不可用于商业活动 Mistral 在一篇博文中解释说,它接受过 80 多种编程语言的训练,包括 Python、Java、C++ 和 JavaScript。Codestral 可以完成编码功能、编写测试和"填充"部分代码,还能用英语回答有关代码库的问题。Mistral 将这种模式描述为"开放",但这还有待商榷,因为这家初创公司的许可证禁止将 Codestral 及其产出用于任何商业活动。虽然有"开发"的例外,但即使是"开发"也有注意事项:许可证明确禁止"员工在公司业务活动中的任何内部使用",究其原因可能是 Codestral 部分训练内容受版权保护。Mistral 在博文中没有证实或否认这一点,但这并不奇怪;有证据表明,这家初创公司以前的训练数据集包含版权数据。无论如何,Codestral 可能不值得这么麻烦。该模型有 220 亿个参数,需要一台强大的电脑才能运行。(参数基本上决定了人工智能模型处理问题的能力,比如分析和生成文本)。虽然根据一些基准测试(我们都知道,这些基准测试并不可靠),该模型击败了竞争对手 ,但这并不能说明它有多厉害。虽然 Codestral 对大多数开发人员来说并不实用,而且在性能提升方面也是渐进式的,但它肯定会引发关于依赖代码生成模型作为编程助手是否明智的争论。至少在某些编码任务中,开发人员肯定会使用生成式人工智能工具。在 2023 年 6 月的 Stack Overflow民意调查中,44% 的开发人员表示,他们现在在开发过程中使用人工智能工具,26% 的开发人员计划不久后使用。然而,这些工具有明显的缺陷。GitClear 对过去几年中提交到项目仓库的超过 1.5 亿行代码进行了分析,发现生成式人工智能开发工具正在导致更多错误代码被推送到代码库中。普渡大学的一项研究显示,OpenAI 的 ChatGPT对编程问题给出的答案有一半以上是错误的。但这并不能阻止 Mistral 等公司试图将其模式货币化(并获得心智份额)。今天上午,Mistral在其Le Chat对话式人工智能平台上推出了托管版Codestral以及付费API。Mistral表示,它还致力于将Codestral纳入LlamaIndex、LangChain、Continue.dev和Tabnine等应用框架和开发环境。 ... PC版: 手机版:

封面图片

:开源代码语言模型,包含了英语和中文两种语言版本的代码生成模型。

:开源代码语言模型,包含了英语和中文两种语言版本的代码生成模型。 模型经过大规模训练,训练数据中87%为代码数据,13%为自然语言数据。模型大小提供1B、5.7B、6.7B、33B等多个版本,满足不同需求。 模型在人工评估、多语言程序、MBPP、DS-1000等多个编程基准上均表现出色,在项目级代码补全、代码插入等任务有很好的效果。

封面图片

IBM 开源 Granite 代码模型

IBM 开源 Granite 代码模型 IBM 开源了它用于辅助编程的代码模型,源代码托管在 GitHub 上,采用 Apache License 2.0 许可证,允许商业使用。与其它 AI 模型不同的是,IBM 致力于避免模型的版权问题,使用了开放数据集如 GitHub Code Clean、Starcoder、开放代码库和 GitHub issues 等进行训练。Granite 是 decoder-only 代码模型,可用于修 bug、解释代码和生成代码文档,使用了 116 种编程语言的代码进行训练,参数规模 30 亿、80 亿、200 亿和 340 亿。IBM 称测试显示 Granite 在开源代码模型中表现最出色。来源 , 频道:@kejiqu 群组:@kejiquchat

封面图片

OpenAI与Stack Overflow达成合作 预计可以大幅提高AI模型编程能力

OpenAI与Stack Overflow达成合作 预计可以大幅提高AI模型编程能力 今天 OpenAI 宣布与 Stack Overflow 达成合作伙伴关系,OpenAI 将利用该网站的技术类数据改进人工智能,预计此次双方的合作将可以大幅度提高 GPT 相关模型在编程开发方面的能力。 此次合作分成两个部分:第一个是 Stack Overflow 将在内部使用 OpenAI GPT 人工智能模型构建新产品;第二个是 OpenAI 将使用 Stack Overflow API 获取数据,这些数据将被用于提高 GPT 模型的能力。 另外 Stack Overflow 也不只是和 OpenAI 合作,在目前的人工智能热潮下数据是关键,所以 Stack Overflow 还向谷歌提供数据,帮助谷歌提高 Google Gemini 系列模型的编程开发能力。来源 , 频道:@kejiqu 群组:@kejiquchat

封面图片

Hugging Face 和 ServiceNow 发布免费代码生成模型 StarCoder

Hugging Face 和 ServiceNow 发布免费代码生成模型 StarCoder AI 创业公司 Hugging Face 和 ServiceNow 发布了免费的代码生成模型 。类似 DeepMind 的AlphaCode、亚马逊的 CodeWhisperer 和 GitHub 的 Copilot(基于 OpenAI 的 Codex),StarCoder 使用 Apache License 2.0 许可证,允许任何人免费使用,但严格意义上不是开源模型,它禁止用户使用该模型生成或传播恶意代码。StarCoder 使用了开源代码数据集 The Stack 训练,有 150 亿参数。其数据集包括了逾 80 种不同编程语言和来自 github issues 和 commits 的文本。#AI 来源 , 来自:雷锋 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人