TACO(Topics in Algorithmic COde Generation dataset)是一个专注于算法代码生成的

(TopicsinAlgorithmicCOdeGenerationdataset)是一个专注于算法代码生成的数据集,旨在为代码生成模型领域提供更具挑战性的训练数据集和评估基准。该数据集由难度更大、更接近真实编程场景的编程竞赛题组成。它强调在实际应用场景中提高或评估模型的理解和推理能力,而不仅仅是实现预定义的函数功能。规模更大:TACO包括训练集(25,443个问题)和测试集(1,000个问题),使其成为当前可用的最大的代码生成数据集。更高质量:TACO数据集中的每个问题都旨在匹配一组不同的解决方案答案,答案大小高达1.55M。这保证了模型在训练过程中不易出现过拟合,并验证了评估结果的有效性。细粒度标签:TACO数据集中的每个问题都包含细粒度标签,例如任务主题、算法、技能和难度级别。这些标签为代码生成模型的训练和评估提供了更准确的参考。

相关推荐

封面图片

hatTTS

项目名称:ChatTTS项目功能:文字转语音项目简介:一个生成式语音模型,支持中英文,并通过超过10万小时的训练数据进行训练。能够生成自然且富有表现力的语音合成,支持多种说话人,便于互动对话。提供了基本和高级使用方法,包括如何加载模型、生成语音,以及对说话人和语音韵律进行细粒度控制的示例代码。项目地址:试用地址:

封面图片

Soul 宣布上线自研大模型 “SoulX”

Soul宣布上线自研大模型“SoulX”近日,新型社交平台Soul宣布上线自研语言大模型SoulX。据了解,该模型基于海量数据训练,具备prompt驱动、条件可控生成、上下文理解、多模态理解等能力。在保证对话流畅、自然、具备情感温度的同时,还能覆盖百种细粒度风险类别,通过训练数据安全筛选、安全SFT数据构造、RLHF安全对齐、推理拦截等策略来构建安全体系,保证了大模型的内容生产质量和安全性。(新浪科技)

封面图片

Hugging Face 和 ServiceNow 发布免费代码生成模型 StarCoder

HuggingFace和ServiceNow发布免费代码生成模型StarCoderAI创业公司HuggingFace和ServiceNow发布了免费的代码生成模型。类似DeepMind的AlphaCode、亚马逊的CodeWhisperer和GitHub的Copilot(基于OpenAI的Codex),StarCoder使用ApacheLicense2.0许可证,允许任何人免费使用,但严格意义上不是开源模型,它禁止用户使用该模型生成或传播恶意代码。StarCoder使用了开源代码数据集TheStack训练,有150亿参数。其数据集包括了逾80种不同编程语言和来自githubissues和commits的文本。#AI来源,https://github.com/bigcode-project/starcoder来自:雷锋频道:@kejiqu群组:@kejiquchat投稿:@kejiqubot

封面图片

英伟达联合推出 StarCoder2 模型:生成、补全、调试代码一气呵成

英伟达联合推出StarCoder2模型:生成、补全、调试代码一气呵成英伟达联合HuggingFace和ServiceNow,发布了名为的LLMs系列模型,希望成为代码生成领域的新标准,具备性能、透明度和成本效益等诸多优势。该系列模型包括一个由ServiceNow训练的30亿参数模型、一个由HuggingFace训练的70亿参数模型和一个由英伟达训练的150亿参数模型。这是通过使用名为Stackv2的新代码数据集实现的,该数据集比Stackv1大七倍;新的训练技术也意味着该模型可以更好地理解COBOL等低资源编程语言、数学和程序源代码讨论。StarCoder2经过619门编程语言培训,可以执行源代码生成、工作流生成、文本摘要等专业任务。英伟达表示,开发人员可以利用它进行代码补全、高级代码总结、代码片段检索等,从而提高工作效率。StarCoder2采用BigCodeOpenRAIL-M许可证,允许免版税访问和使用。https://github.com/bigcode-project/starcoder2https://huggingface.co/bigcode频道:@kejiqu群组:@kejiquchat

封面图片

CodeGPT: 提高编程能力的关键在于数据。CodeGPT是通过GPT生成的用于GPT的代码对话数据集。现在公开了32K条中文

:提高编程能力的关键在于数据。CodeGPT是通过GPT生成的用于GPT的代码对话数据集。现在公开了32K条中文数据,让模型更擅长编程。考虑到代码难度对模型训练效果的影响,此处共收集了四种不同类型、不同难度的代码相关对话数据,收集方法如下:Code-Basic:利用已有的LLM(例如付费API)生成各种编程语言的基础库函数相关的代码对话数据。Prompt类似“请为C语言中的XX函数生成一道非常简单的编程问题及对应的代码答案”,API会输出该基础库函数相关的问题-答案对,将问题作为用户输入,答案作为模型输出(Markdown格式),可得到一条对话数据。Code-Medium:利用已有的LLM(例如付费API)生成中等难度的编程问题及答案,例如写入内容到文件、查找字符串子串、实现链表等,API同样会输出问题-答案对,将问题作为用户输入,答案作为模型输出(Markdown格式),可得到一条对话数据。Code-LeetCode:从LeetCode上收集到的问题-答案对,此类问题通常难度较高。将问题作为用户输入,答案作为模型输出(Markdown格式),可得到一条对话数据。Code-Text:从互联网上收集到的常见面试题及答案,此类问题并不涉及编程,而是侧重于对各种概念的理解。将问题作为用户输入,答案作为模型输出(文本形式),可得到一条对话数据。

封面图片

#GitHub#TTSChatTTS-对话式高可控的语音合成模型▎项目功能:文本转语音模型▎项目介绍:一款专门为对话场景设计的文

#GitHub#TTSChatTTS-对话式高可控的语音合成模型▎项目功能:文本转语音模型▎项目介绍:一款专门为对话场景设计的文本转语音模型,例如LLM助手对话任务,支持英文和中文两种语言。最大的模型使用了10万小时以上的中英文数据进行训练。在HuggingFace中开源的版本为4万小时训练且未SFT的版本。使用需知为了限制ChatTTS的使用,我们在4w小时模型的训练过程中添加了少量额外的高频噪音,并用mp3格式尽可能压低了音质,以防不法分子用于潜在的犯罪可能。同时我们在内部训练了检测模型,并计划在未来开放。▎项目亮点:⏺对话式TTS:ChatTTS针对对话式任务进行了优化,实现了自然流畅的语音合成,同时支持多说话人。⏺细粒度控制:该模型能够预测和控制细粒度的韵律特征,包括笑声、停顿和插入词等。⏺更好的韵律:ChatTTS在韵律方面超越大部分开源TTS模型。同时提供预训练模型,支持进一步研究。▎项目地址:点击打开

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人