TACO(Topics in Algorithmic COde Generation dataset)是一个专注于算法代码生成的
(TopicsinAlgorithmicCOdeGenerationdataset)是一个专注于算法代码生成的数据集,旨在为代码生成模型领域提供更具挑战性的训练数据集和评估基准。该数据集由难度更大、更接近真实编程场景的编程竞赛题组成。它强调在实际应用场景中提高或评估模型的理解和推理能力,而不仅仅是实现预定义的函数功能。规模更大:TACO包括训练集(25,443个问题)和测试集(1,000个问题),使其成为当前可用的最大的代码生成数据集。更高质量:TACO数据集中的每个问题都旨在匹配一组不同的解决方案答案,答案大小高达1.55M。这保证了模型在训练过程中不易出现过拟合,并验证了评估结果的有效性。细粒度标签:TACO数据集中的每个问题都包含细粒度标签,例如任务主题、算法、技能和难度级别。这些标签为代码生成模型的训练和评估提供了更准确的参考。
在Telegram中查看相关推荐
🔍 发送关键词来寻找群组、频道或视频。
启动SOSO机器人