由Mixtral-8x7B-Instruct-v0.1生成的合成数据集,包含超过30亿Token,涵盖了教科书、博客、故事等各种
由Mixtral-8x7B-Instruct-v0.1生成的合成数据集,包含超过30亿Token,涵盖了教科书、博客、故事等各种文本类型。 数据集包含8个子集,涵盖了多个主题,如网络样本、斯坦福课程大纲、故事、WikiHow文章等。 通过使用不同样式和受众,以及精心设计的提示,增加了内容的多样性和信息熵。通过MinHash去重,仅有不到1%的重复样本。还通过去污染流程,排除了来自测试基准的样本,保证数据的干净性。 该数据集可用于研究合成数据领域,促进人工智能相关研究的发展。 | #数据集
在Telegram中查看相关推荐

🔍 发送关键词来寻找群组、频道或视频。
启动SOSO机器人