由Mixtral-8x7B-Instruct-v0.1生成的合成数据集,包含超过30亿Token,涵盖了教科书、博客、故事等各种

由Mixtral-8x7B-Instruct-v0.1生成的合成数据集,包含超过30亿Token,涵盖了教科书、博客、故事等各种文本类型。 数据集包含8个子集,涵盖了多个主题,如网络样本、斯坦福课程大纲、故事、WikiHow文章等。 通过使用不同样式和受众,以及精心设计的提示,增加了内容的多样性和信息熵。通过MinHash去重,仅有不到1%的重复样本。还通过去污染流程,排除了来自测试基准的样本,保证数据的干净性。 该数据集可用于研究合成数据领域,促进人工智能相关研究的发展。 | #数据集

相关推荐

封面图片

好东西,一个超过一百万条、约4400万个 GPT-4/3.5 token的、全新合成动漫主题文本数据集。

好东西,一个超过一百万条、约4400万个 GPT-4/3.5 token的、全新合成动漫主题文本数据集。 创建方式为:获取网络爬取的文本数据(不包含维基百科内容),将完整的网页文本通过支持长文本窗口的大型语言模型(GPT-4-32k/GPT-3.5-16K,根据难度动态切换),并合成一个精炼版本。 数据集页面:

封面图片

专注于快速生成高质量结构化表格数据的框架,支持许多单表和多表数据合成算法,可实现高达120倍的性能提升,并支持差分隐私和其他方法

专注于快速生成高质量结构化表格数据的框架,支持许多单表和多表数据合成算法,可实现高达120倍的性能提升,并支持差分隐私和其他方法以增强合成数据的安全性。 合成数据是机器根据真实数据和算法生成的,它不包含敏感信息,但可以保留真实数据的特征。合成数据与真实数据之间不存在对应关系,并且不受 GDPR 和 ADPPA 等隐私法规的约束。实际应用中,无需担心隐私泄露的风险。高质量的合成数据还可以应用于数据开放、模型训练与调试、系统开发与测试等各个领域。 特点 高性能:支持多种统计数据合成算法,实现高达120倍的性能提升,无需GPU设备;针对大数据场景进行优化,有效降低内存消耗;持续跟踪学术界和工业界的最新进展,及时推出对优秀算法和模型的支持;通过torch等框架为深度学习模型提供分布式训练支持。 隐私增强功能:SDG支持差分隐私、匿名化等方法来增强合成数据的安全性。 易于扩展:支持以插件包的形式扩展模型、数据处理、数据连接器等 | #框架

封面图片

字节跳动语音合成seed-tts评估工具:用于评估零样本语音生成模型的跨域客观测试集,通过英语和普通话公共语料库的样本来衡量模型

字节跳动语音合成seed-tts评估工具:用于评估零样本语音生成模型的跨域客观测试集,通过英语和普通话公共语料库的样本来衡量模型性能,包含英语和普通话的公共语料库样本,采用词错误率和说话人相似度作为客观评价指标 | #工具

封面图片

完整的机器学习包,包含 35 个关于大多数数据科学和机器学习主题的端到端和交互式笔记本。该软件包涵盖了用于操作和分析数据集的不同

完整的机器学习包,包含 35 个关于大多数数据科学和机器学习主题的端到端和交互式笔记本。该软件包涵盖了用于操作和分析数据集的不同技术、经典 #机器学习 算法、神经网络基础知识以及用于计算机视觉和自然语言处理的深度学习。 ||||

封面图片

一个包含大约100万个AI偏好的数据集,从teknium/OpenHermes-2.5中提取而来。

一个包含大约100万个AI偏好的数据集,从teknium/OpenHermes-2.5中提取而来。 它结合了来自源数据集和另外两个模型Mixtral-8x7B-Instruct-v0.1和Nous-Hermes-2-Yi-34B的回答,并使用PairRM作为偏好模型对生成结果进行评分和排名。 该数据集可用于训练偏好模型或通过直接偏好优化等技术对齐语言模型。 | #数据集

封面图片

:关于Docker的完整教程,包含了使用不同技术栈构建的各种应用的Docker化实例,涵盖了Docker的基础知识、镜像和容器的

:关于Docker的完整教程,包含了使用不同技术栈构建的各种应用的Docker化实例,涵盖了Docker的基础知识、镜像和容器的管理、最新的Docker特性等内容。 通过这个项目,可以学习到如何将应用容器化,并掌握Docker在不同场景下的使用方法和最佳实践。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人