一个包含大约100万个AI偏好的数据集,从teknium/OpenHermes-2.5中提取而来。

一个包含大约100万个AI偏好的数据集,从teknium/OpenHermes-2.5中提取而来。它结合了来自源数据集和另外两个模型Mixtral-8x7B-Instruct-v0.1和Nous-Hermes-2-Yi-34B的回答,并使用PairRM作为偏好模型对生成结果进行评分和排名。该数据集可用于训练偏好模型或通过直接偏好优化等技术对齐语言模型。#数据集

相关推荐

封面图片

由Mixtral-8x7B-Instruct-v0.1生成的合成数据集,包含超过30亿Token,涵盖了教科书、博客、故事等各种

由Mixtral-8x7B-Instruct-v0.1生成的合成数据集,包含超过30亿Token,涵盖了教科书、博客、故事等各种文本类型。数据集包含8个子集,涵盖了多个主题,如网络样本、斯坦福课程大纲、故事、WikiHow文章等。通过使用不同样式和受众,以及精心设计的提示,增加了内容的多样性和信息熵。通过MinHash去重,仅有不到1%的重复样本。还通过去污染流程,排除了来自测试基准的样本,保证数据的干净性。该数据集可用于研究合成数据领域,促进人工智能相关研究的发展。#数据集

封面图片

Hugging Face 开源“世界最大”AI 训练合成数据集 Cosmopedia

HuggingFace开源“世界最大”AI训练合成数据集CosmopediaHuggingFace近日开源了一款名为“Cosmopedia”的 AI 训练数据集,号称是目前世界上最大的合成数据集。该数据集内容均由Mixtral7b模型汇总生成,其中包含大量教科书、博客文章、故事小说、WikiHow教程,共计250亿个Token。HuggingFace表示,这次开源的数据集为0.1版本,未来团队还将持续更新该数据集,推进业界 AI 训练发展。项目地址:消息来源:线索:@ZaiHuabot投稿:@TNSubmbot频道:@TestFlightCN

封面图片

英伟达开源Nemotron-4 340B 可用合成数据训出特定开源通用模型

英伟达开源Nemotron-4340B可用合成数据训出特定开源通用模型英伟达发布全新开源模型Nemotron-4340B,有可能彻底改变训练LLM的方式——或许以后各行各业都不再需要昂贵的真实世界数据集了。根据英伟达官方发文,Nemotron-4340B包括基础模型Base、指令模型Instruct和奖励模型Reward,并构建了一个高质量合成数据生成的完整流程。模型支持4K上下文窗口、50多种自然语言和40多种编程语言。训练数据方面,英伟达采用了高达9万亿个token。其中,8万亿用于预训练,1万亿用于继续训练以提高质量。Nemotron-4340B指令模型可以帮助开发者生成合成训练数据。这些多样化的合成数据,模仿了真实世界的数据特征,因而数据质量明显提升,从而提升了各领域定制LLM的性能和稳定性。而且,为了进一步提高AI生成数据的质量,开发者还可以用Nemotron-4340B奖励模型,来筛选高质量的响应。此外,为了提高模型质量,开发者可以使用NeMoAligner和由Nemotron-4340B奖励模型标注的数据集来对齐模型。根据大模型竞技场LMSYS的消息,Nemotron-4340B已直接超越了Mixtral8x22B、Claudesonnet、Llama370B、Qwen2。关注频道@ZaiHuaPd频道爆料@ZaiHuabot

封面图片

用 ORPO 将 Llama 3 的性能提升到新高度 | 详文

用ORPO将Llama3的性能提升到新高度ORPO(OddsRatioPreferenceOptimization)是一种新的微调技术,可以将传统的监督微调和偏好对齐阶段合并为一个过程,从而减少计算资源和训练时间。ORPO通过修改语言建模目标,将负对数似然损失与比值(OR)项相结合,以弱化被拒绝的响应并强化被选择的响应,让模型同时学习目标任务和人类偏好。文章使用TRL库中的ORPOTrainer在Llama38B模型上进行ORPO微调,数据集包含DPO偏好对,共1000个样本。尽管由于样本量少仅训练了1个epoch,但微调后的模型在Nous的基准测试中表现良好,所有指标上均优于Llama3原模型。ORPO展现了作为新的微调范式的潜力,未来在更大规模的偏好数据集上进行充分训练将产生更好的效果。选择高质量的数据集也非常重要。当前是开源社区的活跃时期,正在发布越来越多高质量的开源模型,开源模型与专有模型的差距正在缩小,微调是获得最佳性能的关键。

封面图片

AWS公开数据集 亚马逊在其 Amazon Web Services 中提供了一些大型数据集可以免费下载,需要注册一个aws账户

亚马逊在其AmazonWebServices中提供了一些大型数据集可以免费下载,需要注册一个aws账户,新用户有免费访问的权限Google提供了一些#数据集作为其BigQuery工具的一部分。包括GitHub公共资料库的数据,HackerNews的所有故事和评论。Youtube标签视频数据集包括来自4800个可视化实体的800万个YouTube视频ID和相关标签。它具有数十亿帧的预计算的、最先进的视觉功能

封面图片

SSLRec是一个基于 PyTorch 的深度学习框架,用于通过自我监督学习技术增强的推荐系统。包含常用的数据集、用于数据处理、

SSLRec是一个基于PyTorch的深度学习框架,用于通过自我监督学习技术增强的推荐系统。包含常用的数据集、用于数据处理、训练、测试、评估和最先进的研究模型的代码脚本。SSLRec提供了大量实用函数和易于使用的界面,简化了推荐模型的开发和评估。突出特点灵活的模块化架构。SSLRec库采用模块化架构,可以轻松定制和组合模块。这使用户能够创建适合其特定需求和要求的个性化推荐模型。多样化的推荐场景。SSLRec库是一个多功能工具,适合有兴趣在不同推荐系统研究领域构建有效推荐模型的研究人员和从业者。综合最先进的模型。我们的SSLRec框架为各种场景提供了广泛的SSL增强推荐模型。研究人员可以使用先进技术评估这些模型,并将其作为推动推荐系统领域创新的基础。统一数据馈送和标准评估协议。SSLRec框架具有统一的数据馈送器和标准评估协议,可以轻松加载和预处理来自各种来源和格式的数据,同时确保对推荐模型的客观和公平评估。丰富的实用功能。SSLRec库提供了大量实用函数,可以简化推荐模型的开发和评估。这些功能结合了推荐系统的常见功能以及图操作、网络架构和损失函数的自监督学习。易于使用的界面。我们提供了一个用户友好的界面,可以简化推荐模型的训练和评估。这使得研究人员和从业者能够轻松高效地试验各种模型和配置。#框架

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人