指令微调数据集、模型、论文和知识库大列表 |

None

相关推荐

封面图片

代表性LLM文本数据集大列表,包括预训练语料库、微调指令数据集、偏好数据集、评估数据集和传统NLP数据集 | #数据集

封面图片

#发现频道怪兽AI知识库大模型

封面图片

: 基于大语言模型和多向量数据库的知识库问答系统白盒化解决方案

封面图片

持续更新的中文指令微调数据集,支持双语微调和数据修正。

持续更新的中文指令微调数据集,支持双语微调和数据修正。 本数据集包括中文和英文的混合数据集,方便双语微调,以及后续做持续的数据修正。 原始的Alpaca英文数据集也存在不少的问题,个别的数学类的sample是错的,有少部分output字段需要修正,一些的标签没有对齐等。本数据集会对原始的数据集进行修改和修正。再此基础上,翻译出对应的中文版本,中文版基本是原始sample的翻译,但是对于一些比如押韵类、时态类的一些instruction,直接翻译导致韵脚丢失,时态不一致等。需要对应的进行人工改写。主要分为以下几个方面: 修改原始英文数据集的一些问题 翻译为中文数据集 调整直译导致的一些sample code等一些特殊的输出不进行翻译 对齐一些特殊的标签 或者拒绝生成等输出 | #数据集

封面图片

该存储库收集了与同声传译研究相关的 tookits、常用数据集和论文列表。

封面图片

Databricks 发布开源指令微调大语言模型 Dolly 2.0

Databricks 发布开源指令微调大语言模型 Dolly 2.0 Databricks 公司两周前发布了它的指令遵循(instruction-following)大语言模型 Dolly,本周三它发布了可授权商业使用的开源指令微调大语言模型。Dolly 2.0 有 120 亿参数,基于 EleutherAI pythia 模型家族,使用高质量的人类生成的指令遵循数据集进行微调。Databricks 开源了 Dolly 2.0 的整个系统,包括训练代码、数据集和模型权重,全都适合商业使用。而目前开源社区流行的 LLaMA 衍生模型使用的是非商业使用授权。来源 , 来自:雷锋 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人