Databricks 5000名员工原创了15000个比GPT质量更好的数据集用于Dolly 2.0,并开源

Databricks5000名员工原创了15000个比GPT质量更好的数据集用于Dolly2.0,并开源Databricks:我们正在开源整个,包括训练代码、数据集和模型权重,所有这些都适合商业用途。这意味着任何组织都可以创建、拥有和定制可以与人交谈的强大LLM,而无需支付API访问费用或与第三方共享数据。如何开始?要下载Dolly2.0模型砝码,只需访问页面并访问上的Dolly存储库以下载.并加入我们的,了解如何为您的组织利用LLM。来源,来自:雷锋频道:@kejiqu群组:@kejiquchat投稿:@kejiqubot

相关推荐

封面图片

Databricks 发布开源指令微调大语言模型 Dolly 2.0

Databricks发布开源指令微调大语言模型Dolly2.0Databricks公司两周前发布了它的指令遵循(instruction-following)大语言模型Dolly,本周三它发布了——可授权商业使用的开源指令微调大语言模型。Dolly2.0有120亿参数,基于EleutherAIpythia模型家族,使用高质量的人类生成的指令遵循数据集进行微调。Databricks开源了Dolly2.0的整个系统,包括训练代码、数据集和模型权重,全都适合商业使用。而目前开源社区流行的LLaMA衍生模型使用的是非商业使用授权。来源,来自:雷锋频道:@kejiqu群组:@kejiquchat投稿:@kejiqubot

封面图片

英伟达的通用大模型 Nemotron,开源了最新的 3400 亿参数版本。

英伟达的通用大模型Nemotron,开源了最新的3400亿参数版本。本周五,英伟达宣布推出Nemotron-4340B。它包含一系列开放模型,开发人员可以使用这些模型生成合成数据,用于训练大语言模型(LLM),可用于医疗健康、金融、制造、零售等所有行业的商业应用。高质量的训练数据在自定义LLM的响应性能、准确性和质量中起着至关重要的作用——但强大的数据集经常是昂贵且难以访问的。通过独特的开放模型许可,Nemotron-4340B为开发人员提供了一种免费、可扩展的方式来生成合成数据,从而帮助人们构建强大的LLM。Nemotron-4340B系列包括基础、Instruct和Reward模型,它们形成了一个pipeline,用于生成训练和改进LLM的合成数据。这些模型经过优化,可与NVIDIANeMo配合使用,后者是一个用于端到端模型训练的开源框架,包括数据管理、定制和评估。它们还针对开源NVIDIATensorRT-LLM库的推理进行了优化。英伟达表示,Nemotron-4340B现已可从HuggingFace下载。开发人员很快就能在ai.nvidia.com上访问这些模型,它们将被打包为NVIDIANIM微服务,并带有可在任何地方部署的标准应用程序编程接口。大语言模型可以帮助开发人员在无法访问大型、多样化标记数据集的情况下生成合成训练数据。Nemotron-4340BInstruct模型创建了多样化的合成数据,模仿了现实世界数据的特征,有助于提高数据质量,从而提高自定义LLM在各个领域的性能和鲁棒性。来源:机器之心

封面图片

RT Hao Chen

RT HaoChen又来搅局者了,Databricks利用了自己公司5000名员工原创了15K个比GPT质量更好的问答做的Dolly2.0。并开源了全部内容,包括培训代码、数据集和模型权重。任何组织都可以创建、拥有和定制强大的LLM,可以与人交谈,而无需支付API访问费用或与第三方共享数据。

封面图片

关于LLM自生成数据集,Sam Altman也说他们几乎不需要人工标注了。在开源拥有更多可能性的图景中,直接生成更高质量的数据集

关于LLM自生成数据集,SamAltman也说他们几乎不需要人工标注了。在开源拥有更多可能性的图景中,直接生成更高质量的数据集也成为趋势。目前看到最新颖的相关研究是上个月微软和北大的WizardLM(基于开源的LLaMa7B)【https://arxiv.org/abs/2304.12244】,模型能力上,复杂表现能够超越GPT3.5;研究方面也是少有的系统性地呈现自训练数据集的探索。WizardLM把扩展数据集完全交给LLM。利用一个「精心设计」的prompt,模型自主将一个简单的问题/指令扩展、深化、复杂化。比如,可以从简单指令“1+1=?”扩展出更复杂、更具有难度的指令(图1)。简单翻了一下他们的prompt(虽然原本就是中国人写的XD)。开玩笑地说,自生成数据集的路上,我们向着被LLM替代又近了一步。下一步很可能就是让LLM更有参照性地自生成prompt来自监督指令扩展,从而让训练更具效率。*这两天和老前辈工程师“友好交流”了LLM的表现,上一辈的技术人员相信精细的工艺和细末的细节,这是工业化的传统沉浸在程序和端口中的习性。但LLM明显更像一种认知体系、一种逻辑和行为的重塑框架,遵循着LLM,我们会走到更宏观的、边界模糊的世界中去吗?虽然有些过分乐观,但我常常“不得不”这样想。

封面图片

Databricks利用了自己公司5000名员工原创了15K个比GPT质量更好的问答做的Dolly2.0。https://twitter.com/haoel/status/1646660889058369537

封面图片

【英伟达开源Nemotron-4340B系列模型,用于训练LLM】近日,英伟达开源Nemotron-4340B(3400亿参数)

【英伟达开源Nemotron-4340B系列模型,用于训练LLM】近日,英伟达开源Nemotron-4340B(3400亿参数)系列模型。开发人员可使用该系列模型生成合成数据,用于训练大型语言模型(LLM),用于医疗保健、金融、制造、零售和其他行业的商业应用。Nemotron-4340B包括基础模型Base、指令模型Instruct和奖励模型Reward。英伟达使用了9万亿个token(文本单位)进行训练。Nemotron-4340B-Base在常识推理任务,如ARC-c、MMLU和BBH基准测试中,可以和Llama-370B、Mixtral8x22B和Qwen-272B模型媲美。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人