:海外中文开源大语言模型,基于 Llama-7B, -13B, -33B, -65B 进行领域上的持续预训练,使用了接近15M条

None

相关推荐

封面图片

: 完全开源的大型语言模型,提供预训练数据、数据处理流程、预训练脚本和对齐代码,支持中英文,性能与LLaMA2 7B相当

封面图片

苹果发布 OpenELM,基于开源训练和推理框架的高效语言模型 - IT之家

封面图片

:更好的通用预训练语言模型

:更好的通用预训练语言模型 Pile-T5通过在Pile数据集上预训练T5模型,并使用LLAMA分词器,改进了原始T5的编码能力。 Pile-T5总体上明显优于原始T5v1.1模型,尤其在代码任务上的提升更大。这主要得益于Pile中包含代码数据以及LLAMA分词器包含编程常用字符。 在多个下游任务的微调中,Pile-T5不同规模的模型表现优异,如在SuperGLUE、CodeXGLUE、MMLU和BigBench Hard上的结果。 尽管与专门微调的Flan-T5相比略逊色,但Pile-T5仍优于T5v1.1,表明其预训练质量更高,更适合多任务微调。 公开了Pile-T5模型在不同训练步长的中间检查点,这有利于模型演化和解释性研究。 Pile-T5 Large模型在某些任务上的表现不佳,可能存在bug,用户需谨慎使用。

封面图片

| #指南 - Transformer是训练语言模型最常用的架构。预训练再微调是训练语言模型的主要方法。

| #指南 - Transformer是训练语言模型最常用的架构。预训练再微调是训练语言模型的主要方法。 - 微调需要收集任务特定的数据集,一般大小在几十MB到几GB。 - 数据预处理非常重要,需要将数据清理成合适的格式,如JSONL。 - 主要的训练超参数包括batch size、epoch数、学习率、梯度累积步数等。 - LoRA是一种减少GPU内存占用的微调方法,QLoRA则通过量化进一步降低了内存需求。 - 学习曲线可以诊断模型的训练情况,判断是否欠拟合、过拟合或拟合良好。 - 模型量化可以降低模型大小,使大模型也能在低显存环境下使用。 - 模型适配器方法可以进行个性化微调而不加载整个模型。 - 模型融合可以组合多个模型的优势得到更优的单模型。 - 合理配置训练超参数以及诊断学习曲线对获得期望的模型至关重要。

封面图片

Perplexity推出,可快速访问开源大型语言模型如Mistral 7B、Llama2 13B等

Perplexity推出,可快速访问开源大型语言模型如Mistral 7B、Llama2 13B等 - pplx-api易于使用,开发者可以在几分钟内通过REST API整合先进的开源模型。 - pplx-api推理速度很快,比其他解决方案的延迟降低了2-3倍。 - pplx-api基础设施经过验证,可以承载产品级流量。 - pplx-api采用NVIDIA TensorRT-LLM和AWS A100 GPU等先进软硬件,实现了优化。 - pplx-api已用于Perplexity的产品中,相比外部API每年节省了62万美元成本。 - pplx-api兼容OpenAI API,可以轻松集成到现有应用中。 - 未来pplx-api将支持更多定制和开源模型。

封面图片

通过整合多开源数据集并进行深度处理,构建了迄今最大的开源NLP预训练语料Zyda,质量接近商业语料,为开源语言模型研究奠定数据基

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人