中文LLaMA-2 & Alpaca-2大语言模型 ()

中文LLaMA-2 & Alpaca-2大语言模型 () 本项目基于Meta发布的可商用大模型Llama-2开发，是中文LLaMA&Alpaca大模型的第二期项目，开源了中文LLaMA-2基座模型和Alpaca-2指令精调大模型。这些模型在原版Llama-2的基础上扩充并优化了中文词表，使用了大规模中文数据进行增量预训练，进一步提升了中文基础语义和指令理解能力，相比一代相关模型获得了显著性能提升。相关模型支持4K上下文并可通过NTK方法最高扩展至18K+。本项目主要内容：针对Llama-2模型增加了新版中文词表，开源了中文LLaMA-2和Alpaca-2大模型了预训练脚本、开源指令精调脚本，用户可根据需要进一步训练模型使用个人电脑的CPU/GPU在本地快速进行大模型仿真和部署体验支持Transformers , llama.cpp , text- Generation-webui , LangChain , vLLM等LLaMA生态目前已开源的模型：Chinese-LLaMA-2-7B, Chinese-Alpaca-2-7B

在Telegram中查看

相关推荐

LaWGPT：基于中文法律知识的大语言模型

LaWGPT：基于中文法律知识的大语言模型该系列模型在通用中文基座模型（如 Chinese-LLaMA、ChatGLM 等）的基础上扩充法律领域专有词表、大规模中文法律语料预训练，增强了大模型在法律领域的基础语义理解能力。在此基础上，构造法律领域对话问答数据集、中国司法考试数据集进行指令精调，提升了模型对法律内容的理解和执行能力。来自：雷锋频道：@kejiqu 群组：@kejiquchat 投稿：@kejiqubot

Databricks 发布开源指令微调大语言模型 Dolly 2.0

Databricks 发布开源指令微调大语言模型 Dolly 2.0 Databricks 公司两周前发布了它的指令遵循（instruction-following）大语言模型 Dolly，本周三它发布了可授权商业使用的开源指令微调大语言模型。Dolly 2.0 有 120 亿参数，基于 EleutherAI pythia 模型家族，使用高质量的人类生成的指令遵循数据集进行微调。Databricks 开源了 Dolly 2.0 的整个系统，包括训练代码、数据集和模型权重，全都适合商业使用。而目前开源社区流行的 LLaMA 衍生模型使用的是非商业使用授权。来源，来自：雷锋频道：@kejiqu 群组：@kejiquchat 投稿：@kejiqubot

一个比较不错的中文大模型解决方案，代码完全开源，无商用限制。

一个比较不错的中文大模型解决方案，代码完全开源，无商用限制。近日，Colossal-AI 团队充分利用了 LLaMA-2 的基础能力，采用高效的训练方法，仅使用约 8.5B token 数据、15 小时、数千元的训练成本，成功构建了性能卓越的中文 LLaMA-2，在多个评测榜单性能优越。相较于原始 LLaMA-2，在成功提升中文能力的基础上，进一步提升其英文能力，性能可与开源社区同规模预训练 SOTA 模型媲美。该项目在 GitHub 完全开源了全套训练流程、代码及权重，无商用限制，并提供了一个完整的评估体系框架 ColossalEval，以实现低成本的可复现性。不仅如此，相关方案还可迁移应用到任意垂类领域，以及从头预训练大模型的低成本构建。 |

4050亿参数 Meta或将7月23日发布迄今最强大Llama 3模型

4050亿参数 Meta或将7月23日发布迄今最强大Llama 3模型 Meta公司拒绝对上述消息置评。周五盘中，低开的Meta股价跌幅收窄，盘初曾跌3.6%，午盘跌不足2%，仍将在周四大幅回落超4%后连跌两日，或将刷新6月28日以来收盘低位。去年7月Meta发布的Llama 2有三个版本，最大版本70B的参数规模为700亿。今年4月，Meta发布Llama 3Meta，称它为“迄今为止能力最强的开源LLM”。当时推出的Llama 3有8B和70B两个版本。Meta CEO扎克伯格当时称，大版本的Llama 3将有超过4000亿参数。Meta并未透露会不会将4000亿参数规模的Llama 3开源，当时它还在接受训练。对比前代，Llama 3有了质的飞跃。Llama 2使用2万亿个 token进行训练，而训练Llama 3大版本的token超过15 万亿。Meta称，由于预训练和训练后的改进，其预训练和指令调优的模型是目前8B和70B两个参数规模的最佳模型。在训练后程序得到改进后，模型的错误拒绝率（FRR）大幅下降，一致性提高，模型响应的多样性增加。在推理、代码生成和指令跟踪等功能方面，Llama 3相比Llama 2有极大改进，使Llama 3更易于操控。4月Meta展示，8B和70B版本的Llama 3指令调优模型在大规模多任务语言理解数据集（MMLU）、研究生水平专家推理（GPQA）、数学评测集（GSM8K）、编程多语言测试（HumanEval）等方面的测评得分都高于Mistral、谷歌的Gemma和Gemini和Anthropic的Claude 3。8B和70B版本的预训练Llama 3多种性能测评优于Mistral、Gemma、Gemini和Mixtral。当时社交媒体的网友评论称，根据基准测试，当前的Llama 3模型不完全是 GPT-4 级别的，但仍在训练中的较大尺寸的模型将达到 GPT-4 级别。英伟达高级科学家Jim Fan认为，Llama 3的推出已经脱离了技术层面的进步，更是开源模型与顶尖闭源模型可分庭抗礼的象征。从Jim Fan分享的基准测试可以看出，Llama 3 400B 的实力几乎媲美 Claude“超大杯”以及新版 GPT-4 Turbo，将成为“分水岭”，相信它将释放巨大的研究潜力，推动整个生态系统的发展，开源社区或将能用上GPT-4级别的模型。此后有消息称，研究人员尚未开始对Llama 3进行微调，还未决定Llama 3是否将是多模态模型；正式版的Llama 3将会在今年7月正式推出。不同于OpenAI等开发商，Meta致力于开源LLM，不过，这个赛道也越来越拥挤。谷歌、特斯拉CEO马斯克旗下的xAI和Mistral 等竞争对手也发布了免费的AI模型。Llama 3问世后，同在4月亮相的4800亿参数模型Arctic击败Llama 3、Mixtra，刷新了全球最大开源模型的纪录。Arctic基于全新的Dense-MoE架构设计，由一个10B的稠密Tranformer模型和128×3.66B的MoE MLP组成，并在3.5万亿个token上进行了训练。相比Llama 3 8B和Llama 2 70B，Arctic所用的训练计算资源不到它们的一半，评估指标却取得了相当的分数。 ... PC版：手机版：

Google 发布开源大语言模型 Gemma

Google 发布开源大语言模型 Gemma 谷歌今天宣布推出 Gemma，这是一个新的轻量级开源大语言模型系列。现在 Gemma 2B 和 Gemma 7B 两个模型已经可用，每个尺寸都发布了经过预训练和指令调整的变体。谷歌同时提供了多项工具以便快速部署该模型，包括开箱即用的 Colab 实例，可快速部署的容器镜像，以及和其它流行开发工具的集成。 Gemma 模型也能够直接在开发人员笔记本电脑或台式计算机上运行。根据谷歌的，该模型在多个测试中超越的 Llama 2 等开源模型。这些新模型“受到 Gemini 的启发”，使用与其相似的技术，并被许可用于商业和研究用途。此外，谷歌还发布了一个新的负责任的生成式AI工具包，以提供“使用 Gemma 创建更安全的人工智能应用程序的指导和基本工具”以及调试工具。 , ,

Meta宣布推出Llama 2(羊驼2) 提供7B~70B模型开源免费可商用

Meta宣布推出Llama 2(羊驼2) 提供7B~70B模型开源免费可商用今天 Meta 发布 Llama 2 也就是羊驼 2 模型，提供 7B、13B 和 70B 参数版本，该模型开源、免费、可商用，这也是为什么最近一段时间有大量新模型出现，对开源社区来说，只要有高质量模型被开源出来，那接下来就是社区成员登场，微调、优化、定制、整合，然后就可以生成更多模型了。羊驼 2 预训练模型接受了 2 万亿个 tokens 的训练，上下文长度是 Llama 1 的两倍，是的其上下文长度从 2048 提升到了 4096，其微调模型接受了超过 100 万个人类标注的训练。根据 Meta AI 研究团队的测试，羊驼 2 在不少测试中表现都比较优异 (相对其他开源模型)，包括推理、编程、熟练程度和知识测试。 (需要提供Email地址) 来源，来自：雷锋频道：@kejiqu 群组：@kejiquchat 投稿：@kejiqubot

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人