一个比较不错的中文大模型解决方案,代码完全开源,无商用限制。

一个比较不错的中文大模型解决方案,代码完全开源,无商用限制。 近日,Colossal-AI 团队充分利用了 LLaMA-2 的基础能力,采用高效的训练方法,仅使用约 8.5B token 数据、15 小时、数千元的训练成本,成功构建了性能卓越的中文 LLaMA-2,在多个评测榜单性能优越。 相较于原始 LLaMA-2,在成功提升中文能力的基础上,进一步提升其英文能力,性能可与开源社区同规模预训练 SOTA 模型媲美。 该项目在 GitHub 完全开源了全套训练流程、代码及权重,无商用限制,并提供了一个完整的评估体系框架 ColossalEval,以实现低成本的可复现性。 不仅如此,相关方案还可迁移应用到任意垂类领域,以及从头预训练大模型的低成本构建。 |

相关推荐

封面图片

:最新的高性能全开源文本嵌入模型

:最新的高性能全开源文本嵌入模型 Nomic发布了第一个完全开源的文本嵌入模型Nomic Embed,其文本长度可达8192,性能超过OpenAI的Ada和其他开源模型。 Nomic Embed的模型权重、训练代码和用于训练的数据集都是完全开源的,可以进行全面审计。 Nomic Embed可以通过Nomic Atlas嵌入API进行商业部署,提供100万免费调用量,也可以通过Nomic Atlas企业版进行可靠、合规的企业级部署。 文本嵌入是现代NLP中一个关键组件,Nomic Embed通过多阶段的对比训练获得。首先预训练BERT,然后在大规模非监督数据上进行对比训练,最后在小规模标注数据上微调。 Nomic Embed在多个基准测试中表现强劲,尤其是在长文本任务上优于Ada。它提供了一个高性能且可审计的开源文本嵌入方案。 Nomic还发布了所有用于训练的数据,以实现完全的模型可审计性。希望社区可以基于Nomic Embed继续推进开源AI。

封面图片

Meta宣布推出Llama 2(羊驼2) 提供7B~70B模型 开源免费可商用

Meta宣布推出Llama 2(羊驼2) 提供7B~70B模型 开源免费可商用 今天 Meta 发布 Llama 2 也就是羊驼 2 模型,提供 7B、13B 和 70B 参数版本,该模型开源、免费、可商用,这也是为什么最近一段时间有大量新模型出现,对开源社区来说,只要有高质量模型被开源出来,那接下来就是社区成员登场,微调、优化、定制、整合,然后就可以生成更多模型了。 羊驼 2 预训练模型接受了 2 万亿个 tokens 的训练,上下文长度是 Llama 1 的两倍,是的其上下文长度从 2048 提升到了 4096,其微调模型接受了超过 100 万个人类标注的训练。 根据 Meta AI 研究团队的测试,羊驼 2 在不少测试中表现都比较优异 (相对其他开源模型),包括推理、编程、熟练程度和知识测试。 (需要提供Email地址) 来源 , 来自:雷锋 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

封面图片

作为当下最受欢迎的开源 AI 大模型解决方案,GitHub 上一个开源项目 Colossal-AI 建立了一整套完整的 RLHF

作为当下最受欢迎的开源 AI 大模型解决方案,GitHub 上一个开源项目 Colossal-AI 建立了一整套完整的 RLHF 流程,包括:监督数据集收集 -> 监督微调 -> 奖励模型训练 -> 强化学习微调。 并且,技术团队以 LLaMA 为基础预训练模型,正式推出了 ColossalChat,这也是目前最接近 ChatGPT 原始技术方案的实用开源项目。 该项目包括但不限于以下功能: - Demo:可直接在线体验模型效果,无需注册或 waitinglist; - 训练代码:开源完整 RLHF 训练代码,已开源至含 7B 和 13B 两种模型; - 数据集:开源 104K 中、英双语数据集; - 推理部署:4bit 量化推理 70 亿参数模型仅需 4GB 显存; - 模型权重:仅需单台服务器少量算力即可快速复现; - 更大规模模型、数据集、其他优化等将保持高速迭代添加。 目前,相关代码已开源至 GitHub,感兴趣的同学可以看下。 项目还有提供完整的中文教程,进一步降低学习门槛,让大家能更快上手开发。 |||||

封面图片

北大推出“最强编程助手”:代码大模型 CodeShell-7B 开源

北大推出“最强编程助手”:代码大模型 CodeShell-7B 开源 10 月 19 日消息,北京大学软件工程国家工程研究中心知识计算实验室联合四川天府银行 AI 实验室,今天正式开源旗下 70 亿参数的代码大模型 CodeShell,号称“同等规模最强代码基座”。 官方已经在 GitHub 开源了模型、相关配套方案及 IDE 插件,支持商用。有兴趣的可以。 项目详情中介绍,CodeShell-7B 基于 5000 亿 Tokens 进行了冷启动训练,上下文窗口长度为 8192,架构设计上融合了 StarCoder 和 Llama 两者的核心特性。 官方声称,CodeShell 的原始训练数据基于自家爬取的 Github 数据、Stack 和 StarCoder 数据集,以及少量“高质量的中英文数据”,这些预训练数据均经过了“数据判重、数据过滤规则、数据质量模型一系列流水线”。

封面图片

中文LLaMA-2 & Alpaca-2大语言模型 ()

中文LLaMA-2 & Alpaca-2大语言模型 () 本项目基于Meta发布的可商用大模型Llama-2开发,是中文LLaMA&Alpaca大模型的第二期项目,开源了中文LLaMA-2基座模型和Alpaca-2指令精调大模型。 这些模型在原版Llama-2的基础上扩充并优化了中文词表,使用了大规模中文数据进行增量预训练,进一步提升了中文基础语义和指令理解能力,相比一代相关模型获得了显著性能提升。相关模型支持4K上下文并可通过NTK方法最高扩展至18K+。 本项目主要内容: 针对Llama-2模型增加了新版中文词表,开源了中文LLaMA-2和Alpaca-2大模型 了预训练脚本、开源指令精调脚本,用户可根据需要进一步训练模型 使用个人电脑的CPU/GPU在本地快速进行大模型仿真和部署体验 支持Transformers , llama.cpp , text- Generation-webui , LangChain , vLLM等LLaMA生态 目前已开源的模型:Chinese-LLaMA-2-7B, Chinese-Alpaca-2-7B

封面图片

ℹMeta 与 Microsoft 高通合推次世代 AI 大型语言模型 Llama 2,主打免费开源进军商用市场#

ℹMeta 与 Microsoft 高通合推次世代 AI 大型语言模型 Llama 2,主打免费开源进军商用市场# Meta / Meta Platforms 借由发表次世代 AI 大型语言模型 Llama 2 的机会,也宣布了这个主打免费开源的商用 L...

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人