一个比较不错的中文大模型解决方案,代码完全开源,无商用限制。

一个比较不错的中文大模型解决方案,代码完全开源,无商用限制。近日,Colossal-AI团队充分利用了LLaMA-2的基础能力,采用高效的训练方法,仅使用约8.5Btoken数据、15小时、数千元的训练成本,成功构建了性能卓越的中文LLaMA-2,在多个评测榜单性能优越。相较于原始LLaMA-2,在成功提升中文能力的基础上,进一步提升其英文能力,性能可与开源社区同规模预训练SOTA模型媲美。该项目在GitHub完全开源了全套训练流程、代码及权重,无商用限制,并提供了一个完整的评估体系框架ColossalEval,以实现低成本的可复现性。不仅如此,相关方案还可迁移应用到任意垂类领域,以及从头预训练大模型的低成本构建。

相关推荐

封面图片

中文LLaMA&Alpaca大模型的第二期项目 | link

中文LLaMA&Alpaca大模型的第二期项目本项目基于Meta发布的可商用大模型Llama-2开发,是中文LLaMA&Alpaca大模型的第二期项目,开源了中文LLaMA-2基座模型和Alpaca-2指令精调大模型。这些模型在原版Llama-2的基础上扩充并优化了中文词表,使用了大规模中文数据进行增量预训练,进一步提升了中文基础语义和指令理解能力,相比一代相关模型获得了显著性能提升。相关模型支持FlashAttention-2训练。标准版模型支持4K上下文长度,长上下文版模型支持16K上下文长度,并可通过NTK方法最高扩展至24K+上下文长度。本项目主要内容针对Llama-2模型扩充了新版中文词表,开源了中文LLaMA-2和Alpaca-2大模型开源了预训练脚本、指令精调脚本,用户可根据需要进一步训练模型使用个人电脑的CPU/GPU快速在本地进行大模型量化和部署体验支持,,,,,等LLaMA生态已开源的模型基座模型:Chinese-LLaMA-2-7B,Chinese-LLaMA-2-13B聊天模型:Chinese-Alpaca-2-7B,Chinese-Alpaca-2-13B长上下文模型:Chinese-LLaMA-2-7B-16K,Chinese-LLaMA-2-13B-16K,Chinese-Alpaca-2-7B-16K,Chinese-Alpaca-2-13B-16K

封面图片

Nomic Embed:最新的高性能全开源文本嵌入模型

:最新的高性能全开源文本嵌入模型Nomic发布了第一个完全开源的文本嵌入模型NomicEmbed,其文本长度可达8192,性能超过OpenAI的Ada和其他开源模型。NomicEmbed的模型权重、训练代码和用于训练的数据集都是完全开源的,可以进行全面审计。NomicEmbed可以通过NomicAtlas嵌入API进行商业部署,提供100万免费调用量,也可以通过NomicAtlas企业版进行可靠、合规的企业级部署。文本嵌入是现代NLP中一个关键组件,NomicEmbed通过多阶段的对比训练获得。首先预训练BERT,然后在大规模非监督数据上进行对比训练,最后在小规模标注数据上微调。NomicEmbed在多个基准测试中表现强劲,尤其是在长文本任务上优于Ada。它提供了一个高性能且可审计的开源文本嵌入方案。Nomic还发布了所有用于训练的数据,以实现完全的模型可审计性。希望社区可以基于NomicEmbed继续推进开源AI。

封面图片

Meta宣布推出Llama 2(羊驼2) 提供7B~70B模型 开源免费可商用

Meta宣布推出Llama2(羊驼2)提供7B~70B模型开源免费可商用今天Meta发布Llama2也就是羊驼2模型,提供7B、13B和70B参数版本,该模型开源、免费、可商用,这也是为什么最近一段时间有大量新模型出现,对开源社区来说,只要有高质量模型被开源出来,那接下来就是社区成员登场,微调、优化、定制、整合,然后就可以生成更多模型了。羊驼2预训练模型接受了2万亿个tokens的训练,上下文长度是Llama1的两倍,是的其上下文长度从2048提升到了4096,其微调模型接受了超过100万个人类标注的训练。根据MetaAI研究团队的测试,羊驼2在不少测试中表现都比较优异(相对其他开源模型),包括推理、编程、熟练程度和知识测试。(需要提供Email地址)来源,来自:雷锋频道:@kejiqu群组:@kejiquchat投稿:@kejiqubot

封面图片

作为当下最受欢迎的开源 AI 大模型解决方案,GitHub 上一个开源项目 Colossal-AI 建立了一整套完整的 RLHF

作为当下最受欢迎的开源AI大模型解决方案,GitHub上一个开源项目Colossal-AI建立了一整套完整的RLHF流程,包括:监督数据集收集->监督微调->奖励模型训练->强化学习微调。并且,技术团队以LLaMA为基础预训练模型,正式推出了ColossalChat,这也是目前最接近ChatGPT原始技术方案的实用开源项目。该项目包括但不限于以下功能:-Demo:可直接在线体验模型效果,无需注册或waitinglist;-训练代码:开源完整RLHF训练代码,已开源至含7B和13B两种模型;-数据集:开源104K中、英双语数据集;-推理部署:4bit量化推理70亿参数模型仅需4GB显存;-模型权重:仅需单台服务器少量算力即可快速复现;-更大规模模型、数据集、其他优化等将保持高速迭代添加。目前,相关代码已开源至GitHub,感兴趣的同学可以看下。项目还有提供完整的中文教程,进一步降低学习门槛,让大家能更快上手开发。

封面图片

中文LLaMA-2 & Alpaca-2大语言模型 (Chinese LLaMA-2 & Alpaca-2 LLMs)

中文LLaMA-2&Alpaca-2大语言模型()本项目基于Meta发布的可商用大模型Llama-2开发,是中文LLaMA&Alpaca大模型的第二期项目,开源了中文LLaMA-2基座模型和Alpaca-2指令精调大模型。这些模型在原版Llama-2的基础上扩充并优化了中文词表,使用了大规模中文数据进行增量预训练,进一步提升了中文基础语义和指令理解能力,相比一代相关模型获得了显著性能提升。相关模型支持4K上下文并可通过NTK方法最高扩展至18K+。本项目主要内容:针对Llama-2模型增加了新版中文词表,开源了中文LLaMA-2和Alpaca-2大模型了预训练脚本、开源指令精调脚本,用户可根据需要进一步训练模型使用个人电脑的CPU/GPU在本地快速进行大模型仿真和部署体验支持Transformers,llama.cpp,text-Generation-webui,LangChain,vLLM等LLaMA生态目前已开源的模型:Chinese-LLaMA-2-7B,Chinese-Alpaca-2-7B

封面图片

北大推出“最强编程助手”:代码大模型 CodeShell-7B 开源

北大推出“最强编程助手”:代码大模型CodeShell-7B开源10月19日消息,北京大学软件工程国家工程研究中心知识计算实验室联合四川天府银行AI实验室,今天正式开源旗下70亿参数的代码大模型CodeShell,号称“同等规模最强代码基座”。官方已经在GitHub开源了模型、相关配套方案及IDE插件,支持商用。有兴趣的可以。项目详情中介绍,CodeShell-7B基于5000亿Tokens进行了冷启动训练,上下文窗口长度为8192,架构设计上融合了StarCoder和Llama两者的核心特性。官方声称,CodeShell的原始训练数据基于自家爬取的Github数据、Stack和StarCoder数据集,以及少量“高质量的中英文数据”,这些预训练数据均经过了“数据判重、数据过滤规则、数据质量模型一系列流水线”。——

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人