中文LLaMA-2 & Alpaca-2大语言模型 (Chinese LLaMA-2 & Alpaca-2 LLMs)

中文LLaMA-2&Alpaca-2大语言模型()本项目基于Meta发布的可商用大模型Llama-2开发,是中文LLaMA&Alpaca大模型的第二期项目,开源了中文LLaMA-2基座模型和Alpaca-2指令精调大模型。这些模型在原版Llama-2的基础上扩充并优化了中文词表,使用了大规模中文数据进行增量预训练,进一步提升了中文基础语义和指令理解能力,相比一代相关模型获得了显著性能提升。相关模型支持4K上下文并可通过NTK方法最高扩展至18K+。本项目主要内容:针对Llama-2模型增加了新版中文词表,开源了中文LLaMA-2和Alpaca-2大模型了预训练脚本、开源指令精调脚本,用户可根据需要进一步训练模型使用个人电脑的CPU/GPU在本地快速进行大模型仿真和部署体验支持Transformers,llama.cpp,text-Generation-webui,LangChain,vLLM等LLaMA生态目前已开源的模型:Chinese-LLaMA-2-7B,Chinese-Alpaca-2-7B

相关推荐

封面图片

中文LLaMA&Alpaca大模型的第二期项目 | link

中文LLaMA&Alpaca大模型的第二期项目本项目基于Meta发布的可商用大模型Llama-2开发,是中文LLaMA&Alpaca大模型的第二期项目,开源了中文LLaMA-2基座模型和Alpaca-2指令精调大模型。这些模型在原版Llama-2的基础上扩充并优化了中文词表,使用了大规模中文数据进行增量预训练,进一步提升了中文基础语义和指令理解能力,相比一代相关模型获得了显著性能提升。相关模型支持FlashAttention-2训练。标准版模型支持4K上下文长度,长上下文版模型支持16K上下文长度,并可通过NTK方法最高扩展至24K+上下文长度。本项目主要内容针对Llama-2模型扩充了新版中文词表,开源了中文LLaMA-2和Alpaca-2大模型开源了预训练脚本、指令精调脚本,用户可根据需要进一步训练模型使用个人电脑的CPU/GPU快速在本地进行大模型量化和部署体验支持,,,,,等LLaMA生态已开源的模型基座模型:Chinese-LLaMA-2-7B,Chinese-LLaMA-2-13B聊天模型:Chinese-Alpaca-2-7B,Chinese-Alpaca-2-13B长上下文模型:Chinese-LLaMA-2-7B-16K,Chinese-LLaMA-2-13B-16K,Chinese-Alpaca-2-7B-16K,Chinese-Alpaca-2-13B-16K

封面图片

LaWGPT:基于中文法律知识的大语言模型

LaWGPT:基于中文法律知识的大语言模型该系列模型在通用中文基座模型(如Chinese-LLaMA、ChatGLM等)的基础上扩充法律领域专有词表、大规模中文法律语料预训练,增强了大模型在法律领域的基础语义理解能力。在此基础上,构造法律领域对话问答数据集、中国司法考试数据集进行指令精调,提升了模型对法律内容的理解和执行能力。https://github.com/pengxiao-song/LaWGPT来自:雷锋频道:@kejiqu群组:@kejiquchat投稿:@kejiqubot

封面图片

一个比较不错的中文大模型解决方案,代码完全开源,无商用限制。

一个比较不错的中文大模型解决方案,代码完全开源,无商用限制。近日,Colossal-AI团队充分利用了LLaMA-2的基础能力,采用高效的训练方法,仅使用约8.5Btoken数据、15小时、数千元的训练成本,成功构建了性能卓越的中文LLaMA-2,在多个评测榜单性能优越。相较于原始LLaMA-2,在成功提升中文能力的基础上,进一步提升其英文能力,性能可与开源社区同规模预训练SOTA模型媲美。该项目在GitHub完全开源了全套训练流程、代码及权重,无商用限制,并提供了一个完整的评估体系框架ColossalEval,以实现低成本的可复现性。不仅如此,相关方案还可迁移应用到任意垂类领域,以及从头预训练大模型的低成本构建。

封面图片

百川智能又发布大模型 号称领先LLaMA 2

百川智能又发布大模型号称领先LLaMA2据了解,Baichuan2-7B-Base和Baichuan2-13B-Base,均基于2.6万亿高质量多语言数据进行训练。其中Baichuan2-13B-Base相比上一代13B模型,数学能力提升49%,代码能力提升46%,安全能力提升37%,逻辑推理能力提升25%,语义理解能力提升15%。王小川称,70亿参数的Baichuan2-7B开源大模型中文水平超越了LLaMA2130亿参数模;在英文的评测上,Baichuan2-7B开水平与LLaMA2130亿参数模型持平。(图:7B参数模型的Benchmark成绩)(图:13B参数模型的Benchmark成绩)他表示,“随着国内Baichuan2开源大模型的发布,用LLaMA2作为大家一个开源模型的时代已经过去了。”国内“百模大战”中,各家都在卷参数规模,卷响应速度,卷行业落地。而在国外,AI模型竞争主要聚焦在“生态封闭”和“生态开源”。其中,闭源模型的代表当属目前最强的GPT-4模型,开源最具代表意义的则是Meta的LLaMA2模型。业内普遍认为,开源大模型对于大量开发者是一个福音,能够降低做大模型应用的门槛。美国斯坦福大学基金会模型研究中心主任PercyLiang曾指出,像LLaMA2这样强大的开源模型会对OpenAI构成相当大的威胁。今年6月,王小川飞往美国硅谷与同行交流大模型技术思路。他认为,美国闭源大模型的头部格局已定,OpenAI、Anthropic、Google已经拿到门票,LLaMA2则统一了美国开源模型市场,而国内大模型格局还未定型,创业公司还有较大的机会。在8月举办的一次媒体交流会上,王小川谈及大模型技术路线之争时表示,开源与闭源并不矛盾,未来会像苹果和Android系统一样并行发展。未来可能80%的企业会用到开源模型,因为开源模型小巧,最后靠闭源提供剩下20%的增值服务。从2B(企业)的角度,开源、闭源都需要,百川智能不会只瞄准一个方向。王小川指出了LLaMA开源模型的隐藏限制因素。他表示,LLaMA开源模型适用于以英文为主的环境,开发者使用中文场景是拿不到开源协议,Baichuan2开源大模型更适用于中文大模型。“我们现在可以获得比LLaMA更友好且能力更强的开源模型,能够帮助扶持中国整个生态的发展。除开源模型以外,下一次在闭源方面会有更多的突破,希望在中国的开源闭源里都能给中国的经济社会发展带来我们的贡献。”当前大部分开源模型在开源过程中只是对外公开自身的模型权重,很少提及训练细节,企业、研究机构、开发者们只能在开源模型的基础上做有限的微调,很难进行深入研究。王小川表示,百川智能公开了Baichuan2开源大模型训练过程中的全部参数模型,以及不同大小的tokens、训练切片,使得学术界在进行预训练微调、强化时更容易操作,更容易获得学术经验和成果。他透露,这也是国内首次开放训练过程。百川智能创立于今年4月10日,旨在打造构建中国最好的大模型底座,并在教育、医疗等领域应用落地。截至目前,百川智能已公布首轮5000万美元融资。成立不到半年时间,百川智能平均每28天发布一款大模型,已相继发布了Baichuan-7B、Baichuan-13B两款开源免费可商用的中文大模型,以及一款搜索增强大模型Baichuan-53B。8月31日,百川智能通过《生成式人工智能服务管理暂行办法》备案,旗下大模型可以正式面向公众提供服务。...PC版:https://www.cnbeta.com.tw/articles/soft/1382161.htm手机版:https://m.cnbeta.com.tw/view/1382161.htm

封面图片

【Meta和Microsoft联手推出开源大型语言模型Llama 2】

【Meta和Microsoft联手推出开源大型语言模型Llama2】2023年07月19日10点52分7月19日消息,Meta和Microsoft联手推出开源大型语言模型Llama2,将在Microsoft的Windows和云计算平台Azure上运行。Llama2免费用于研究和商业用途,同时还针对在Windows上运行进行了优化。Meta称Llama2接受的公开在线数据源的训练量比Llama1多40%,处理的上下文量是Llama1的两倍。

封面图片

BiLLa: 开源的中英双语LLaMA模型,具有增强的推理能力。通过扩充中文词表和利用任务型数据进行训练,提升了理解和推理能

:开源的中英双语LLaMA模型,具有增强的推理能力。通过扩充中文词表和利用任务型数据进行训练,提升了中文理解和推理能力。在评测中,BiLLa在中英语言建模和推理任务上表现出色,优于其他模型,并与ChatGLM-6B相比在解题和代码得分方面更高。开发者可以使用BiLLa-7B-LLM和BiLLa-7B-SFT模型,并可通过提供的工具进行模型权重的还原和使用。评测结果显示,BiLLa在语言建模和各种问题类型上取得了良好的性能

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人