大模型时代中文已死

大模型时代中文已死最近开发产品调prompt,无论怎么promptChatGPT说出来的中文都有一股“英文味”,逻辑、语序、用词都是英语思维。原以为中国的大模型肯定能说很地道的中文,但是我把文心、讯飞、GLM都测试了个遍,无不也透露着英式思维,没能体验到比ChatGPT说得更地道。我一开始猜想是中文高质量语料稀少,训练数据中使用了大量的英文语料,今天跟行业内部训模型的人员聊完才知道事实比这个更离谱:训练数据中使用了大量的英译中文本、以及通过问ChatGPT得到的回答。可想而知,在未来互联网上将越加充斥着大模型生成的内容,总有一天如今的中文会被洗刷成英式中文......

相关推荐

封面图片

LaWGPT:基于中文法律知识的大语言模型

LaWGPT:基于中文法律知识的大语言模型该系列模型在通用中文基座模型(如Chinese-LLaMA、ChatGLM等)的基础上扩充法律领域专有词表、大规模中文法律语料预训练,增强了大模型在法律领域的基础语义理解能力。在此基础上,构造法律领域对话问答数据集、中国司法考试数据集进行指令精调,提升了模型对法律内容的理解和执行能力。https://github.com/pengxiao-song/LaWGPT来自:雷锋频道:@kejiqu群组:@kejiquchat投稿:@kejiqubot

封面图片

【书名】大模型时代

【书名】大模型时代【作者】龙志勇,黄雯【格式】#epub#mobi#azw3#pdf【分类】#人工智能#AI#大模型#2023新书【简介】本书副标题:ChatGPT开启通用人工智能浪潮。生成式大模型正在开创新的时代,基于生成式预训练大模型的技术突破,也在带来面向个人、深入行业的多重应用。这势必引发新一轮的智力革命和产业重构,构建全新的脑机协作关系。为此,本书对大模型时代的技术、应用和产业变化进行了深入的分析和阐述。

封面图片

一个比较不错的中文大模型解决方案,代码完全开源,无商用限制。

一个比较不错的中文大模型解决方案,代码完全开源,无商用限制。近日,Colossal-AI团队充分利用了LLaMA-2的基础能力,采用高效的训练方法,仅使用约8.5Btoken数据、15小时、数千元的训练成本,成功构建了性能卓越的中文LLaMA-2,在多个评测榜单性能优越。相较于原始LLaMA-2,在成功提升中文能力的基础上,进一步提升其英文能力,性能可与开源社区同规模预训练SOTA模型媲美。该项目在GitHub完全开源了全套训练流程、代码及权重,无商用限制,并提供了一个完整的评估体系框架ColossalEval,以实现低成本的可复现性。不仅如此,相关方案还可迁移应用到任意垂类领域,以及从头预训练大模型的低成本构建。

封面图片

“弱智吧”不收弱智,成最佳中文AI训练语料!

“弱智吧”不收弱智,成最佳中文AI训练语料!4月4日,“弱智吧”突然在中文AI领域刷屏,中科院用各大社交平台的数据,作为中文AI语料数据进行训练,结果发现“弱智吧”居然是最棒的中文语料,在多项测试中取得最高分!目前LLM大型语言模型中,英文语料占到大多数,而中文数据集此前多半是先从英文翻译再进行训练,很多大模型的中文效果比英文差,为了调侃AI,许多人也常常拿弱智吧的问题去挑战AI。为了更好地满足中文大模型的需求,中科院联合多所大学利用中文数据集来训练中文大模型。首先,团队直接找到某乎、某瓣等社交网络平台,爬取数据并进行标注,打造了全新的中文指令微调数据集COIG-CQIA,再用这些数据集来训练零一万物开源大模型,并用GPT4在BELLE-Eval测试集上打分。在340亿参数版本的Yi-34B下,弱智吧的分数非常突出,可以说是一骑绝尘,在问答、分类、生成、总结、摘要和代码上均取得极高的分数,数学某乎分数最高76分,但弱智吧也取得了72.6分的高分,最终均分76.9分遥遥领先!弱智吧的出色成绩也引起了大量的讨论,对比其他专业的技术问答社区,弱智吧的数据集其实更加精炼有效,提高模型的逻辑推理能力,而且“弱智”的方向十分多元,文本质量极高,从而提高了模型性能。而COIG-CQIA,也成为目前相对来说相当高质量的中文指令微调数据集,收集了来自各种来源如社交媒体、百科知识、考试题库等大量高质量的中文指令,弱智吧的出色表现,出在高质量中文知识学习方面的潜力,也给我们带来更多深入的思(乐)考(子)。标签:#AI#中文预料#弱智吧频道:@GodlyNews1投稿:@GodlyNewsBot

封面图片

中文LLaMA&Alpaca大模型的第二期项目 | link

中文LLaMA&Alpaca大模型的第二期项目本项目基于Meta发布的可商用大模型Llama-2开发,是中文LLaMA&Alpaca大模型的第二期项目,开源了中文LLaMA-2基座模型和Alpaca-2指令精调大模型。这些模型在原版Llama-2的基础上扩充并优化了中文词表,使用了大规模中文数据进行增量预训练,进一步提升了中文基础语义和指令理解能力,相比一代相关模型获得了显著性能提升。相关模型支持FlashAttention-2训练。标准版模型支持4K上下文长度,长上下文版模型支持16K上下文长度,并可通过NTK方法最高扩展至24K+上下文长度。本项目主要内容针对Llama-2模型扩充了新版中文词表,开源了中文LLaMA-2和Alpaca-2大模型开源了预训练脚本、指令精调脚本,用户可根据需要进一步训练模型使用个人电脑的CPU/GPU快速在本地进行大模型量化和部署体验支持,,,,,等LLaMA生态已开源的模型基座模型:Chinese-LLaMA-2-7B,Chinese-LLaMA-2-13B聊天模型:Chinese-Alpaca-2-7B,Chinese-Alpaca-2-13B长上下文模型:Chinese-LLaMA-2-7B-16K,Chinese-LLaMA-2-13B-16K,Chinese-Alpaca-2-7B-16K,Chinese-Alpaca-2-13B-16K

封面图片

国产AI大模型ChatGLM开测:为中文优化、支持CPU训练

国产AI大模型ChatGLM开测:为中文优化、支持国产CPU训练据介绍,对话机器人ChatGLM(alpha内测版:QAGLM),这是一个初具问答和对话功能的千亿中英语言模型,并针对中文进行了优化,现已开启邀请制内测,后续还会逐步扩大内测范围。与此同时,继开源GLM-130B千亿基座模型之后,我们正式开源最新的中英双语对话GLM模型:ChatGLM-6B,结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4量化级别下最低只需6GB显存)。经过约1T标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持,62亿参数的ChatGLM-6B虽然规模不及千亿模型,但大大降低了用户部署的门槛,并且已经能生成相当符合人类偏好的回答。ChatGLM参考了ChatGPT的设计思路,在千亿基座模型GLM-130B1 中注入了代码预训练,通过有监督微调(SupervisedFine-Tuning)等技术实现人类意图对齐。ChatGLM当前版本模型的能力提升主要来源于独特的千亿基座模型GLM-130B。它是不同于BERT、GPT-3以及T5的架构,是一个包含多目标函数的自回归预训练模型。2022年8月,我们向研究界和工业界开放了拥有1300亿参数的中英双语稠密模型GLM-130B1,该模型有一些独特的优势:双语: 同时支持中文和英文。高精度(英文): 在公开的英文自然语言榜单LAMBADA、MMLU和Big-bench-lite上优于GPT-3175B(API:davinci,基座模型)、OPT-175B和BLOOM-176B。高精度(中文): 在7个零样本CLUE数据集和5个零样本FewCLUE数据集上明显优于ERNIETITAN3.0260B和YUAN1.0-245B。快速推理: 首个实现INT4量化的千亿模型,支持用一台4卡3090或8卡2080Ti服务器进行快速且基本无损推理。可复现性: 所有结果(超过30个任务)均可通过我们的开源代码和模型参数复现。跨平台: 支持在国产的海光DCU、华为升腾910和申威处理器及美国的英伟达芯片上进行训练与推理。2022年11月,斯坦福大学大模型中心对全球30个主流大模型进行了全方位的评测2,GLM-130B是亚洲唯一入选的大模型。在与OpenAI、谷歌大脑、微软、英伟达、脸书的各大模型对比中,评测报告显示GLM-130B在准确性和恶意性指标上与GPT-3175B(davinci)接近或持平,鲁棒性和校准误差在所有千亿规模的基座大模型(作为公平对比,只对比无指令提示微调模型)中表现不错(下图)。图1.斯坦福大学基础模型中心对全球30个大模型的评测结果(2022年11月)...PC版:https://www.cnbeta.com.tw/articles/soft/1349501.htm手机版:https://m.cnbeta.com.tw/view/1349501.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人