昆仑万维开源了自己的Skywork大模型 | 本次开源的模型有Skywork-13B-Base模型、Skywork-13B-Ch

昆仑万维开源了自己的Skywork大模型 | 本次开源的模型有Skywork-13B-Base模型、Skywork-13B-Chat模型、Skywork-13B-Math模型和Skywork-13B-MM模型，以及每个模型的量化版模型，以支持用户在消费级显卡进行部署和推理。 Skywork开源项目的特点有： Skywork-13B-Base模型在高质量清洗过滤的3.2万亿个多语言（主要是中文和英文）和代码数据上进行预训练，它在多种评测和各种基准测试上都展现了同等规模模型的最佳效果。 Skywork-13B-Chat模型具备强大的对话能力，我们在文创领域进行了进一步的针对性增强。我们通过构建一万多条高质量指令数据集，在10个文创任务上进行了针对性微调，使我们的模型在文创任务中能够接近ChatGPT的效果。此外，我们开源了针对这10个文创任务上的大约500条样本组成的benchmark。 Skywork-13B-Math模型经过专门的数学能力强化训练。在13B参数规模下，我们的模型在GSM8K评测上得分第一，同时在MATH数据集以及CMATH上也表现优异，处于13B模型顶尖水平。 Skywork-13B-MM多模态模型支持用户输入图片信息进行问答，对话等任务。 Skywork/Skypile-150B数据集是根据我们经过精心过滤的数据处理流程从中文网页中筛选出的高质量数据。本次开源的数据集大小约为600GB，总的token数量约为150B，是目前开源最大中文数据集。除此之外，我们还公开了训练Skywork-13B模型中使用的评估方法、数据配比研究和训练基础设施调优方案等信息。我们希望这些开源内容能够进一步启发社区对于大型模型预训练的认知，并推动人工智能通用智能（AGI）的实现。

在Telegram中查看

相关推荐

StarCoder2 编码开源模型，代码、数据、模型全部都开源了。

StarCoder2 编码开源模型，代码、数据、模型全部都开源了。 StarCoder2 使用 16k Token上下文和 4T+Token的存储库级信息进行训练。 The Stack v2 数据集- 拥有 900B+ Token的最大代码数据集。项目地址：

北大推出“最强编程助手”：代码大模型 CodeShell-7B 开源

北大推出“最强编程助手”：代码大模型 CodeShell-7B 开源 10 月 19 日消息，北京大学软件工程国家工程研究中心知识计算实验室联合四川天府银行 AI 实验室，今天正式开源旗下 70 亿参数的代码大模型 CodeShell，号称“同等规模最强代码基座”。官方已经在 GitHub 开源了模型、相关配套方案及 IDE 插件，支持商用。有兴趣的可以。项目详情中介绍，CodeShell-7B 基于 5000 亿 Tokens 进行了冷启动训练，上下文窗口长度为 8192，架构设计上融合了 StarCoder 和 Llama 两者的核心特性。官方声称，CodeShell 的原始训练数据基于自家爬取的 Github 数据、Stack 和 StarCoder 数据集，以及少量“高质量的中英文数据”，这些预训练数据均经过了“数据判重、数据过滤规则、数据质量模型一系列流水线”。

MAmmoTH：专门为解决通用数学问题而定制的开源大语言模型。

MAmmoTH：专门为解决通用数学问题而定制的开源大语言模型。 MAmmoTH模型结合了CoT和PoT两种思维方式，使其能够更全面地解决各种数学问题（从基础算术到高等数学）。在九个数学推理数据集上显著超越了现有的开源模型，平均准确率提高了13%到29%。 MAmmoTH在一个精心策划的指导调优数据集MathInstruct上进行训练，MathInstruct从13个带有中间理由的数学数据集中编译而来，其中六个是由作者新策划的。 MAmmoTH基于LLaMa 2和Code Llama训练的数学领域的开源LLM，有7B、13B、34B、70B四个版本。 MAmmoTH的工作原理是通过混合指导调优方法，结合两种不同的思维方式，训练模型来解决各种数学问题。这种方法确保了模型在各种数学领域都有很好的表现，并且在实际应用中也取得了显著的性能提升。 ||||

开源DBRX高性能大语言模型

开源DBRX高性能大语言模型 DBRX是Databricks开发的开源通用语言模型，在多项标准基准测试上达到了当前开源语言模型的最高水平。DBRX在多项综合基准测试中表现最好，尤其在编程和数学推理方面优于其他开源模型。与开源模型相比，DBRX在MMLU数据集上的表现也是最好的。根据测试，DBRX甚至超过了专门用于编程的CodeLLAMA-70B，并且与商业模型GPT-3.5相当甚至略胜。DBRX也与Gemini 1.0 Pro和Mistral Medium等商业模型有竞争力。 DBRX使用混合专家(MoE)架构，使其在训练和推理上更加高效。与类似参数量的非MoE模型相比，DBRX的推理吞吐量提高2-3倍。DBRX的整体训练效率比之前提高了近4倍，这得益于更好的数据、MoE架构以及其他改进。 DBRX已经在Databricks的GenAI产品中进行了集成，客户可以通过API使用该模型。DBRX的训练代码和模型也在Hugging Face平台上开源。DBRX证明了Databricks可以高效地训练世界级的基础语言模型，也为企业训练自己的基础模型提供了能力。DBRX只是Databricks协助客户训练定制语言模型的一个例子。

最强开源大模型一夜易主：谷歌Gemma 7B碾压Llama 2 13B 重燃开源之战

最强开源大模型一夜易主：谷歌Gemma 7B碾压Llama 2 13B 重燃开源之战与此同时，谷歌还放出了16页的技术报告。谷歌表示，Gemma这个名字源自拉丁语「gemma」，也就是「宝石」的意思，似乎是在象征着它的珍贵性。历史上，Transformers、TensorFlow、BERT、T5、JAX、AlphaFold和AlphaCode，都是谷歌为开源社区贡献的创新。而谷歌今天在全球范围内同步推出的Gemma，必然会再一次掀起构建开源AI的热潮。同时也坐实了OpenAI「唯一ClosedAI」的名头。OpenAI最近刚因为Sora火到爆，Llame据称也要有大动作，谷歌这就又抢先一步。硅谷大厂，已经卷翻天了！Hugging Face CEO也跟帖祝贺。还贴出了Gemma登上Hugging Face热榜的截图。Keras作者François Chollet直言：最强开源大模型，今日易主了。有网友已经亲自试用过，表示Gemma 7B真是速度飞快。谷歌简直是用Gemini拳打GPT-4，用Gemma脚踢Llama 2！网友们也是看热闹不嫌事大，召唤Mistral AI和OpenAI今晚赶快来点大动作，别让谷歌真的抢了头条。（手动狗头）可以看到，Gemma-7B模型在涵盖一般语言理解、推理、数学和编码的8项基准测试中，性能已经超越了Llama 2 7B和13B！并且，它也超越了Mistral 7B模型的性能，尤其是在数学、科学和编码相关任务中。在安全性方面，经过指令微调的Gemma-2B IT和 Gemma-7B IT模型，在人类偏好评估中都超过了Mistal-7B v0.2模型。特别是Gemma-7B IT模型，它在理解和执行具体指令方面，表现得更加出色。这次，除了模型本身，谷歌还提供了一套工具帮助开发者，确保Gemma模型负责任的使用，帮助开发者用Gemma构建更安全的AI应用程序。- 谷歌为JAX、PyTorch和TensorFlow提供了完整的工具链，支持模型推理和监督式微调（SFT），并且完全兼容最新的Keras 3.0。- 通过预置的Colab和Kaggle notebooks，以及与Hugging Face、MaxText、NVIDIA NeMo和TensorRT-LLM等流行工具的集成，用户可以轻松开始探索Gemma。- Gemma模型既可以在个人笔记本电脑和工作站上运行，也可以在Google Cloud上部署，支持在Vertex AI和Google Kubernetes Engine (GKE) 上的简易部署。- 谷歌还对Gemma进行了跨平台优化，确保了它在NVIDIA GPU和Google Cloud TPU等多种AI硬件上的卓越性能。并且，使用条款为所有组织提供了负责任的商业使用和分发权限，不受组织规模的限制。不过，Gemma并没有能够在所有的榜单中，都拿下SOTA。在官方放出的评测中，Gemma 7B在MMLU、HellaSwag、SIQA、CQA、ARC-e、HumanEval、MBPP、GSM8K、MATH和AGIEval中，成功击败了Llama 2 7B和13B模型。相比之下，Gemma 7B在Boolq测试中，只与Mistral 7B打了个平手。而在PIQA、ARC-c、Winogrande和BBH中，则不敌Mistral 7B。在OBQA和trivalent QA中，更是同时被7B和13B规模的Llama 2 7B斩于马下。谷歌这次发布的两个版本的Gemma模型，70 亿参数的模型用于GPU和TPU上的高效部署和开发，20亿参数的模型用于CPU和端侧应用程序。在18个基于文本的任务中的11个中，Gemma都优于相似参数规模的开源模型，例如问答、常识推理、数学和科学、编码等任务。模型架构方面，Gemma在Transformer的基础上进行了几项改进，从而在处理复杂任务时能够展现出更加出色的性能和效率。- 多查询注意力机制其中，7B模型采用了多头注意力机制，而2B模型则使用了多查询注意力机制。结果显示，这些特定的注意力机制能够在不同的模型规模上提升性能。- RoPE嵌入与传统的绝对位置嵌入不同，模型在每一层都使用了旋转位置嵌入技术，并且在模型的输入和输出之间共享嵌入，这样做可以有效减少模型的大小。- GeGLU激活函数将标准的ReLU激活函数替换成GeGLU激活函数，可以提升模型的表现。- 归一化化位置（Normalizer Location）每个Transformer子层的输入和输出都进行了归一化处理。这里采用的是RMSNorm作为归一化层，以确保模型的稳定性和效率。架构的核心参数如下：两种规模的参数如下：Gemma 2B和7B分别针对来自网络文档、数学和代码的主要英语数据的2T和6Ttoken，进行了训练。与Gemini不同，这些模型不是多模态的，也没有针对多语言任务的SOTA进行训练。谷歌使用了Gemini的SentencePiece分词器的子集，来实现兼容性。团队对Gemma 2B和7B模型进行了微调，包括有监督的微调（SFT）和基于人类反馈的强化学习（RLHF）。在有监督的微调阶段，研究者使用了一个由纯文本、英文、由人工和机器生成的问题-答案对组成的数据集。在强化学习阶段，则是使用了一个基于英文偏好数据训练出的奖励模型，以及一套精心挑选的高质量提示作为策略。研究者发现，这两个阶段对于提升模型在自动评估和人类偏好评估中的表现，至关重要。研究者根据基于LM的并行评估，选择了数据混合物进行监督微调。给定一组保留prompt，研究者会从测试模型中生成响应，从基准模型中生成对相同提示的响应，随机洗牌，然后要求一个更大、能力更强的模型在两种响应之间表达偏好。研究者构建了不同的提示集，以突出特定的能力，如遵循指令、实事求是、创造性和安全性。我们使用了不同的基于LM的自动评委，采用了一系列技术，如思维链提示、使用评分标准和章程等，以便与人类偏好保持一致。研究者进一步利用来自人类反馈的强化学习（RLHF），对已经进行过有监督微调的模型进行了优化。他们从人类评估者那里收集他们的偏好选择，并在 Bradley-Terry 模型的基础上，训练了一个奖励函数，这与Gemini项目的做法相似。研究者采用了一个改进版的REINFORCE算法，加入了 Kullback–Leibler 正则化项，目的是让策略优化这个奖励函数，同时保持与最初调整模型的一致性。与之前的有监督微调阶段相似，为了调整超参数并进一步防止奖励机制被滥用，研究者使用了一个高性能模型作为自动评估工具，并将其与基准模型进行了直接对比。谷歌在多个领域对Gemma进行了性能评估，包括物理和社会推理、问答、编程、数学、常识推理、语言建模、阅读理解等。Gemma2B和7B模型与一系列学术基准测试中的多个外部开源大语言模型进行了比较。在MMLU基准测试中，Gemma 7B模型不仅超过了所有规模相同或更小的开源模型，还超过了一些更大的模型，包括Llama 2 13B。然而，基准测试的制定者评估人类专家的表现为89.8%，而Gemini Ultra是首个超越此标准的模型，这表明Gemma在达到Gemini和人类水平的性能上，还有很大的提升空间。并且，Gemma模型在数学和编程的基准测试中表现尤为突出。在通常用于评估模型分析能力的数学任务中，Gemma 模型在GSM8K和更具挑战性的 MATH基准测试上至少领先其他模型10分。同样，在HumanEval上，它们至少领先其他开源模型6分。Gemma甚至在MBPP上超过了专门进行代码微调的CodeLLaMA 7B模型的性能（CodeLLaMA得分为41.4%，而 Gemma 7B得分为44.4%）。近期研究发现，即便是经过精心对齐的人工智能模型，也可能遭受新型对抗攻击，这种攻击能够规避现有的对齐措施。这类攻击有可能使模型行为异常，有时甚至会导致模型重复输出它在训练过程中记住的数据。因此，研究者专注于研究模型的「可检测记忆」能力，这被认为是评估模型记忆能力的一个上限，并已在多项研究中作为通用定义。研究者对Gemma预训练模型进行了记忆测试。具体来说，他们从每个数据集中随机选择了10,000篇文档，并使用文档开头的50个词元作为模型的prompt。测试重点是精确记忆，即如果模型能够基于输入，精确地生成接下来的50token，与原文完全一致，便认为模型「记住了」这段文本。此外，为了探测模型是否能够以改写的形式记忆信息，研究者还测试了模型的「近似记忆」能力，即允许在生成的文本和原文之间存... PC版：手机版：

作为当下最受欢迎的开源 AI 大模型解决方案，GitHub 上一个开源项目 Colossal-AI 建立了一整套完整的 RLHF

作为当下最受欢迎的开源 AI 大模型解决方案，GitHub 上一个开源项目 Colossal-AI 建立了一整套完整的 RLHF 流程，包括：监督数据集收集 -> 监督微调 -> 奖励模型训练 -> 强化学习微调。并且，技术团队以 LLaMA 为基础预训练模型，正式推出了 ColossalChat，这也是目前最接近 ChatGPT 原始技术方案的实用开源项目。该项目包括但不限于以下功能： - Demo：可直接在线体验模型效果，无需注册或 waitinglist； - 训练代码：开源完整 RLHF 训练代码，已开源至含 7B 和 13B 两种模型； - 数据集：开源 104K 中、英双语数据集； - 推理部署：4bit 量化推理 70 亿参数模型仅需 4GB 显存； - 模型权重：仅需单台服务器少量算力即可快速复现； - 更大规模模型、数据集、其他优化等将保持高速迭代添加。目前，相关代码已开源至 GitHub，感兴趣的同学可以看下。项目还有提供完整的中文教程，进一步降低学习门槛，让大家能更快上手开发。 |||||

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人