[整理] Boris Dayma 对谷歌 Gemma 技术报告的一些总结，觉得技术报告太长懒得看的可以看看：

[整理] Boris Dayma 对谷歌 Gemma 技术报告的一些总结，觉得技术报告太长懒得看的可以看看： ◆这个模型的架构（architecture）和llama非常相似。 ◆7B模型使用了惊人的6T tokens！ ◆词汇量巨大。 ◆在前馈神经网络（FFN）中使用了GeGLU，我希望他们能对那里使用的维度进行更深 ...

在Telegram中查看

相关推荐

最强开源大模型一夜易主：谷歌Gemma 7B碾压Llama 2 13B 重燃开源之战

最强开源大模型一夜易主：谷歌Gemma 7B碾压Llama 2 13B 重燃开源之战与此同时，谷歌还放出了16页的技术报告。谷歌表示，Gemma这个名字源自拉丁语「gemma」，也就是「宝石」的意思，似乎是在象征着它的珍贵性。历史上，Transformers、TensorFlow、BERT、T5、JAX、AlphaFold和AlphaCode，都是谷歌为开源社区贡献的创新。而谷歌今天在全球范围内同步推出的Gemma，必然会再一次掀起构建开源AI的热潮。同时也坐实了OpenAI「唯一ClosedAI」的名头。OpenAI最近刚因为Sora火到爆，Llame据称也要有大动作，谷歌这就又抢先一步。硅谷大厂，已经卷翻天了！Hugging Face CEO也跟帖祝贺。还贴出了Gemma登上Hugging Face热榜的截图。Keras作者François Chollet直言：最强开源大模型，今日易主了。有网友已经亲自试用过，表示Gemma 7B真是速度飞快。谷歌简直是用Gemini拳打GPT-4，用Gemma脚踢Llama 2！网友们也是看热闹不嫌事大，召唤Mistral AI和OpenAI今晚赶快来点大动作，别让谷歌真的抢了头条。（手动狗头）可以看到，Gemma-7B模型在涵盖一般语言理解、推理、数学和编码的8项基准测试中，性能已经超越了Llama 2 7B和13B！并且，它也超越了Mistral 7B模型的性能，尤其是在数学、科学和编码相关任务中。在安全性方面，经过指令微调的Gemma-2B IT和 Gemma-7B IT模型，在人类偏好评估中都超过了Mistal-7B v0.2模型。特别是Gemma-7B IT模型，它在理解和执行具体指令方面，表现得更加出色。这次，除了模型本身，谷歌还提供了一套工具帮助开发者，确保Gemma模型负责任的使用，帮助开发者用Gemma构建更安全的AI应用程序。- 谷歌为JAX、PyTorch和TensorFlow提供了完整的工具链，支持模型推理和监督式微调（SFT），并且完全兼容最新的Keras 3.0。- 通过预置的Colab和Kaggle notebooks，以及与Hugging Face、MaxText、NVIDIA NeMo和TensorRT-LLM等流行工具的集成，用户可以轻松开始探索Gemma。- Gemma模型既可以在个人笔记本电脑和工作站上运行，也可以在Google Cloud上部署，支持在Vertex AI和Google Kubernetes Engine (GKE) 上的简易部署。- 谷歌还对Gemma进行了跨平台优化，确保了它在NVIDIA GPU和Google Cloud TPU等多种AI硬件上的卓越性能。并且，使用条款为所有组织提供了负责任的商业使用和分发权限，不受组织规模的限制。不过，Gemma并没有能够在所有的榜单中，都拿下SOTA。在官方放出的评测中，Gemma 7B在MMLU、HellaSwag、SIQA、CQA、ARC-e、HumanEval、MBPP、GSM8K、MATH和AGIEval中，成功击败了Llama 2 7B和13B模型。相比之下，Gemma 7B在Boolq测试中，只与Mistral 7B打了个平手。而在PIQA、ARC-c、Winogrande和BBH中，则不敌Mistral 7B。在OBQA和trivalent QA中，更是同时被7B和13B规模的Llama 2 7B斩于马下。谷歌这次发布的两个版本的Gemma模型，70 亿参数的模型用于GPU和TPU上的高效部署和开发，20亿参数的模型用于CPU和端侧应用程序。在18个基于文本的任务中的11个中，Gemma都优于相似参数规模的开源模型，例如问答、常识推理、数学和科学、编码等任务。模型架构方面，Gemma在Transformer的基础上进行了几项改进，从而在处理复杂任务时能够展现出更加出色的性能和效率。- 多查询注意力机制其中，7B模型采用了多头注意力机制，而2B模型则使用了多查询注意力机制。结果显示，这些特定的注意力机制能够在不同的模型规模上提升性能。- RoPE嵌入与传统的绝对位置嵌入不同，模型在每一层都使用了旋转位置嵌入技术，并且在模型的输入和输出之间共享嵌入，这样做可以有效减少模型的大小。- GeGLU激活函数将标准的ReLU激活函数替换成GeGLU激活函数，可以提升模型的表现。- 归一化化位置（Normalizer Location）每个Transformer子层的输入和输出都进行了归一化处理。这里采用的是RMSNorm作为归一化层，以确保模型的稳定性和效率。架构的核心参数如下：两种规模的参数如下：Gemma 2B和7B分别针对来自网络文档、数学和代码的主要英语数据的2T和6Ttoken，进行了训练。与Gemini不同，这些模型不是多模态的，也没有针对多语言任务的SOTA进行训练。谷歌使用了Gemini的SentencePiece分词器的子集，来实现兼容性。团队对Gemma 2B和7B模型进行了微调，包括有监督的微调（SFT）和基于人类反馈的强化学习（RLHF）。在有监督的微调阶段，研究者使用了一个由纯文本、英文、由人工和机器生成的问题-答案对组成的数据集。在强化学习阶段，则是使用了一个基于英文偏好数据训练出的奖励模型，以及一套精心挑选的高质量提示作为策略。研究者发现，这两个阶段对于提升模型在自动评估和人类偏好评估中的表现，至关重要。研究者根据基于LM的并行评估，选择了数据混合物进行监督微调。给定一组保留prompt，研究者会从测试模型中生成响应，从基准模型中生成对相同提示的响应，随机洗牌，然后要求一个更大、能力更强的模型在两种响应之间表达偏好。研究者构建了不同的提示集，以突出特定的能力，如遵循指令、实事求是、创造性和安全性。我们使用了不同的基于LM的自动评委，采用了一系列技术，如思维链提示、使用评分标准和章程等，以便与人类偏好保持一致。研究者进一步利用来自人类反馈的强化学习（RLHF），对已经进行过有监督微调的模型进行了优化。他们从人类评估者那里收集他们的偏好选择，并在 Bradley-Terry 模型的基础上，训练了一个奖励函数，这与Gemini项目的做法相似。研究者采用了一个改进版的REINFORCE算法，加入了 Kullback–Leibler 正则化项，目的是让策略优化这个奖励函数，同时保持与最初调整模型的一致性。与之前的有监督微调阶段相似，为了调整超参数并进一步防止奖励机制被滥用，研究者使用了一个高性能模型作为自动评估工具，并将其与基准模型进行了直接对比。谷歌在多个领域对Gemma进行了性能评估，包括物理和社会推理、问答、编程、数学、常识推理、语言建模、阅读理解等。Gemma2B和7B模型与一系列学术基准测试中的多个外部开源大语言模型进行了比较。在MMLU基准测试中，Gemma 7B模型不仅超过了所有规模相同或更小的开源模型，还超过了一些更大的模型，包括Llama 2 13B。然而，基准测试的制定者评估人类专家的表现为89.8%，而Gemini Ultra是首个超越此标准的模型，这表明Gemma在达到Gemini和人类水平的性能上，还有很大的提升空间。并且，Gemma模型在数学和编程的基准测试中表现尤为突出。在通常用于评估模型分析能力的数学任务中，Gemma 模型在GSM8K和更具挑战性的 MATH基准测试上至少领先其他模型10分。同样，在HumanEval上，它们至少领先其他开源模型6分。Gemma甚至在MBPP上超过了专门进行代码微调的CodeLLaMA 7B模型的性能（CodeLLaMA得分为41.4%，而 Gemma 7B得分为44.4%）。近期研究发现，即便是经过精心对齐的人工智能模型，也可能遭受新型对抗攻击，这种攻击能够规避现有的对齐措施。这类攻击有可能使模型行为异常，有时甚至会导致模型重复输出它在训练过程中记住的数据。因此，研究者专注于研究模型的「可检测记忆」能力，这被认为是评估模型记忆能力的一个上限，并已在多项研究中作为通用定义。研究者对Gemma预训练模型进行了记忆测试。具体来说，他们从每个数据集中随机选择了10,000篇文档，并使用文档开头的50个词元作为模型的prompt。测试重点是精确记忆，即如果模型能够基于输入，精确地生成接下来的50token，与原文完全一致，便认为模型「记住了」这段文本。此外，为了探测模型是否能够以改写的形式记忆信息，研究者还测试了模型的「近似记忆」能力，即允许在生成的文本和原文之间存... PC版：手机版：

Google加入开源战局低配版Gemma相当于OpenAI把GPT-3开源了

Google加入开源战局低配版Gemma相当于OpenAI把GPT-3开源了怎么理解这个动作的重要性呢？你可以粗暴的理解为：这有点像现在正在训练更强大的GPT-5的OpenAI，把GPT3的低参数版给开源了。（前几天Sam Altman被问过这个问题，你们是否会在未来把GPT3开源，他没有直接回答。现在看来Google针对性很强啊。）（X上一张有意思的图）根据Google官方对Gemma的介绍，它的基本信息如下：Gemma是Google开源的一个大型语言模型，而非像Gemini那样是多模态的，它基于与Gemini相同的技术构建，但完全公开并允许商用授权。Gemma模型有两个主要版本，分别是Gemma 7B（70亿参数）和Gemma 2B（20亿参数）。这些模型在大规模的数据集上进行了训练，数据集包含了以英语为主的网络文档、数学数据以及代码数据，总量达到了6万亿tokens。Gemma模型的特点包括：架构细节：Gemma模型具有不同的参数规模，Gemma-2B有18层，d_model为2048，而Gemma-7B有28层，d_model为3072。这些模型还具有不同的前馈隐藏维度、头数和KV头数，以及词汇量。新技术：Gemma采用了一些新技术，如Multi-Query Attention、RoPE Embeddings、GeGLU激活函数以及Normalizer Location，这些技术有助于提高模型的性能。评测结果：Google官方宣称Gemma模型在70亿参数规模的语言模型中表现最佳，甚至超过了一些参数量更大的模型。开源情况：Gemma模型遵循一个自定义的开源协议，允许商业使用。发布完，Jeff Dean就对这个系列模型划了重点：Gemma-7B模型在涵盖通用语言理解、推理、数学和编程的8项基准测试中，性能超过了广泛使用的Llama-2 7B和13B模型。它在数学/科学和编程相关任务上，通常也超过了Mistral 7B模型的性能。Gemma-2B IT和Gemma-7B IT这两个经过指令调整的模型版本，在基于人类偏好的安全评估中，都优于Mistral-7B v0.2指令模型。特别是Gemma-7B IT模型在遵循指令方面也表现更佳。（有意思的是，在Google晒出的成绩对比中，阿里的千问背后的模型Qwen系列表现也很亮眼）我们也发布了一个负责任的生成性人工智能工具包（Responsible Generative AI Toolkit），它为负责任地使用像Gemma模型这样的开放模型提供了资源，包括：关于设定安全政策、安全调整、安全分类器和模型评估的指导。学习可解释性工具（Learning Interpretability Tool，简称LIT），用于调查Gemma的行为并解决潜在问题。一种构建具有最小样本量的强大安全分类器的方法论。我们发布了两个版本的模型权重：Gemma 2B和Gemma 7B。每个版本都提供了预训练和指令调整的变体。我们为所有主要框架提供了推理和监督式微调（SFT）的工具链：通过原生Keras 3.0支持的JAX、PyTorch和TensorFlow。提供了即用型的Colab和Kaggle笔记本，以及与流行的工具如Hugging Face、MaxText、NVIDIA NeMo和TensorRT-LLM的集成，使得开始使用Gemma变得简单。预训练和指令调整的Gemma模型可以在您的笔记本电脑、工作站或Google Cloud上运行，并且可以轻松部署在Vertex AI和Google Kubernetes Engine（GKE）上。在多个AI硬件平台上的优化确保了行业领先的性能，包括NVIDIA GPU和Google Cloud TPUs。使用条款允许所有规模的组织负责任地进行商业使用和分发。可以看到Jeff Dean和Google这次都十分强调开源模型的安全性和具体的实打实的配套设施和举措。这似乎也直至被诟病Close AI且被外界质疑安全性保障的OpenAI。现在，憋坏了的Google正式四面开战了。未来它将用Gemma对抗Llama，用Gemini对抗GPT。无论是开源还是闭源，竞争越来越焦灼了。相关文章:Google发布了一对开源人工智能模型Gemma 2B和7B 适用于较小的任务 ... PC版：手机版：

Google 发布开源大语言模型 Gemma

Google 发布开源大语言模型 Gemma 谷歌今天宣布推出 Gemma，这是一个新的轻量级开源大语言模型系列。现在 Gemma 2B 和 Gemma 7B 两个模型已经可用，每个尺寸都发布了经过预训练和指令调整的变体。谷歌同时提供了多项工具以便快速部署该模型，包括开箱即用的 Colab 实例，可快速部署的容器镜像，以及和其它流行开发工具的集成。 Gemma 模型也能够直接在开发人员笔记本电脑或台式计算机上运行。根据谷歌的，该模型在多个测试中超越的 Llama 2 等开源模型。这些新模型“受到 Gemini 的启发”，使用与其相似的技术，并被许可用于商业和研究用途。此外，谷歌还发布了一个新的负责任的生成式AI工具包，以提供“使用 Gemma 创建更安全的人工智能应用程序的指导和基本工具”以及调试工具。 , ,

见鬼了，谷歌居然开源LLM模型了，Meta要慌了。

见鬼了，谷歌居然开源LLM模型了，Meta要慌了。 Gemma 采用了和Gemini一样技术的开源LLM，同时质量也比同规模的模型要强。下面是一些要点： ◈ 两种尺寸的模型权重：Gemma 2B和Gemma 7B。每种尺寸都有预训练和指导调整的变体。 ◈ 一个生成式人工智能工具包，为使用Gemma创建更安全的人工智能应用提供指导和必要工具。 ◈ 通过原生Keras 3.0为所有主要框架（JAX、PyTorch和TensorFlow）提供推理和监督微调（SFT）的工具链。 ◈ 准备好的Colab和Kaggle笔记本，以及与Hugging Face、MaxText、NVIDIA NeMo和TensorRT等流行工具的集成，使得开始使用Gemma变得非常容易。 ◈ 预先训练和经过调整的Gemma模型可以在您的笔记本电脑、工作站或Google Cloud上运行，并可以轻松部署到Vertex AI和Google Kubernetes Engine（GKE）。 ◈ 跨多个人工智能硬件平台的优化确保了行业领先的性能，包括NVIDIA GPU和Google Cloud TPU。 ◈ 允许所有组织进行负责任的商业使用和分发，无论规模大小。 ◈未来还会发布Gemma更大模型变体。了解更多：

重磅：Google 刚刚发布了一个超强的开源模型 Gemma

重磅：Google 刚刚发布了一个超强的开源模型 Gemma 这是 AI 开源模型生态的一大步。 Google DeepMind CEO Demis 表示：「我们长期以来一直支持负责任的开放源代码和科学，这可以推动快速的研究进展，因此我们很自豪地发布了 Gemma：一套轻量级的开放模型，其大小在同类产品中名列前茅，其灵感来源于双子座所使用的相同技术。」 Gemma 开放模型的特点 - Gemma 是一个轻量级、最先进的开放式模型系列，采用了与Gemini相同的研究和技术。 - Gemma 由 Google DeepMind 和 Google 的其他团队共同开发，其灵感来源于双子座，名字反映了拉丁语 gemma，意为「宝石」。 - 两种尺寸：Gemma 2B 和 Gemma 7B。每种规模都发布了预训练和指令调整变体。（Hans 注，在图2中，你能看到 7B 在多项核心指标，大幅领先Llama-2。） - 经过预训练和指令调整的 Gemma 模型可在你的笔记本电脑、工作站或Google Cloud上运行，并可在 Vertex AI 和谷歌 Kubernetes Engine 上轻松部署。使用、研究和AI 伦理方面的补充： - 允许所有组织（无论规模大小）以负责任的方式进行商业使用和分发。 - Gemma 专为推动人工智能创新的开发人员和研究人员组成的开放社区而打造。 - 现在就可以开始使用 Gemma，免费访问 Kaggle，免费使用 Colab 笔记本，首次使用 Google Cloud 的用户还可获得 300 美元的积分。 - 研究人员还可以申请高达 500,000 美元的 Google Cloud 信用额度来加速他们的项目。详情部署和使用，现在就可以访问：

AI大模型使用美国开源技术？李开复回应

AI大模型使用美国开源技术？李开复回应当时，零一万物刚刚成立8个月时间，但拥有财力雄厚的投资者，已经是估值达到10亿美元的“独角兽”。李开复在接受采访时将他的AI系统描绘成了其他大模型的替代品，比如Facebook母公司Meta的开源生成式AI模型LLaMA。不过，零一万物那时发布的开源大语言模型Yi-34B采用的部分技术基于LLaMA架构，该公司以Meta的技术为基础，然后使用新数据训练其系统，使其变得更强大。这个事情还曾引起争议。据国内媒体报道，零一研发团队当时回应称，将对大语言模型重命名，从Yi改回LLaMA，公司也将发布改名后的新版本。对此，李开复在最新邮件声明中回应称，就像“大多数其他AI公司一样”，零一万物的AI模型建立在LLaMA基础之上，使用开源技术是行业的一种标准做法。他指出，零一万物使用自己的数据和算法，从头开始训练其AI模型，这些才是其大模型“优越性能”的“主要决定因素”。Meta在回应时引用了公司全球事务主管尼克·克莱格(Nick Clegg)的评论。克莱格曾表示，公开分享该公司的AI模型有助于传播其价值观和标准，进而有助于确保美国的领导地位。ChatGPT的横空出世引发了一波生成式AI热潮。中国企业也在积极开发生成式AI，但是依赖于美国的底层系统。据十几位科技界内部人士和顶尖工程师表示，中国目前在生成式AI方面落后美国至少一年，而且可能还会进一步落后。 ... PC版：手机版：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人