ChatGPT 参数规模被扒：只有 7B

ChatGPT 参数规模被扒：只有 7B 具体来说，南加大团队三位作者破解出了未公布的 gpt-3.5-turbo 嵌入向量维度（embedding size）为 4096 或 4608。而几乎所有已知的开源大模型如 Llama 和 Mistral，嵌入向量维度 4096 的时候都是约 7B 参数规模。其它比例的话，就会造成网络过宽或过窄，已被证明对模型性能不利。因此南加大团队指出，可以推测 gpt-3.5-turbo 的参数规模也在 7B 左右，除非是 MoE 架构可能不同。

在Telegram中查看

相关推荐

南加州大学最新研究使用一种攻击方法，花费不到 1000 美元就把最新版 gpt-3.5-turbo 模型的机密给挖了出来。果然，

南加州大学最新研究使用一种攻击方法，花费不到 1000 美元就把最新版 gpt-3.5-turbo 模型的机密给挖了出来。果然，OpenAI 不 Open，自有别人帮他们 Open。具体来说，南加大团队三位作者破解出了未公布的 gpt-3.5-turbo 嵌入向量维度（embedding size）为 4096 或 4608。而几乎所有已知的开源大模型如 Llama 和 Mistral，嵌入向量维度 4096 的时候都是约 7B 参数规模。其它比例的话，就会造成网络过宽或过窄，已被证明对模型性能不利。因此南加大团队指出，可以推测 gpt-3.5-turbo 的参数规模也在 7B 左右，除非是 MoE 架构可能不同。 via 匿名标签: #OpenAI 频道: @GodlyNews1 投稿: @GodlyNewsBot

Open AI终于发力了，今天更新了一堆新的内容，每个都很重磅：

Open AI终于发力了，今天更新了一堆新的内容，每个都很重磅： - 16k 上下文 3.5 Turbo 模型（今天向所有人提供） - 新的 GPT-4 和 3.5 Turbo 模型 - Chat Completions API 中的新函数调用功能 - V2 嵌入模型降价 75% - GPT-4的API权限将开放给更多的人下面是详细介绍首先是新的GPT-4的模型 `gpt-4-0613` 包括一个更新和改进的模型，带有函数调用。 `gpt-4-32k-0613` 包括与 `gpt-4-0613` 相同的改进，同时上下文长度再度扩展，以便更好地理解更大的文本。未来几周内邀请候补名单中的更多人试用 GPT-4，直到完全删除候补名单新的GPT-3.5 Turbo和16K模型 `gpt-3.5-turbo-0613` 包括与 GPT-4 相同的函数调用以及通过系统消息提供的更可靠的可控性。 `gpt-3.5-turbo-16k` 的16k 上下文意味着该模型现在可以在单个请求中支持约 20 页文本。然后是Function calling 函数调用开发人员现在可以向 `gpt-4-0613` 和 `gpt-3.5-turbo-0613` 描述函数，并让模型智能地选择输出包含调用这些函数的参数的 JSON 对象。这是一种更可靠地将 GPT 功能与外部工具和 API 连接的新方法。最后是价格调整 `text-embedding-ada-002` 将成本降低 75% 至每 1K Token 0.0001 美元。 `gpt-3.5-turbo-16k` 的定价为每 1K 输入Token 0.003 美元，每 1K 输出Token 0.004 美元。 `gpt-3.5-turbo’s` 输入Token的成本降低了 25%

Meta宣布推出Llama 2(羊驼2) 提供7B~70B模型开源免费可商用

Meta宣布推出Llama 2(羊驼2) 提供7B~70B模型开源免费可商用今天 Meta 发布 Llama 2 也就是羊驼 2 模型，提供 7B、13B 和 70B 参数版本，该模型开源、免费、可商用，这也是为什么最近一段时间有大量新模型出现，对开源社区来说，只要有高质量模型被开源出来，那接下来就是社区成员登场，微调、优化、定制、整合，然后就可以生成更多模型了。羊驼 2 预训练模型接受了 2 万亿个 tokens 的训练，上下文长度是 Llama 1 的两倍，是的其上下文长度从 2048 提升到了 4096，其微调模型接受了超过 100 万个人类标注的训练。根据 Meta AI 研究团队的测试，羊驼 2 在不少测试中表现都比较优异 (相对其他开源模型)，包括推理、编程、熟练程度和知识测试。 (需要提供Email地址) 来源，来自：雷锋频道：@kejiqu 群组：@kejiquchat 投稿：@kejiqubot

最强开源大模型一夜易主：谷歌Gemma 7B碾压Llama 2 13B 重燃开源之战

最强开源大模型一夜易主：谷歌Gemma 7B碾压Llama 2 13B 重燃开源之战与此同时，谷歌还放出了16页的技术报告。谷歌表示，Gemma这个名字源自拉丁语「gemma」，也就是「宝石」的意思，似乎是在象征着它的珍贵性。历史上，Transformers、TensorFlow、BERT、T5、JAX、AlphaFold和AlphaCode，都是谷歌为开源社区贡献的创新。而谷歌今天在全球范围内同步推出的Gemma，必然会再一次掀起构建开源AI的热潮。同时也坐实了OpenAI「唯一ClosedAI」的名头。OpenAI最近刚因为Sora火到爆，Llame据称也要有大动作，谷歌这就又抢先一步。硅谷大厂，已经卷翻天了！Hugging Face CEO也跟帖祝贺。还贴出了Gemma登上Hugging Face热榜的截图。Keras作者François Chollet直言：最强开源大模型，今日易主了。有网友已经亲自试用过，表示Gemma 7B真是速度飞快。谷歌简直是用Gemini拳打GPT-4，用Gemma脚踢Llama 2！网友们也是看热闹不嫌事大，召唤Mistral AI和OpenAI今晚赶快来点大动作，别让谷歌真的抢了头条。（手动狗头）可以看到，Gemma-7B模型在涵盖一般语言理解、推理、数学和编码的8项基准测试中，性能已经超越了Llama 2 7B和13B！并且，它也超越了Mistral 7B模型的性能，尤其是在数学、科学和编码相关任务中。在安全性方面，经过指令微调的Gemma-2B IT和 Gemma-7B IT模型，在人类偏好评估中都超过了Mistal-7B v0.2模型。特别是Gemma-7B IT模型，它在理解和执行具体指令方面，表现得更加出色。这次，除了模型本身，谷歌还提供了一套工具帮助开发者，确保Gemma模型负责任的使用，帮助开发者用Gemma构建更安全的AI应用程序。- 谷歌为JAX、PyTorch和TensorFlow提供了完整的工具链，支持模型推理和监督式微调（SFT），并且完全兼容最新的Keras 3.0。- 通过预置的Colab和Kaggle notebooks，以及与Hugging Face、MaxText、NVIDIA NeMo和TensorRT-LLM等流行工具的集成，用户可以轻松开始探索Gemma。- Gemma模型既可以在个人笔记本电脑和工作站上运行，也可以在Google Cloud上部署，支持在Vertex AI和Google Kubernetes Engine (GKE) 上的简易部署。- 谷歌还对Gemma进行了跨平台优化，确保了它在NVIDIA GPU和Google Cloud TPU等多种AI硬件上的卓越性能。并且，使用条款为所有组织提供了负责任的商业使用和分发权限，不受组织规模的限制。不过，Gemma并没有能够在所有的榜单中，都拿下SOTA。在官方放出的评测中，Gemma 7B在MMLU、HellaSwag、SIQA、CQA、ARC-e、HumanEval、MBPP、GSM8K、MATH和AGIEval中，成功击败了Llama 2 7B和13B模型。相比之下，Gemma 7B在Boolq测试中，只与Mistral 7B打了个平手。而在PIQA、ARC-c、Winogrande和BBH中，则不敌Mistral 7B。在OBQA和trivalent QA中，更是同时被7B和13B规模的Llama 2 7B斩于马下。谷歌这次发布的两个版本的Gemma模型，70 亿参数的模型用于GPU和TPU上的高效部署和开发，20亿参数的模型用于CPU和端侧应用程序。在18个基于文本的任务中的11个中，Gemma都优于相似参数规模的开源模型，例如问答、常识推理、数学和科学、编码等任务。模型架构方面，Gemma在Transformer的基础上进行了几项改进，从而在处理复杂任务时能够展现出更加出色的性能和效率。- 多查询注意力机制其中，7B模型采用了多头注意力机制，而2B模型则使用了多查询注意力机制。结果显示，这些特定的注意力机制能够在不同的模型规模上提升性能。- RoPE嵌入与传统的绝对位置嵌入不同，模型在每一层都使用了旋转位置嵌入技术，并且在模型的输入和输出之间共享嵌入，这样做可以有效减少模型的大小。- GeGLU激活函数将标准的ReLU激活函数替换成GeGLU激活函数，可以提升模型的表现。- 归一化化位置（Normalizer Location）每个Transformer子层的输入和输出都进行了归一化处理。这里采用的是RMSNorm作为归一化层，以确保模型的稳定性和效率。架构的核心参数如下：两种规模的参数如下：Gemma 2B和7B分别针对来自网络文档、数学和代码的主要英语数据的2T和6Ttoken，进行了训练。与Gemini不同，这些模型不是多模态的，也没有针对多语言任务的SOTA进行训练。谷歌使用了Gemini的SentencePiece分词器的子集，来实现兼容性。团队对Gemma 2B和7B模型进行了微调，包括有监督的微调（SFT）和基于人类反馈的强化学习（RLHF）。在有监督的微调阶段，研究者使用了一个由纯文本、英文、由人工和机器生成的问题-答案对组成的数据集。在强化学习阶段，则是使用了一个基于英文偏好数据训练出的奖励模型，以及一套精心挑选的高质量提示作为策略。研究者发现，这两个阶段对于提升模型在自动评估和人类偏好评估中的表现，至关重要。研究者根据基于LM的并行评估，选择了数据混合物进行监督微调。给定一组保留prompt，研究者会从测试模型中生成响应，从基准模型中生成对相同提示的响应，随机洗牌，然后要求一个更大、能力更强的模型在两种响应之间表达偏好。研究者构建了不同的提示集，以突出特定的能力，如遵循指令、实事求是、创造性和安全性。我们使用了不同的基于LM的自动评委，采用了一系列技术，如思维链提示、使用评分标准和章程等，以便与人类偏好保持一致。研究者进一步利用来自人类反馈的强化学习（RLHF），对已经进行过有监督微调的模型进行了优化。他们从人类评估者那里收集他们的偏好选择，并在 Bradley-Terry 模型的基础上，训练了一个奖励函数，这与Gemini项目的做法相似。研究者采用了一个改进版的REINFORCE算法，加入了 Kullback–Leibler 正则化项，目的是让策略优化这个奖励函数，同时保持与最初调整模型的一致性。与之前的有监督微调阶段相似，为了调整超参数并进一步防止奖励机制被滥用，研究者使用了一个高性能模型作为自动评估工具，并将其与基准模型进行了直接对比。谷歌在多个领域对Gemma进行了性能评估，包括物理和社会推理、问答、编程、数学、常识推理、语言建模、阅读理解等。Gemma2B和7B模型与一系列学术基准测试中的多个外部开源大语言模型进行了比较。在MMLU基准测试中，Gemma 7B模型不仅超过了所有规模相同或更小的开源模型，还超过了一些更大的模型，包括Llama 2 13B。然而，基准测试的制定者评估人类专家的表现为89.8%，而Gemini Ultra是首个超越此标准的模型，这表明Gemma在达到Gemini和人类水平的性能上，还有很大的提升空间。并且，Gemma模型在数学和编程的基准测试中表现尤为突出。在通常用于评估模型分析能力的数学任务中，Gemma 模型在GSM8K和更具挑战性的 MATH基准测试上至少领先其他模型10分。同样，在HumanEval上，它们至少领先其他开源模型6分。Gemma甚至在MBPP上超过了专门进行代码微调的CodeLLaMA 7B模型的性能（CodeLLaMA得分为41.4%，而 Gemma 7B得分为44.4%）。近期研究发现，即便是经过精心对齐的人工智能模型，也可能遭受新型对抗攻击，这种攻击能够规避现有的对齐措施。这类攻击有可能使模型行为异常，有时甚至会导致模型重复输出它在训练过程中记住的数据。因此，研究者专注于研究模型的「可检测记忆」能力，这被认为是评估模型记忆能力的一个上限，并已在多项研究中作为通用定义。研究者对Gemma预训练模型进行了记忆测试。具体来说，他们从每个数据集中随机选择了10,000篇文档，并使用文档开头的50个词元作为模型的prompt。测试重点是精确记忆，即如果模型能够基于输入，精确地生成接下来的50token，与原文完全一致，便认为模型「记住了」这段文本。此外，为了探测模型是否能够以改写的形式记忆信息，研究者还测试了模型的「近似记忆」能力，即允许在生成的文本和原文之间存... PC版：手机版：

有人发现用2019年 GPT-2 的 1.5B 模型为基础，使用大规模指令集进行微调之后，模型指标竟然超越了2023年的羊驼 7

有人发现用2019年 GPT-2 的 1.5B 模型为基础，使用大规模指令集进行微调之后，模型指标竟然超越了2023年的羊驼 7B 模型。 OpenAI 这是领先了多少。。恐怖如斯（同时GPT-2当时国内每家大公司应该都搞了。。 anton: Fine tuned GPT-2 a 1.5B model from 2019 outperforming Alpaca LLaMA a 7B model from 2023...

谷歌承认“窃取”OpenAI模型关键信息：成本低至150元

谷歌承认“窃取”OpenAI模型关键信息：成本低至150元只要通过API访问，不到2000次巧妙的查询就搞定了。成本根据调用次数来看，最低20美元以内（折合人民币约150元）搞定，并且这种方法同样适用于GPT-4。好家伙，这一回奥特曼是被将军了！这是谷歌的一项最新研究，它报告了一种攻击窃取大模型关键信息的方法。基于这种方法，谷歌破解了GPT系列两个基础模型Ada和Babbage的整个投影矩阵。如隐藏维度这样的关键信息也直接破获：一个为1024，一个为2048。所以，谷歌是怎么实现的？攻击大模型的最后一层该方法核心攻击的目标是模型的嵌入投影层（embedding projection layer），它是模型的最后一层，负责将隐藏维度映射到logits向量。由于logits向量实际上位于一个由嵌入投影层定义的低维子空间内，所以通过向模型的API发出针对性查询，即可提取出模型的嵌入维度或者最终权重矩阵。通过大量查询并应用奇异值排序（Sorted Singular Values）可以识别出模型的隐藏维度。比如针对Pythia 1.4B模型进行超过2048次查询，图中的峰值出现在第2048个奇异值处，则表示模型的隐藏维度是2048.可视化连续奇异值之间的差异，也能用来确定模型的隐藏维度。这种方法可以用来验证是否成功从模型中提取出关键信息。在Pythia-1.4B模型上，当查询次数达到2047时出现峰值，则表明模型隐藏维度大小为2048.并且攻击这一层能够揭示模型的“宽度”（即模型的总体参数量）以及更多全局性的信息，还能降低一个模型的“黑盒程度”，给后续攻击“铺路”。研究团队实测，这种攻击非常高效。无需太多查询次数，即可拿到模型的关键信息。比如攻击OpenAI的Ada和Babbage并拿下整个投影矩阵，只需不到20美元；攻击GPT-3.5需要大约200美元。它适用于那些API提供完整logprobs或者logit bias的生成式模型，比如GPT-4、PaLM2。论文中表示，尽管这种攻击方式能获取的模型信息并不多，但是能完成攻击本身就已经很让人震惊了。已通报OpenAI如此重要的信息被竞争对手以如此低成本破解，OpenAI还能坐得住吗？咳咳，好消息是：OpenAI知道，自己人还转发了一波。作为正经安全研究，研究团队在提取模型最后一层参数之前，已征得OpenAI同意。攻击完成后，大家还和OpenAI确认了方法的有效性，最终删除了所有与攻击相关的数据。所以网友调侃：一些具体数字没披露（比如gpt-3.5-turbo的隐藏维度），算OpenAI求你的咯。值得一提的是，研究团队中还包括一位OpenAI研究员。这项研究的主要参与者来自谷歌DeepMind，但还包括苏黎世联邦理工学院、华盛顿大学、麦吉尔大学的研究员们，以及1位OpenAI员工。此外，作者团队也给了防御措施包括：从API下手，彻底删除logit bias参数；或者直接从模型架构下手，在训练完成后修改最后一层的隐藏维度h等等。基于此，OpenAI最终选择修改模型API，“有心人”想复现谷歌的操作是不可能了。但不管怎么说：谷歌等团队的这个实验证明，OpenAI锁紧大门也不一定完全保险了。（要不你自己主动点开源了吧）论文链接： ... PC版：手机版：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人