谷歌承认“窃取”OpenAI模型关键信息：成本低至150元

谷歌承认“窃取”OpenAI模型关键信息：成本低至150元只要通过API访问，不到2000次巧妙的查询就搞定了。成本根据调用次数来看，最低20美元以内（折合人民币约150元）搞定，并且这种方法同样适用于GPT-4。好家伙，这一回奥特曼是被将军了！这是谷歌的一项最新研究，它报告了一种攻击窃取大模型关键信息的方法。基于这种方法，谷歌破解了GPT系列两个基础模型Ada和Babbage的整个投影矩阵。如隐藏维度这样的关键信息也直接破获：一个为1024，一个为2048。所以，谷歌是怎么实现的？攻击大模型的最后一层该方法核心攻击的目标是模型的嵌入投影层（embedding projection layer），它是模型的最后一层，负责将隐藏维度映射到logits向量。由于logits向量实际上位于一个由嵌入投影层定义的低维子空间内，所以通过向模型的API发出针对性查询，即可提取出模型的嵌入维度或者最终权重矩阵。通过大量查询并应用奇异值排序（Sorted Singular Values）可以识别出模型的隐藏维度。比如针对Pythia 1.4B模型进行超过2048次查询，图中的峰值出现在第2048个奇异值处，则表示模型的隐藏维度是2048.可视化连续奇异值之间的差异，也能用来确定模型的隐藏维度。这种方法可以用来验证是否成功从模型中提取出关键信息。在Pythia-1.4B模型上，当查询次数达到2047时出现峰值，则表明模型隐藏维度大小为2048.并且攻击这一层能够揭示模型的“宽度”（即模型的总体参数量）以及更多全局性的信息，还能降低一个模型的“黑盒程度”，给后续攻击“铺路”。研究团队实测，这种攻击非常高效。无需太多查询次数，即可拿到模型的关键信息。比如攻击OpenAI的Ada和Babbage并拿下整个投影矩阵，只需不到20美元；攻击GPT-3.5需要大约200美元。它适用于那些API提供完整logprobs或者logit bias的生成式模型，比如GPT-4、PaLM2。论文中表示，尽管这种攻击方式能获取的模型信息并不多，但是能完成攻击本身就已经很让人震惊了。已通报OpenAI如此重要的信息被竞争对手以如此低成本破解，OpenAI还能坐得住吗？咳咳，好消息是：OpenAI知道，自己人还转发了一波。作为正经安全研究，研究团队在提取模型最后一层参数之前，已征得OpenAI同意。攻击完成后，大家还和OpenAI确认了方法的有效性，最终删除了所有与攻击相关的数据。所以网友调侃：一些具体数字没披露（比如gpt-3.5-turbo的隐藏维度），算OpenAI求你的咯。值得一提的是，研究团队中还包括一位OpenAI研究员。这项研究的主要参与者来自谷歌DeepMind，但还包括苏黎世联邦理工学院、华盛顿大学、麦吉尔大学的研究员们，以及1位OpenAI员工。此外，作者团队也给了防御措施包括：从API下手，彻底删除logit bias参数；或者直接从模型架构下手，在训练完成后修改最后一层的隐藏维度h等等。基于此，OpenAI最终选择修改模型API，“有心人”想复现谷歌的操作是不可能了。但不管怎么说：谷歌等团队的这个实验证明，OpenAI锁紧大门也不一定完全保险了。（要不你自己主动点开源了吧）论文链接： ... PC版：手机版：

在Telegram中查看

相关推荐

OpenAI核心资料被盗 Google承认“主动攻击” 成本仅150元？

OpenAI核心资料被盗 Google承认“主动攻击” 成本仅150元？这一发现犹如一记重磅炸弹，在AI界引发了强烈的震动。谁也没想到，号称“CloseAI”的OpenAI竟然也会被窃取模型机密的一天。更恐怖的是，这种模型窃取技术还非常简单。只要你拥有ChatGPT这类封闭大模型的API，就可以通过API接口，发送不到2000次经过精心设计好的查询，然后去分析它生成的输出，就可以逐步推断出模型的内部结构和参数。虽然这种方法不能完全复制原始模型，但已经足以窃取它的部分能力。而且这种攻击非常高效，不需要用太多的成本，就可以拿到模型的关键信息。按照Google的调用次数来看，仅仅只需要不到20美金（约合150元人民币）的成本，就可以完成模型窃取的操作，并且这种方法同样适用于GPT-3.5和GPT-4。换句话说，就是不费吹灰之力获得了一个大模型理解自然语言的能力，还能用来构建一个性能相近的“山寨版”模型，既省事又省钱。反观OpenAI，被竞争对手低价破解模型机密，真的坐得住吗？坐不住。截至目前，OpenAI已经修改了模型API，有心人想复现Google的操作是不可能了。值得一提的是，Google研究团队中就有一位OpenAI研究员。不过作为正经安全研究，他们在提取模型最后一层参数之前就已经征得OpenAI同意，而在攻击完成后，也删除了所有相关数据。但不管怎么说，Google的实验足以证明一点，哪怕OpenAI紧闭大门也并不保险。大模型全面受挫，敲响开闭源警钟既然封闭的大模型都无法幸免，开源的大模型又会如何呢？基于这一点，Google针对不同规模和结构的开源模型进行了一系列实验，比如GPT-2的不同版本和LLaMA系列模型。要知道，GPT-2是一个开源的预训练语言模型，分为小型模型(117M)和大型模型(345M)两种。而在对GPT-2的攻击中，Google通过分析模型的最终隐藏激活向量并执行SVD发现，尽管GPT-2小型模型理论上具有768个隐藏单元，但实际上只有757个有效的隐藏单元在起作用。这也就意味着GPT-2可能在实际使用中，并没有充分利用其设计的全部能力，或者在训练过程中某些维度的重要性不如其他维度。此外，Google还研究了模型中的一种叫做“归一化层”的东西对于攻击的影响。一般来说，归一化层的作用是让训练更加稳定，从而提升模型的表现。然而Google发现，即使模型加入了归一化层，攻击的效果也并没有减弱。这说明即使考虑了现代深度学习模型中常见的复杂结构，攻击方法也依然有效。为了进一步验证攻击的范围，Google还将目光瞄向更大、更复杂的LLaMA模型。它是由Meta发布的大语言系列模型，完整的名字是Large Language Model Meta AI，可以说LLaMA是目前全球最活跃的AI开源社区。通过对LLaMA系列模型进行攻击，Google成功地从这些模型中提取了嵌入投影层的维度信息。值得注意的是，即使在这些模型采用先进的技术，如混合精度训练和量化，攻击依然能够成功，这表明攻击方法的普适性和鲁棒性。可以说，Google给闭源和开源两大领域同时敲响了一记警钟。AI三巨头对线，2024谁输谁赢？从严格意义上来讲，OpenAI、Google、Meta就是争夺AGI圣杯的三大巨头。其中，Meta和OpenAI完全相反，前者走的是开源路线，而后者主要打造闭源模型。但Google和他们完全不一样，闭源与开源双线作战，闭源对抗OpenAI，开源对抗Meta。在人工智能领域里，Google可以算是开源大模型的鼻祖。今天几乎所有的大语言模型，都是基于Google在2017年发布的Transformer论文，这篇论文颠覆了整个自然语言处理领域的研究范式。而市面上最早的一批开源AI模型，也是Google率先发布的BERT和T5。然而，随着OpenAI在2022年底发布闭源模型ChatGPT，Google也开始调整其策略，逐渐转向闭源模型。这一转变使得开源大模型的领导地位被Meta的LLaMA所取代，后来又有法国的开源大模型公司Mistra AI走红，尤其是其MoE模型备受行业追捧。直到Google今年再次发布开源大模型Gemma，已经比Meta的LLaMA整整晚了一年。很显然，Gemma这次的发布标志着Google在大模型战略上的巨大转变，这一举动意味着Google开始兼顾开源和闭源的新策略，而其背后的目的也是显而易见。众所周知，当前大模型领域的竞争已经形成了一种错综复杂的打压链格局。其中OpenAI牢牢站在链条顶端，而它所打压的恰恰是那些有潜力追赶上它的竞争对手，比如Google和Anthropic。而Mistral作为一股新兴力量，估计也正在被列入其中。如果非要排列一个打压链条，那可以归结为：OpenAI→Google &Anthropic &Mistral→ Meta→其它大模型公司。可以说，无论在闭源还是开源领域，Google都没能确立绝对的领先地位。所以这也不难理解，为什么有专业人士会认为，Google选择在此时重返开源赛场，是被迫的。Google之所以开源主打的是性能最强大的小规模模型，就是希望脚踢Meta和Mistral；而闭源主打的是规模大的效果最好的大模型，就是为了希望尽快追上OpenAI。但无论如何，在未来的对垒格局里，Google已经先发制人，成功将压力给到OpenAI和Meta。这一次，关键在于OpenAI和Meta该如何应对。 ... PC版：手机版：

【谷歌、OpenAI 都没有护城河】一位谷歌内部的研究人员认为，围绕 Meta 的 LLaMA 等开源模型，整个社区正在迅速构建

【谷歌、OpenAI 都没有护城河】一位谷歌内部的研究人员认为，围绕 Meta 的 LLaMA 等开源模型，整个社区正在迅速构建与 OpenAI、谷歌大模型能力类似的模型，而且开源模型的迭代速度更快，可定制性更强，更有私密性…「当免费的、不受限制的替代品质量相当时，人们不会为受限制的模型付费。」 #抽屉IT

微软将推出自研新大模型 MAI-1 与谷歌和 OpenAI 竞争

微软将推出自研新大模型 MAI-1 与谷歌和 OpenAI 竞争微软正在公司内部训练一个新的人工智能模型，其规模足以与谷歌、Anthropic，乃至 OpenAI 的先进模型相抗衡。新模型内部代号为 MAI-1 ，由前谷歌 AI 负责人 Mustafa Suleyman 领导开发。 Suleyman 曾担任初创公司 Inflection 的 CEO，今年 3 月微软以 6.5 亿美元收购该公司后加入微软。 MAI-1 可能会基于 Inflection 的训练数据与技术，但据两名知情的微软员工透露，新模型与 Inflection 公司原有的模型 Pi 是两个不同项目。相关人士称，MAI-1 的规模“远大于”微软此前训练过的任何开源模型，将有约 5,000 亿参数，意味着它将需要更强算力及训练数据，同时也会具备更高的成本。

训练 ChatGPT 等模型不付钱？美国新闻集团拟起诉微软、谷歌、OpenAI

训练 ChatGPT 等模型不付钱？美国新闻集团拟起诉微软、谷歌、OpenAI 华尔街日报报道，AI 技术的发展已经引发了新闻出版业的不满，他们认为自己的内容被大型科技公司用于训练 AI 模型而没有得到合理的补偿。拥有《纽约邮报》、《巴伦周刊》、《华尔街日报》等的美国新闻集团正准备向 OpenAI、微软和谷歌等公司提起诉讼，要求赔偿其内容在 ChatGPT、Bard 等 AI 工具中被用来使用的费用。当前这是一个复杂而模糊的法律问题，涉及到 AI 公司是否有权从互联网上抓取内容，并将其输入到训练模型中。一些批评者认为，这是一种工业规模的知识产权盗窃行为。出版商担心，AI 工具可能会影响他们网站的流量和广告收入。事实上，AI 版权问题并非始于 ChatGPT。在图像和代码方面，已经有多起诉讼案件涉及到 AI 模型训练使用受版权保护的数据。例如，Midjourney、Stability AI、微软、GitHub 以及 OpenAI 都曾卷入相关纠纷。目前，对于 AI 创作是否受版权保护还没有形成固定的准则。法律人士认为，所有针对生成式 AI 的案件可能需要数年时间才能结案。科技公司与内容出版商进行协商寻求使用许可，或许是最好的解决办法。来源，来自：雷锋频道：@kejiqu 群组：@kejiquchat 投稿：@kejiqubot

OpenAI去年因开发ChatGPT和人工成本高昂导致亏损翻番

OpenAI去年因开发ChatGPT和人工成本高昂导致亏损翻番据外媒报道，三位了解OpenAI财务状况的人士透露，由于OpenAI去年开发了聊天机器人ChatGPT并从谷歌挖来了关键员工，该公司去年的亏损大约翻了一番，达到5.4亿美元左右。毫无疑问，大型人工智能语言模型是一项昂贵的业务，但打造它们的成本到底有多高目前还不清楚。与此同时，外媒称，OpenAI的部分成本还来自于从苹果和谷歌等知名公司聘请专业人士。此前，在今年3月份，OpenAI从谷歌那挖来了人工智能研究员雅各布·德夫林（Jacob Devlin）。德夫林曾试图警告谷歌不要使用ChatGPT的数据来训练其AI聊天机器人Bard，因为这违反了OpenAI的服务条款，而且Bard的答案与ChatGPT的答案看起来太相似了。来源，来自：雷锋频道：@kejiqu 群组：@kejiquchat 投稿：@kejiqubot

OpenAI、蚂蚁集团、谷歌、科大讯飞等联合编制大模型安全国际标准正式发布

OpenAI、蚂蚁集团、谷歌、科大讯飞等联合编制大模型安全国际标准正式发布在瑞士举行的第27届联合国科技大会上，世界数字技术院（WDTA）发布了《生成式人工智能应用安全测试标准》和《大语言模型安全测试方法》两项国际标准，是由OpenAI、蚂蚁集团、科大讯飞、谷歌、微软、英伟达、百度、腾讯等数十家单位的多名专家学者共同编制而成。来源：格隆汇

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人