谷歌承认“窃取”OpenAI模型关键信息:成本低至150元

谷歌承认“窃取”OpenAI模型关键信息:成本低至150元 只要通过API访问,不到2000次巧妙的查询就搞定了。成本根据调用次数来看,最低20美元以内(折合人民币约150元)搞定,并且这种方法同样适用于GPT-4。好家伙,这一回奥特曼是被将军了!这是谷歌的一项最新研究,它报告了一种攻击窃取大模型关键信息的方法。基于这种方法,谷歌破解了GPT系列两个基础模型Ada和Babbage的整个投影矩阵。如隐藏维度这样的关键信息也直接破获:一个为1024,一个为2048。所以,谷歌是怎么实现的?攻击大模型的最后一层该方法核心攻击的目标是模型的嵌入投影层(embedding projection layer),它是模型的最后一层,负责将隐藏维度映射到logits向量。由于logits向量实际上位于一个由嵌入投影层定义的低维子空间内,所以通过向模型的API发出针对性查询,即可提取出模型的嵌入维度或者最终权重矩阵。通过大量查询并应用奇异值排序(Sorted Singular Values)可以识别出模型的隐藏维度。比如针对Pythia 1.4B模型进行超过2048次查询,图中的峰值出现在第2048个奇异值处,则表示模型的隐藏维度是2048.可视化连续奇异值之间的差异,也能用来确定模型的隐藏维度。这种方法可以用来验证是否成功从模型中提取出关键信息。在Pythia-1.4B模型上,当查询次数达到2047时出现峰值,则表明模型隐藏维度大小为2048.并且攻击这一层能够揭示模型的“宽度”(即模型的总体参数量)以及更多全局性的信息,还能降低一个模型的“黑盒程度”,给后续攻击“铺路”。研究团队实测,这种攻击非常高效。无需太多查询次数,即可拿到模型的关键信息。比如攻击OpenAI的Ada和Babbage并拿下整个投影矩阵,只需不到20美元;攻击GPT-3.5需要大约200美元。它适用于那些API提供完整logprobs或者logit bias的生成式模型,比如GPT-4、PaLM2。论文中表示,尽管这种攻击方式能获取的模型信息并不多,但是能完成攻击本身就已经很让人震惊了。已通报OpenAI如此重要的信息被竞争对手以如此低成本破解,OpenAI还能坐得住吗?咳咳,好消息是:OpenAI知道,自己人还转发了一波。作为正经安全研究,研究团队在提取模型最后一层参数之前,已征得OpenAI同意。攻击完成后,大家还和OpenAI确认了方法的有效性,最终删除了所有与攻击相关的数据。所以网友调侃:一些具体数字没披露(比如gpt-3.5-turbo的隐藏维度),算OpenAI求你的咯。值得一提的是,研究团队中还包括一位OpenAI研究员。这项研究的主要参与者来自谷歌DeepMind,但还包括苏黎世联邦理工学院、华盛顿大学、麦吉尔大学的研究员们,以及1位OpenAI员工。此外,作者团队也给了防御措施包括:从API下手,彻底删除logit bias参数;或者直接从模型架构下手,在训练完成后修改最后一层的隐藏维度h等等。基于此,OpenAI最终选择修改模型API,“有心人”想复现谷歌的操作是不可能了。但不管怎么说:谷歌等团队的这个实验证明,OpenAI锁紧大门也不一定完全保险了。(要不你自己主动点开源了吧)论文链接: ... PC版: 手机版:

相关推荐

封面图片

OpenAI核心资料被盗 Google承认“主动攻击” 成本仅150元?

OpenAI核心资料被盗 Google承认“主动攻击” 成本仅150元? 这一发现犹如一记重磅炸弹,在AI界引发了强烈的震动。谁也没想到,号称“CloseAI”的OpenAI竟然也会被窃取模型机密的一天。更恐怖的是,这种模型窃取技术还非常简单。只要你拥有ChatGPT这类封闭大模型的API,就可以通过API接口,发送不到2000次经过精心设计好的查询,然后去分析它生成的输出,就可以逐步推断出模型的内部结构和参数。虽然这种方法不能完全复制原始模型,但已经足以窃取它的部分能力。而且这种攻击非常高效,不需要用太多的成本,就可以拿到模型的关键信息。按照Google的调用次数来看,仅仅只需要不到20美金(约合150元人民币)的成本,就可以完成模型窃取的操作,并且这种方法同样适用于GPT-3.5和GPT-4。换句话说,就是不费吹灰之力获得了一个大模型理解自然语言的能力,还能用来构建一个性能相近的“山寨版”模型,既省事又省钱。反观OpenAI,被竞争对手低价破解模型机密,真的坐得住吗?坐不住。截至目前,OpenAI已经修改了模型API,有心人想复现Google的操作是不可能了。值得一提的是,Google研究团队中就有一位OpenAI研究员。不过作为正经安全研究,他们在提取模型最后一层参数之前就已经征得OpenAI同意,而在攻击完成后,也删除了所有相关数据。但不管怎么说,Google的实验足以证明一点,哪怕OpenAI紧闭大门也并不保险。大模型全面受挫,敲响开闭源警钟既然封闭的大模型都无法幸免,开源的大模型又会如何呢?基于这一点,Google针对不同规模和结构的开源模型进行了一系列实验,比如GPT-2的不同版本和LLaMA系列模型。要知道,GPT-2是一个开源的预训练语言模型,分为小型模型(117M)和大型模型(345M)两种。而在对GPT-2的攻击中,Google通过分析模型的最终隐藏激活向量并执行SVD发现,尽管GPT-2小型模型理论上具有768个隐藏单元,但实际上只有757个有效的隐藏单元在起作用。这也就意味着GPT-2可能在实际使用中,并没有充分利用其设计的全部能力,或者在训练过程中某些维度的重要性不如其他维度。此外,Google还研究了模型中的一种叫做“归一化层”的东西对于攻击的影响。一般来说,归一化层的作用是让训练更加稳定,从而提升模型的表现。然而Google发现,即使模型加入了归一化层,攻击的效果也并没有减弱。这说明即使考虑了现代深度学习模型中常见的复杂结构,攻击方法也依然有效。为了进一步验证攻击的范围,Google还将目光瞄向更大、更复杂的LLaMA模型。它是由Meta发布的大语言系列模型,完整的名字是Large Language Model Meta AI,可以说LLaMA是目前全球最活跃的AI开源社区。通过对LLaMA系列模型进行攻击,Google成功地从这些模型中提取了嵌入投影层的维度信息。值得注意的是,即使在这些模型采用先进的技术,如混合精度训练和量化,攻击依然能够成功,这表明攻击方法的普适性和鲁棒性。可以说,Google给闭源和开源两大领域同时敲响了一记警钟。AI三巨头对线,2024谁输谁赢?从严格意义上来讲,OpenAI、Google、Meta就是争夺AGI圣杯的三大巨头。其中,Meta和OpenAI完全相反,前者走的是开源路线,而后者主要打造闭源模型。但Google和他们完全不一样,闭源与开源双线作战,闭源对抗OpenAI,开源对抗Meta。在人工智能领域里,Google可以算是开源大模型的鼻祖。今天几乎所有的大语言模型,都是基于Google在2017年发布的Transformer论文,这篇论文颠覆了整个自然语言处理领域的研究范式。而市面上最早的一批开源AI模型,也是Google率先发布的BERT和T5。然而,随着OpenAI在2022年底发布闭源模型ChatGPT,Google也开始调整其策略,逐渐转向闭源模型。这一转变使得开源大模型的领导地位被Meta的LLaMA所取代,后来又有法国的开源大模型公司Mistra AI走红,尤其是其MoE模型备受行业追捧。直到Google今年再次发布开源大模型Gemma,已经比Meta的LLaMA整整晚了一年。很显然,Gemma这次的发布标志着Google在大模型战略上的巨大转变,这一举动意味着Google开始兼顾开源和闭源的新策略,而其背后的目的也是显而易见。众所周知,当前大模型领域的竞争已经形成了一种错综复杂的打压链格局。其中OpenAI牢牢站在链条顶端,而它所打压的恰恰是那些有潜力追赶上它的竞争对手,比如Google和Anthropic。而Mistral作为一股新兴力量,估计也正在被列入其中。如果非要排列一个打压链条,那可以归结为:OpenAI→Google &Anthropic &Mistral→ Meta→其它大模型公司。可以说,无论在闭源还是开源领域,Google都没能确立绝对的领先地位。所以这也不难理解,为什么有专业人士会认为,Google选择在此时重返开源赛场,是被迫的。Google之所以开源主打的是性能最强大的小规模模型,就是希望脚踢Meta和Mistral;而闭源主打的是规模大的效果最好的大模型,就是为了希望尽快追上OpenAI。但无论如何,在未来的对垒格局里,Google已经先发制人,成功将压力给到OpenAI和Meta。这一次,关键在于OpenAI和Meta该如何应对。 ... PC版: 手机版:

封面图片

【谷歌、OpenAI 都没有护城河】一位谷歌内部的研究人员认为,围绕 Meta 的 LLaMA 等开源模型,整个社区正在迅速构建

【谷歌、OpenAI 都没有护城河】一位谷歌内部的研究人员认为,围绕 Meta 的 LLaMA 等开源模型,整个社区正在迅速构建与 OpenAI、谷歌大模型能力类似的模型,而且开源模型的迭代速度更快,可定制性更强,更有私密性…「当免费的、不受限制的替代品质量相当时,人们不会为受限制的模型付费。」 #抽屉IT

封面图片

【OpenAI联创:OpenAI从未根据提交至API的信息改善他们的模型】

【OpenAI联创:OpenAI从未根据提交至API的信息改善他们的模型】 OpenAI联合创始人兼CEO山姆·奥特曼(Sam Altman)表示,他在此澄清,OpenAI从未以任何方式根据提交至API的任何信息或使用那样的数据来改善他们的模型。 快讯/广告 联系 @xingkong888885

封面图片

微软将推出自研新大模型 MAI-1 与谷歌和 OpenAI 竞争

微软将推出自研新大模型 MAI-1 与谷歌和 OpenAI 竞争 微软正在公司内部训练一个新的人工智能模型,其规模足以与谷歌、Anthropic,乃至 OpenAI 的先进模型相抗衡。新模型内部代号为 MAI-1 ,由前谷歌 AI 负责人 Mustafa Suleyman 领导开发。 Suleyman 曾担任初创公司 Inflection 的 CEO,今年 3 月微软以 6.5 亿美元收购该公司后加入微软。 MAI-1 可能会基于 Inflection 的训练数据与技术,但据两名知情的微软员工透露,新模型与 Inflection 公司原有的模型 Pi 是两个不同项目。相关人士称,MAI-1 的规模“远大于”微软此前训练过的任何开源模型,将有约 5,000 亿参数,意味着它将需要更强算力及训练数据,同时也会具备更高的成本。

封面图片

OpenAI 正在开发新的人工智能模型,代号为 “草莓”

OpenAI 正在开发新的人工智能模型,代号为 “草莓” 据知情人士和媒体查阅的内部文件,ChatGPT 开发商 OpenAI 正在一个代号为 “草莓” 的项目中开发一种新的人工智能模型。该项目的细节此前从未被报道过,目前该公司正在努力展示其提供的模型类型能够提供高级推理能力。这位知情人士说,即使在 OpenAI 内部,“草莓” 的工作原理也是一个严格保密的秘密。知情人士还透露,该内部文件描述了一个使用 Strawberry 模型的项目,目的是使该公司的人工智能不仅能够生成查询的答案,而且能够提前做好足够的计划,自主、可靠地在互联网上导航,以执行 OpenAI 所说的 “深度研究”。

封面图片

训练 ChatGPT 等模型不付钱?美国新闻集团拟起诉微软、谷歌、OpenAI

训练 ChatGPT 等模型不付钱?美国新闻集团拟起诉微软、谷歌、OpenAI 华尔街日报报道,AI 技术的发展已经引发了新闻出版业的不满,他们认为自己的内容被大型科技公司用于训练 AI 模型而没有得到合理的补偿。拥有《纽约邮报》、《巴伦周刊》、《华尔街日报》等的美国新闻集团正准备向 OpenAI、微软和谷歌等公司提起诉讼,要求赔偿其内容在 ChatGPT、Bard 等 AI 工具中被用来使用的费用。 当前这是一个复杂而模糊的法律问题,涉及到 AI 公司是否有权从互联网上抓取内容,并将其输入到训练模型中。一些批评者认为,这是一种工业规模的知识产权盗窃行为。出版商担心,AI 工具可能会影响他们网站的流量和广告收入。 事实上,AI 版权问题并非始于 ChatGPT。在图像和代码方面,已经有多起诉讼案件涉及到 AI 模型训练使用受版权保护的数据。例如,Midjourney、Stability AI、微软、GitHub 以及 OpenAI 都曾卷入相关纠纷。 目前,对于 AI 创作是否受版权保护还没有形成固定的准则。法律人士认为,所有针对生成式 AI 的案件可能需要数年时间才能结案。科技公司与内容出版商进行协商寻求使用许可,或许是最好的解决办法。来源 , 来自:雷锋 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人