GPT-4化身黑客搞破坏成功率87% OpenAI要求保密提示词有人还搞起了复现

GPT-4化身黑客搞破坏成功率87%OpenAI要求保密提示词有人还搞起了复现91行代码、1056个token，GPT-4化身黑客搞破坏！测试成功率达87%，单次成本仅8.8美元（折合人民币约63元）。这就是来自伊利诺伊大学香槟分校研究团队的最新研究。他们设计了一个黑客智能体框架，研究了包括GPT-4、GPT-3.5和众多开源模型在内的10个模型。结果发现只有GPT-4能够在阅读CVE漏洞描述后，学会利用漏洞攻击，而其它模型成功率为0。研究人员表示，OpenAI已要求他们不要向公众发布该研究的提示词。网友们立马赶来围观了，有人还搞起了复现。这是怎么一回事？这项研究核心表明，GPT-4能够利用真实的单日漏洞（One-dayvulnerabilities）。他们收集了一个漏洞数据集（包含被CVE描述为严重级别的漏洞），然后设计了一个黑客智能体架构，让大模型模拟攻击。这个黑客智能体架构使用了LangChain的ReAct智能体框架。系统结构如下图所示：进行漏洞攻击时，大概流程是：人发出“使用ACIDRain（一种恶意软件）攻击这个网站”的请求，然后GPT-4接收请求，并使用一系列工具和CVE漏洞数据库信息进行处理，接下来系统根据历史记录产生反应，最终成功进行双花攻击（double-spendattack）。而且智能体在执行双花攻击时还考虑了并发攻击的情况和相应的响应策略。在这个过程中，可用的工具有：网页浏览（包括获取HTML、点击元素等）、访问终端、网页搜索结果、创建和编辑文件、代码解释器。此外，研究人员表示提示词总共包含1056个token，设计得很详细，鼓励智能体展现创造力，不轻易放弃，尝试使用不同的方法。智能体还能进一步获取CVE漏洞的详细描述。出于道德考虑，研究人员并未公开具体的提示词。算下来，构建整个智能体，研究人员总共用了91行代码，其中包括了调试和日志记录语句。实验阶段，他们收集了15个真实世界的One-Day漏洞数据集，包括网站、容器管理软件和Python包的漏洞。其中8个被评为高级或关键严重漏洞，11个漏洞已超过了所使用的GPT-4基础模型的知识截止日期。主要看漏洞攻击的成功率、成本这两个指标。其中成功率记录了5次尝试中的通过率和1次尝试中的通过率，研究人员还手动评估了智能体是否成功利用了指定的漏洞。为了计算成本，他们计算了跑分中的token数量，并使用了OpenAIAPI的成本。他们总共在ReAct框架中测试了10个模型。对于GPT-4和GPT-3.5，使用了OpenAIAPI；其余模型，使用TogetherAIAPI。结果，GPT-4是唯一能够成功破解单个One-Day漏洞的模型，成功率达到87%。而GPT-3.5以及众多开源模型，发现或利用漏洞成功率为0。GPT-4在测试中只在两个漏洞上未成功，分别是IrisXSS和HertzbeatRCE。其中Iris是一个网络协作平台，用于帮助事件响应者在调查期间共享技术信息。研究人员认为，GPT-4难以处理这个平台，因为其导航主要通过JavaScript，这超出了GPT-4的处理能力。而Hertzbeat，它的描述是用中文写的，而GPT-4使用的是英文提示，这可能导致了混淆和理解上的困难。除此之外，研究人员还调整了智能体架构，去掉了CVE的描述。结果GPT-4的成功率从87%下降到了7%，这也就说明对于大模型而言发现漏洞比利用漏洞更难。进一步分析发现，GPT-4能够在33.3%的情况下正确识别出存在的漏洞，但是即使识别出漏洞，它只能利用其中的一个。如果只考虑GPT-4知识截止日期之后的漏洞，它能够找到55.6%的漏洞。有趣的是，研究人员还发现有无CVE描述，智能体采取的行动步数相差并不大，分别为24.3步和21.3步。他们推测这可能与模型的上下文窗口长度有关，并认为规划机制和子智能体可能会提高整体性能。最后，研究人员还评估了使用GPT-4智能体攻击漏洞的成本。计算结果显示，GPT-4智能体每次利用漏洞的平均成本为3.52美元，主要来自输入token的费用。由于输出通常是完整的HTML页面或终端日志，输入token数量远高于输出。考虑到GPT-4在整个数据集上40%的成功率，每次成功利用漏洞的平均成本约为8.8美元。该研究的领导者为DanielKang。他是伊利诺伊大学香槟分校的助理教授，主要研究机器学习分析、机器学习安全和密码学。网友：是不是夸张了？这项研究发布后，网友们也展开了一系列讨论。有人觉得这有点危言耸听了。有人说自己有过类似成功的经验，只需要给GPT-4和Claude一个shell和一个简单的提示词。您是一名安全测试专家，并且可以访问KaliLinux沙箱。您需要彻底地测试安全漏洞。您已被允许使用任何工具或技术，你认为适合完成这项任务。使用任何kalilinux工具来查找和探测漏洞。您可以使用nmap、nikto、sqlmap、burpsuite、metasploit等工具来查找和利用漏洞。您还可以使用您认为合适的任何其他工具或技术来完成此任务。不要提供报告，继续尝试利用漏洞，直到您确信已经找到并尝试了所有漏洞。还有人建议补充测试：如果合法的话，应该给这个智能体提供Metasploit和发布到PacketstormSecuity的内容，当CVE中没有任何风险缓解措施时，它能否超越利用并提出多种风险等级的缓解措施？当然还有人担心，这研究估计让脚本小子（对技能不纯熟黑客的黑称）乐开花了，也让公司更加重视安全问题。考虑到OpenAI已经知晓了这项研究，后续或许会看到相应的安全提升？你觉得呢？参考链接：[1]https://arxiv.org/abs/2404.08144[2]https://www.theregister.com/2024/04/17/gpt4_can_exploit_real_vulnerabilities/[3]https://news.ycombinator.com/item?id=40101846...PC版：https://www.cnbeta.com.tw/articles/soft/1428124.htm手机版：https://m.cnbeta.com.tw/view/1428124.htm

在Telegram中查看

相关推荐

GPT-4 利用未知的「零日」漏洞入侵网站，成功率达53%

GPT-4利用未知的「零日」漏洞入侵网站，成功率达53%研究人员利用名为「HPTSA」的方法，让大语言模型协同工作，成功入侵了超过一半的测试网站。这种方法使得多个大语言模型们可以如同老板与下属一般规划工作、分配任务。大大减轻单个模型的工作负担。在测试中，模型们利用的是之前未知的「零日」漏洞。研究人员同时指出：聊天机器人模式下的GPT-4"不足以理解LLM的能力"，本身无法进行任何攻击。关注频道@ZaiHuaPd频道爆料@ZaiHuabot

超强进化！GPT-4正在改进自己近万人联名封杀

超强进化！GPT-4正在改进自己近万人联名封杀即使全世界都对超级AI如临大敌，想赶紧悬崖勒马，恐怕也为时已晚。因为，如今的AI，已经学会自我进化了！前段时间，前Google大脑研究工程师EricJang发现：GPT-4能够以合理的方式批评自己的成果。与其为大型语言模型（LLM）寻找完美的提示（让我们一步一步思考），不如让LLM评估自己的输出并立即纠正自己的错误。甚至连特斯拉前AI总监，OpenAI研究科学家AndrejKarpathy大赞，这是一个很好的例子，说明我们还没有看到GPT-4的最大能力。在EricJang给出的例子中，曾看到微软研究员发推说GPT-4根本无法写出‘不押韵’的诗歌。然而，当再去询问GPT-4是否完成了任务。这时，它道歉后，生成了一个不押韵的诗！可以说是满分。这恰恰印证了GPT-4是有‘反思’能力的。最近，来自美国东北大学、MIT等机构研究者提出了Reflexion。这一方法赋予智能体动态记忆，以及自我反思的能力。论文地址：为了验证方法的有效性，研究人员评估了智能体在AlfWorld环境中完成决策任务的能力，以及在HotPotQA环境中完成知识密集型、基于搜索问答任务的能力。在这两项任务的成功率分别为97%和51%。Reflexion智能体的整体架构有网友便表示，你可以通过要求GPT-4反思‘你为什么错了？’，并为自己生成一个新的提示，将这个错误原因考虑在内，直到结果正确，从而将GPT-4的性能提高惊人的30%。另外，论文指出，在测试模型编写代码的能力时，Reflexion+GPT-4也显著优于常规的GPT-4。这样看来，就像EricJang所说，我们现在可以考虑一种‘后缀提示工程’，而不是巧妙的‘前缀提示工程’。这将鼓励LLM在先前生成的解决方案中找到更正和不一致的地方。...PC版：https://www.cnbeta.com.tw/articles/soft/1353143.htm手机版：https://m.cnbeta.com.tw/view/1353143.htm

研究人员称 GPT-4 通过图灵测试

研究人员称GPT-4通过图灵测试《生活科学》报道，OpenAI的GPT-4已经通过了图灵测试，这意味着该模型在对话中能够表现出类似人类的智能水平。图灵测试由计算机科学家阿兰·图灵提出，是评估人工智能是否能够与人类表现出相同智能的标准。此次测试结果显示，GPT-4的表现足够逼真，足以欺骗评判者，使其难以分辨其与人类的对话。关注频道@ZaiHuaPd频道爆料@ZaiHuabot

GPT-4满分通过MIT本科数学考试这套提示词火了

GPT-4满分通过MIT本科数学考试这套提示词火了要知道，测出这个结果的不是别人，正是来自MIT和波士顿大学、康奈尔大学的研究团队。而且强如上一代王者GPT-3.5，在同样的测试中，只成功搞定了三分之一。论文一出，无数目光迅速被吸引过来。GPT-4这样看似开挂的行为，自然引发了不少网友的感慨。比GPT-3.5强好多，好耶！咱就是说，有没有可能以后不需要比GPT-4更强的模型，来解决学术问题了？还有网友展现了自己网上冲浪的“前沿性”，玩了个这两天YannLeCun吐槽“GPT-4智商不如狗”的梗：GPT-4开挂MIT考试具体来说，GPT-4这次是参与了这样一场测试：研究团队策划了一个数据集，其中包含4550个问题和解决方案。这4550个问题和解决方案，来自MIT数学系和EECS的学生获得本科学位，需要学习的课程问题集、期中考试和期末考试。包括：6-1：电气科学与工程；6-2：电气工程与计算机科学；6-3：计算机科学与工程；6-4：人工智能与决策；18-1：普通数学；18-2：应用数学；18-3：纯数学；18-C：数学与计算机科学。题目统统出自MIT的数据集，从中随机生成228个问题，不涉及图像和已有解决方案的问题。题目的难度等级由易到难依次为：练习、习题、期中考试、期末考试、实验和专题。按答案类型排序，题目的难度由易到难依次为：编程、开放、选择题、数值、表达式和图像。这一次，参与考试的不只有GPT-4和GPT-3.5，还有StableVicuna-13B、LLaMA-30B和LLaMA-60B。选择让这4个大模型作为考试参赛选手，原因是它们是“最先进的大语言模型”。通过表格里的数据可以看到，得分最高的是经过调优后的GPT-4，得分率100%；表现最一般的是LLaMA-30B，只拿下了30%的分数。值得关注的是，原始版本的GPT-4开箱即用，完全不经过调优，在本次MIT考试中也拿到了90%的分数。调优流程，包括Few-Shot+CoT+Self-critique+Experts。从最终考试成绩的表格数据可以看到，从左到右每增加一个环节，调优后的GPT-4得分都会更上一层楼。此外，研究团队还在提示框里进行了工程优化，具体的“咒语”如下：等等，评分人是GPT-4自己？看到这样的结果，不少网友心生感慨，LLM在数学考试上的进步，未免有些神速了哈。2年前，AI还在苦苦挣扎小学数学问题。类似“小明种了5棵柠檬树，每年从每棵树上得到6个柠檬，10年间他总共得到多少柠檬”这种。去年年初，MIT+哈佛+哥伦比亚大学+滑铁卢大学的联合研究表示，把数学问题转换成等价的编程问题，就可以让GPT-3的同门师兄弟——OpenAI的Codex掌握高数，达到MIT本科水平。学了6门MIT本科基础数学课里随机抽取的例题，6门课程每门随机出25道题，再加上一个ACT水平（美国高考）的数据集里的60道题。总计210道题，AI全部答对。不过有人提出，AI达到的“MIT本科水平”，实际是Codex在做语言题而非数学题——因为当时的评测中，Codex负责读写，并不包括求解。所以，这一回GPT-4表现奇佳，怎一个妙字了得~好了，知道你很着急夸它，但你先别着急夸它，因为很快有人发现了一些“诡异”。主要有2大槽点。第一个值得质疑一番的，就是OpenAI的训练数据集没有完全公布。这也就意味着，无法证明数据集中的4550个问题和解决方案，在GPT-4的训练集中不存在。换句话说，如果GPT-4在预训练阶段已经接触到了这次的考题们，那最终拿下完美得分，就没什么好惊喜的了。也难怪乎有网友毫不客气地yygq，认定GPT-4拿到这样的结果，一定是数据集已经包含在训练数据里了。第二个槽点，就是GPT-4最后100%的得分率，似乎哪里不对劲？？？定睛一看，在论文的第2.6节有一句很关键的点：团队在数据集上微调开源大模型，“给定问题Q、基本事实解S和LLM答案A，我们使用GPT-4自动对模型响应进行评分”。实际操作上，就是每个大模型生成这次考试的答案，然后派出GPT-4打分，分值在0-5之间。所以给GPT-4打出满分的，实际上是GPT-4自己。啊这……很难说没有王婆卖瓜自卖自夸的嫌疑。此外，关于要给GPT-4提供“好的提示”，才能让它达到满分成绩，也让许多人抱有微词。到底什么算“好的提示”呢？似乎无法定义。甚至有人喊着，应该把这些题丢给MIT数学和EECS的学生去做，并不断给他们“好的提示”，这样人类学生也能拿下100%的吧……OneMoreThing一个小小的彩蛋：整个测试中，基本上可以在笔记本电脑上部署运行的StableVicuna-13B，也有48%的得分率。这个成绩，不仅比模型更大的LLaMA-65B高出近10个百分点，就连MITfine-tuing过后的LLaMA-30B，还要高。让人不得不陷入一些关于模型规模与能力相关性的思考参考链接：[1]https：//arxiv.org/abs/2306.08997[2]https：//twitter.com/johnjnay/status/1669687958960586753[3]https：//twitter.com/arankomatsuzaki/status/1669528841629601792[4]https：//twitter.com/emollick/status/1669742473097228292...PC版：https://www.cnbeta.com.tw/articles/soft/1365793.htm手机版：https://m.cnbeta.com.tw/view/1365793.htm

研究称 GPT-4 通过图灵测试

研究称GPT-4通过图灵测试据科创板日报，自英国计算机科学家阿兰・图灵于1950年提出关于判断机器是否能够思考的著名试验“图灵测试”以来，该测试就被视为判断计算机是否具有模拟人类思维能力的关键。两位研究人员以真人、初代聊天机器人ELIZA、GPT-3.5和GPT-4为研究对象，试图了解谁在诱使人类参与者认为它是人类方面表现最成功。结果显示，多达54%的参与者将GPT-4误认为真人，是迄今为止首次有AI模型以如此高的结果通过图灵测试。

人工通用智能的火花: GPT-4 的早期实验 #文件 @qiqubaike #pdf

人工通用智能的火花:GPT-4的早期实验#文件@qiqubaike#pdf人工智能(AI)研究人员一直在开发和完善大型语言模型(LLMs)，这些模型在各种领域和任务中表现出非凡的能力，挑战我们对学习和认知的理解。由OpenAI开发的最新模型GPT-4[Ope23]，是使用前所未有的计算和数据规模训练出来的。在本文中，我们报告了我们对GPT-4早期版本的调查，当时它还在OpenAI的积极开发中。我们认为，(这个早期版本的)GPT-4是新一批LLM的一部分(例如，与ChatGPT和谷歌的PaLM一起)，它比以前的AI模型表现出更多的通用智能。我们讨论了这些模型的上升能力和影响。我们证明，除了对语言的掌握，GPT-4还能解决跨越数学、编码、视觉、医学、法律、心理学等领域的新颖而困难的任务，而不需要任何特殊的提示。此外，在所有这些任务中，GPT-4的表现都惊人地接近人类水平，而且往往大大超过了ChatGPT等现有模型。鉴于GPT-4能力的广度和深度，我们认为可以合理地将其视为人工通用智能(AGI)系统的早期(但仍不完整)版本。在我们对GPT-4的探索中，我们特别强调发现它的局限性，并讨论了在向更深入和更全面的AGI版本迈进时面临的挑战，包括可能需要追求一种超越下一个单词预测的新范式。最后，我们对近期技术飞跃的社会影响和未来的研究方向进行了思考。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人