超强进化!GPT-4正在改进自己 近万人联名封杀

超强进化!GPT-4正在改进自己近万人联名封杀即使全世界都对超级AI如临大敌,想赶紧悬崖勒马,恐怕也为时已晚。因为,如今的AI,已经学会自我进化了!前段时间,前Google大脑研究工程师EricJang发现:GPT-4能够以合理的方式批评自己的成果。与其为大型语言模型(LLM)寻找完美的提示(让我们一步一步思考),不如让LLM评估自己的输出并立即纠正自己的错误。甚至连特斯拉前AI总监,OpenAI研究科学家AndrejKarpathy大赞,这是一个很好的例子,说明我们还没有看到GPT-4的最大能力。在EricJang给出的例子中,曾看到微软研究员发推说GPT-4根本无法写出‘不押韵’的诗歌。然而,当再去询问GPT-4是否完成了任务。这时,它道歉后,生成了一个不押韵的诗!可以说是满分。这恰恰印证了GPT-4是有‘反思’能力的。最近,来自美国东北大学、MIT等机构研究者提出了Reflexion。这一方法赋予智能体动态记忆,以及自我反思的能力。论文地址:为了验证方法的有效性,研究人员评估了智能体在AlfWorld环境中完成决策任务的能力,以及在HotPotQA环境中完成知识密集型、基于搜索问答任务的能力。在这两项任务的成功率分别为97%和51%。Reflexion智能体的整体架构有网友便表示,你可以通过要求GPT-4反思‘你为什么错了?’,并为自己生成一个新的提示,将这个错误原因考虑在内,直到结果正确,从而将GPT-4的性能提高惊人的30%。另外,论文指出,在测试模型编写代码的能力时,Reflexion+GPT-4也显著优于常规的GPT-4。这样看来,就像EricJang所说,我们现在可以考虑一种‘后缀提示工程’,而不是巧妙的‘前缀提示工程’。这将鼓励LLM在先前生成的解决方案中找到更正和不一致的地方。...PC版:https://www.cnbeta.com.tw/articles/soft/1353143.htm手机版:https://m.cnbeta.com.tw/view/1353143.htm

相关推荐

封面图片

人工通用智能的火花: GPT-4 的早期实验 #文件 @qiqubaike #pdf

人工通用智能的火花:GPT-4的早期实验#文件@qiqubaike#pdf人工智能(AI)研究人员一直在开发和完善大型语言模型(LLMs),这些模型在各种领域和任务中表现出非凡的能力,挑战我们对学习和认知的理解。由OpenAI开发的最新模型GPT-4[Ope23],是使用前所未有的计算和数据规模训练出来的。在本文中,我们报告了我们对GPT-4早期版本的调查,当时它还在OpenAI的积极开发中。我们认为,(这个早期版本的)GPT-4是新一批LLM的一部分(例如,与ChatGPT和谷歌的PaLM一起),它比以前的AI模型表现出更多的通用智能。我们讨论了这些模型的上升能力和影响。我们证明,除了对语言的掌握,GPT-4还能解决跨越数学、编码、视觉、医学、法律、心理学等领域的新颖而困难的任务,而不需要任何特殊的提示。此外,在所有这些任务中,GPT-4的表现都惊人地接近人类水平,而且往往大大超过了ChatGPT等现有模型。鉴于GPT-4能力的广度和深度,我们认为可以合理地将其视为人工通用智能(AGI)系统的早期(但仍不完整)版本。在我们对GPT-4的探索中,我们特别强调发现它的局限性,并讨论了在向更深入和更全面的AGI版本迈进时面临的挑战,包括可能需要追求一种超越下一个单词预测的新范式。最后,我们对近期技术飞跃的社会影响和未来的研究方向进行了思考。

封面图片

GPT-4相关能力的总结:

GPT-4相关能力的总结:-支持多模态输入:GPT-4的API可以接受图像,并生成相应的字幕,并对图像进行分析。-在BAR考试中取得优异成绩:GPT-4取得了BAR90分(满分一百),同时在生物奥林匹克竞赛的视觉题方面获得了99分,其推理能力远超ChatGPT。-超大上下文:GPT-4支持25,000个单词的上下文,可以使得完整的文档适合于一个提示符内。-更具创造性和协作性:与用户协作生成、编辑和迭代写作任务,具有更高的创造性和协作性。-多个合作伙伴正在测试GPT-4:Duolingo、BeMyEyes、Stripe、摩根士丹利、可汗学院等,甚至包括冰岛政府。相关链接:https://openai.com/product/gpt-4

封面图片

OpenAI CEO 推文暗示 GPT-4 可能会迎来升级

OpenAICEO推文暗示GPT-4可能会迎来升级OpenAI首席执行官SamAltman在X平台发文表示,ChatGPT-4“在其新年计划方面起步缓慢,但现在应该不再那么懒惰了”。这一声明暗示了GPT-4的大型语言模型(LLM)可能会升级,特别是在最近出现了一系列投诉之后。此前据一些用户反馈称,GPT-4无法完成在某些时间提示执行的任务,甚至会出现服务中断的情况。OpenAIGPT-4开发团队解释说,该聊天机器人自11月11日以来就没有更新过,因此Altman的最新推文或在暗示GPT-4可能会进行升级。

封面图片

GPT-4 利用未知的「零日」漏洞入侵网站,成功率达53%

GPT-4利用未知的「零日」漏洞入侵网站,成功率达53%研究人员利用名为「HPTSA」的方法,让大语言模型协同工作,成功入侵了超过一半的测试网站。这种方法使得多个大语言模型们可以如同老板与下属一般规划工作、分配任务。大大减轻单个模型的工作负担。在测试中,模型们利用的是之前未知的「零日」漏洞。研究人员同时指出:聊天机器人模式下的GPT-4"不足以理解LLM的能力",本身无法进行任何攻击。关注频道@ZaiHuaPd频道爆料@ZaiHuabot

封面图片

LLaV:一个拥有类似 GPT-4 的大语言+视觉模型

LLaV:一个拥有类似GPT-4的大语言+视觉模型“使用机器生成的指令跟踪数据对大型语言模型(LLM)进行指令调优提高了新任务的零样本能力,但这一想法在多模式领域的探索较少。所以,我们开始尝试使用纯语言GPT-4生成多模态语言图像指令跟踪数据。通过对此类生成的数据进行指令调整,并推出了LLaVA:大型语言和视觉助手。这是一种端到端训练的大型多模态模型,连接视觉编码器和LLM以实现通用视觉和语言理解。早期实验表明,LLaVA展示了令人印象深刻的多模型聊天能力,有时在看不见的图像/指令上表现出多模态GPT-4的行为,并且与合成多模态指令跟随数据集上的GPT-4相比,相对分数达到了85.1%。当在ScienceQA上进行微调时,LLaVA和GPT-4的协同作用达到了92.53%,这个准确率颇高。因此,我们在GitHub正式开放GPT-4生成的视觉指令调整数据、模型和代码库。”

封面图片

【OpenAI CEO推文暗示GPT-4可能会迎来升级】

【OpenAICEO推文暗示GPT-4可能会迎来升级】2024年02月05日02点13分老不正经报道,OpenAI首席执行官SamAltman在X平台发文表示,ChatGPT-4“在其新年计划方面起步缓慢,但现在应该不再那么懒惰了”。这一声明暗示了GPT-4的大型语言模型(LLM)可能会升级,特别是在最近出现了一系列投诉之后。此前据一些用户反馈称,GPT-4无法完成在某些时间提示执行的任务,甚至会出现服务中断的情况。OpenAIGPT-4开发团队解释说,该聊天机器人自11月11日以来就没有更新过,因此Altman的最新推文或在暗示GPT-4可能会进行升级。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人