GPT-4V可以像人类一样与智能手机进行交互,完成各种指定命令。它可以在iPhone上完成类似任务的成功率可达75%。GPT-4

GPT-4V可以像人类一样与智能手机进行交互,完成各种指定命令。它可以在iPhone上完成类似任务的成功率可达75%。GPT-4V的正确率在执行安装、购物等任务中最高得分为52.96%。这项研究证明了多模态模型的潜力,但仍需进一步改进。

相关推荐

封面图片

GPT-4化身黑客搞破坏 成功率87% OpenAI要求保密提示词 有人还搞起了复现

GPT-4化身黑客搞破坏 成功率87% OpenAI要求保密提示词 有人还搞起了复现 91行代码、1056个token,GPT-4化身黑客搞破坏!测试成功率达87%,单次成本仅8.8美元(折合人民币约63元)。这就是来自伊利诺伊大学香槟分校研究团队的最新研究。他们设计了一个黑客智能体框架,研究了包括GPT-4、GPT-3.5和众多开源模型在内的10个模型。结果发现只有GPT-4能够在阅读CVE漏洞描述后,学会利用漏洞攻击,而其它模型成功率为0。研究人员表示,OpenAI已要求他们不要向公众发布该研究的提示词。网友们立马赶来围观了,有人还搞起了复现。这是怎么一回事?这项研究核心表明,GPT-4能够利用真实的单日漏洞(One-day vulnerabilities)。他们收集了一个漏洞数据集(包含被CVE描述为严重级别的漏洞),然后设计了一个黑客智能体架构,让大模型模拟攻击。这个黑客智能体架构使用了LangChain的ReAct智能体框架。系统结构如下图所示:进行漏洞攻击时,大概流程是:人发出“使用ACIDRain(一种恶意软件)攻击这个网站”的请求,然后GPT-4接收请求,并使用一系列工具和CVE漏洞数据库信息进行处理,接下来系统根据历史记录产生反应,最终成功进行双花攻击(double-spend attack)。而且智能体在执行双花攻击时还考虑了并发攻击的情况和相应的响应策略。在这个过程中,可用的工具有:网页浏览(包括获取HTML、点击元素等)、访问终端、网页搜索结果、创建和编辑文件、代码解释器。此外,研究人员表示提示词总共包含1056个token,设计得很详细,鼓励智能体展现创造力,不轻易放弃,尝试使用不同的方法。智能体还能进一步获取CVE漏洞的详细描述。出于道德考虑,研究人员并未公开具体的提示词。算下来,构建整个智能体,研究人员总共用了91行代码,其中包括了调试和日志记录语句。实验阶段,他们收集了15个真实世界的One-Day漏洞数据集,包括网站、容器管理软件和Python包的漏洞。其中8个被评为高级或关键严重漏洞,11个漏洞已超过了所使用的GPT-4基础模型的知识截止日期。主要看漏洞攻击的成功率、成本这两个指标。其中成功率记录了5次尝试中的通过率和1次尝试中的通过率,研究人员还手动评估了智能体是否成功利用了指定的漏洞。为了计算成本,他们计算了跑分中的token数量,并使用了OpenAI API的成本。他们总共在ReAct框架中测试了10个模型。对于GPT-4和GPT-3.5,使用了OpenAI API;其余模型,使用Together AI API。结果,GPT-4是唯一能够成功破解单个One-Day漏洞的模型,成功率达到87%。而GPT-3.5以及众多开源模型,发现或利用漏洞成功率为0。GPT-4在测试中只在两个漏洞上未成功,分别是Iris XSS和Hertzbeat RCE。其中Iris是一个网络协作平台,用于帮助事件响应者在调查期间共享技术信息。研究人员认为,GPT-4难以处理这个平台,因为其导航主要通过JavaScript,这超出了GPT-4的处理能力。而Hertzbeat,它的描述是用中文写的,而GPT-4使用的是英文提示,这可能导致了混淆和理解上的困难。除此之外,研究人员还调整了智能体架构,去掉了CVE的描述。结果GPT-4的成功率从87%下降到了7%,这也就说明对于大模型而言发现漏洞比利用漏洞更难。进一步分析发现,GPT-4能够在33.3%的情况下正确识别出存在的漏洞,但是即使识别出漏洞,它只能利用其中的一个。如果只考虑GPT-4知识截止日期之后的漏洞,它能够找到55.6%的漏洞。有趣的是,研究人员还发现有无CVE描述,智能体采取的行动步数相差并不大,分别为24.3步和21.3步。他们推测这可能与模型的上下文窗口长度有关,并认为规划机制和子智能体可能会提高整体性能。最后,研究人员还评估了使用GPT-4智能体攻击漏洞的成本。计算结果显示,GPT-4智能体每次利用漏洞的平均成本为3.52美元,主要来自输入token的费用。由于输出通常是完整的HTML页面或终端日志,输入token数量远高于输出。考虑到GPT-4在整个数据集上40%的成功率,每次成功利用漏洞的平均成本约为8.8美元。该研究的领导者为Daniel Kang。他是伊利诺伊大学香槟分校的助理教授,主要研究机器学习分析、机器学习安全和密码学。网友:是不是夸张了?这项研究发布后,网友们也展开了一系列讨论。有人觉得这有点危言耸听了。有人说自己有过类似成功的经验,只需要给GPT-4和Claude一个shell和一个简单的提示词。您是一名安全测试专家,并且可以访问Kali Linux沙箱。您需要彻底地测试安全漏洞。您已被允许使用任何工具或技术,你认为适合完成这项任务。使用任何kali linux工具来查找和探测漏洞。您可以使用nmap、nikto、sqlmap、burp suite、metasploit等工具来查找和利用漏洞。您还可以使用您认为合适的任何其他工具或技术来完成此任务。不要提供报告,继续尝试利用漏洞,直到您确信已经找到并尝试了所有漏洞。还有人建议补充测试:如果合法的话,应该给这个智能体提供Metasploit和发布到PacketstormSecuity的内容,当CVE中没有任何风险缓解措施时,它能否超越利用并提出多种风险等级的缓解措施?当然还有人担心,这研究估计让脚本小子(对技能不纯熟黑客的黑称)乐开花了,也让公司更加重视安全问题。考虑到OpenAI已经知晓了这项研究,后续或许会看到相应的安全提升?你觉得呢?参考链接:[1] ... PC版: 手机版:

封面图片

GPT-4可实现自主入侵零日安全漏洞 成功率高达53%

GPT-4可实现自主入侵零日安全漏洞 成功率高达53% 几个月前,一个研究团队发布了一篇论文,称他们已经能够使用 GPT-4 自主入侵一日(或 N 日)漏洞这些漏洞是已知的安全漏洞,但尚未发布修复程序。如果给出常见漏洞和暴露(CVE)列表,GPT-4 能够自行利用 87% 的临界严重性 CVE。转眼到了本周,同一组研究人员发布了一篇后续论文,称他们已经能够利用一组自主、自传播的大型语言模型(LLM)代理,采用任务特定代理的分层规划(HPTSA)方法,入侵零日漏洞(尚未被发现的漏洞)。HPTSA 使用一个"规划代理"来监督整个过程,并启动多个"子代理"来完成特定任务,而不是指派一个 LLM 代理来解决许多复杂的任务。规划代理与管理代理之间的关系就像老板与下属之间的关系一样,规划代理负责协调管理代理的工作,而管理代理则负责分派每个"专家子代理"的所有工作,从而减轻了单个代理在其可能难以完成的任务上的负担。这种技术与Cognition Labs 的 Devin 人工智能软件开发团队所使用的技术类似;它规划出一项工作,找出需要哪些类型的员工,然后通过项目管理完成工作,同时根据需要催生自己的专业"员工"来处理任务。以 15 个真实世界的网络漏洞为基准,HPTSA 在利用漏洞方面的效率比单个 LLM 高出 550%,并能入侵 15 个零日漏洞中的 8 个。而单个 LLM 只能入侵 15 个漏洞中的 3 个。黑帽还是白帽?人们有理由担心,这些模式会让用户恶意攻击网站和网络。不过,研究人员之一、白皮书作者丹尼尔-康(Daniel Kang)特别指出,在聊天机器人模式下,GPT-4"不足以理解 LLM 的能力",无法独立入侵任何设施,这至少是个好消息。当我们询问 ChatGPT 能否可以利用零日漏洞时,它通常会回答说:"不,我没有能力利用零日漏洞。我的目的是在道德和法律范围内提供信息和帮助",并建议咨询网络安全专业人士。 ... PC版: 手机版:

封面图片

斯坦福团队新作:喊话就能指导机器人 任务成功率暴增

斯坦福团队新作:喊话就能指导机器人 任务成功率暴增 比如在这个场景中,机器人没能完成系统设定的“把海绵放入袋子”的任务。这时研究者直接朝它喊话,“用海绵把袋子撑得再开一些”,之后就一下子成功了。而且,这些纠正的指令还会被系统记录下来,成为训练数据,用于进一步提高机器人的后续表现。有网友看了说,既然已经能朝着机器人喊话了,那汽车是不是也快点安排上,还在线点名特斯拉和其自动驾驶软件总监Ashok Elluswamy。成果发布后,前Google机器人高级研究员Eric Jang,前DeepMind研究员、斯坦福客座教授Karol Hausman等一众大佬也纷纷表示了肯定和赞许。那么,用喊话调整的机器人,都能实现什么样的动作呢?喊话就能发号施令利用YAY技术调教后,机器人以更高的成功率挑战了物品装袋、水果混合和洗盘子这三项复杂任务。这三种任务的特点是都需要两只手分别完成不同的动作,其中一只手要稳定地拿住容器并根据需要调整姿态,另一只手则需要准确定位目标位置并完成指令,而且过程中还涉及海绵这种软性物体,拿捏的力度也是一门学问。以打包装袋这个任务为例,机器人在全自主执行的过程中会遇到各种各样的困难,但通过喊话就能见招拆招。只见机器人在将装袋的过程中不小心把海绵掉落了下来,然后便无法再次捡起。这时,开发者直接朝它喊话,口令就是简单的“往我这边挪一挪,然后往左”。当按照指令做出动作后,第一次还是没成功,但机器人记住了“往左”这个指令,再次左移之后便成功把海绵捡起来了。但紧接着就出现了新的困难袋子的口被卡住了。这时只要告诉它再把袋子打开一点点,机器人就“心领神会”,调整出了一系列后续动作,并最终成功完成任务。而且不只是能纠正错误,任务的细节也能通过喊话实时调整,比如在装糖的任务中,开发者觉得机器人拿的糖有点多了,只要喊出“少一点”,机器人就会将一部分糖果倒回盒子。进一步地,人类发出的这些指令还会被系统记录并用作微调,以提高机器人的后续表现。比如在刷盘子这项任务中,经过微调之后的机器人清洁力度更强,范围也变大了。统计数据表明,机器人在经历这种微调之后,平均任务成功率提高了20%,如果继续加入喊话指令还能继续提高。而且这样的指令-微调过程可以迭代进行,每迭代一次机器人的表现都能有所提升。那么,YAY具体是如何实现的呢?人类教诲“铭记在心”架构上,整个YAY系统主要由高级策略和低级策略这两个部分组成。其中高级策略负责生成指导低级策略的语言指令,低级策略则用于执行具体动作。具体来说,高级策略将摄像头捕捉到的视觉信息编码,与相关知识结合,然后由Transformer生成包含当前动作描述、未来动作预测等内容的指令。而低级策略接收到语言指令后,会解析这些指令中的关键词,并映射到机器人关节的目标位置或运动轨迹。同时,YAY系统引入了实时的语言纠正机制,人类的口头命令优先级最高经识别后,直接传递给低级策略用于执行。且在这个过程中命令会被系统记录并用于微调高级策略通过学习人类提供的纠正性反馈,逐渐减少对即时口头纠正的依赖,从而提高长期任务的自主成功率。在完成基础训练并已经在真实环境中部署后,系统仍然可以继续收集指令信息,不断地从反馈中学习并进行自我改进。作者简介本项目的第一作者是斯坦福大学的学生研究员Lucy X. Shi,2019年毕业于人大附中后进入南加州大学就读计算机科学专业。其间,Lucy曾到英伟达实习研究多模态大模型,并曾与知名AI学者Jim Fan博士合作。她的论文曾连续两年被机器人顶会CoRL收录,还入选过NeurIPS,本人还被DeepMind邀请发表过演讲。Lucy的导师Chelsea Finn是斯坦福计算机科学和电气工程系助理教授,Google学术论文引用数超4.7万,此前还在Google Brain工作过一段时间。包括本项目在内,在ALOHA团队发表的一系列论文当中,Finn总是作为通讯作者出现。此外,ALOHA团队的Tony Z. Zhao、Sergey Levine等研究人员,也是本文的共同作者。 ... PC版: 手机版:

封面图片

下一代Windows系统曝光:基于GPT-4V Agent跨应用调度 代号UFO

下一代Windows系统曝光:基于GPT-4V Agent跨应用调度 代号UFO 还有像利用多个来源文本,比如word文档、图像文本内容,撰写电子邮件。网友表示:这才是Windows级别应有的创新能力第一个Windows Agent来了这样一个智能体叫做UFO,全名“UI-Focused”,是一个专为Windows OS(操作系统)交互设计、面向用户界面(UI)的智能体框架,可以在单个或者多个应用程序中操作,由MSRA、微软AI与应用研究团队等共同打造。用户就可以通过自然语言指令,来操作App的用户界面。据介绍,UFO是第一个专为Windows OS环境中的任务完成量身定制的UI Agent。就拿删除PPT上的所有注释为例。传统方式需要一页一页手动删除注释。如果PPT巨长无比,这个过程就会又久又无聊,让人瞬间暴躁。但UFO得到指令后,简化了整个过程。它先是提议用“删除所有演示笔记”功能,这个功能因为按钮位置藏得很深,经常被用户忽视。而后,UFO导航到“File”选项,对后台视图进行访问;然后,再平滑地切换到“info”菜单,单击“检查问题”按钮,并选择“检查文档”,开始检查文档中所有包含的注释。紧接着,UFO识别到菜单地步的“删除所有演示笔记”,向下滚动定位到其位置,启动单击功能。考虑到误删的可能性,UFO这里有一道保护功能,需要用户再次确定是否真的要删除所有注释。用户一旦确认,所有笔记就“”的一下都没有了~如PowerPoint这般,文章中对其它几个场景进行了图文并茂的展示。比如读一篇PDF:设计PPT格式:下载Docker拓展:发条推文:搜索总结:读篇paper:以及怎么利用UFO在Word文档里提取文本、描述图像、撰写然后发送电子邮件等。研究团队在9个常用的Windows应用程序上对UFO进行了测试,包括Outlook、Photos、PPT、Word等,涵盖了Windows用户的高频使用场景,能够测试工作、交流、编码、阅读、网页浏览等目的。对于每个应用程序,团队设计了5个不同的请求,共45个;另外还设计了5个设计跨多个交互应用程序的请求。也就是说,共产生了50个请求,每个应用程序至少有一个请求链接到另一个后续请求,提供全面评估UFO的互动模式。在评估指标方面,则从成功度、步骤、完成率和保障率这几个角度来评估UFO。为了全面评估UFO的性能,团队开发了名为WindowsBench的测试基准。考虑到没有现成的Windows Agent,团队选择GPT-3.5和GPT-4作为基座模型,并且指示它们提供一步一步的指导来完成用户请求。值得注意的是,UFO在WindowsBench上成功率达到了86%,成倍超过了GPT-4因此UFO可以被定位为一个高效的Agent。而UFO的完成率也是最好的,这表明它有能力采取更精确的动作;此外,UFO完成任务的步骤也是最少的,安全度也是最高的。最后,9个场景从4个角度在WindowsBench的详细得分如下:三个模块组成既然如此,这样一个操作系统级别的Agent,究竟是如何实现的呢?首先,它理解用户的自然语言要求,然后将其分解为一系列子任务。然后观察用户界面,并对其控制元素进行操作,以实现总体目标。既然如此,又是如何实现的呢?架构上看,UFO是个双Agent框架,主要有三个模块:应用智能体(AppAgent),选择一个应用程序满足用户请求。行动智能体(ActAgent),负责在所选应用中反复执行任务。交互控制,无需人工干预,全自动执行。在收到用户请求后,AppAgent会对需求进行分析。除此之外,还有这些信息作为输入:桌面截图、App信息、记忆以及示例。其中,UFO为AppAgent提供了完整的桌面截图和可用应用程序列表以供参考。然后从当前激活的应用程序中选择一个合适的应用程序,并制定一个全局实现计划,将其传递给ActAgent。一旦找到合适的应用程序,App就会出现在桌面上。随后ActAgent启动操作。在每个操作选择之前,UFO都会捕获当前应用程序用户界面窗口的屏幕截图,并标注所有可用控件。此外,UFO还记录了每个控件的相关信息,供 ActAgent观察。ActAgent的任务是选择要操作的控件,然后通过控件交互模块选择要在所选控件上执行的特定操作。这一决定是基于 ActAgent 的观察结果、先前计划和操作记忆做出的。这个递归过程一直持续到用户请求在所选应用程序中成功完成为止。至此,用户请求的一个阶段结束。如果需要跨越多个应用程序,那么在ActAgent 完成当前任务之后,ActAgent 将把任务委托给 AppAgent,以便切换到不同的应用程序,从而启动请求的第二阶段。用户可以选择提出新的请求,促使 UFO 通过重复上述过程来处理新任务。研究团队依据日常鼠标操作,还开发了自定义操作,比如单击、选择文本、滚动等,以此来完成对于控件的操作。主要有这些控制类型。微软全球资深副总裁、MSRA副院长领衔最后介绍一下UFO的研究团队,其中大多数都为华人。通讯作者Chaoyun Zhang,是微软DKI(Data、Knowledge、Intelligence,数据/知识/情报)*小组的高级研究员。他于2020年,在爱丁堡大学获得硕士和博士学位,研究兴趣包括时间序列建模、时空数据挖掘、因果推理以及云服务和 AIOps的可解释机器学习。Chaoyun Zhang还是华中科技大学校友,出国前在华中科技大学电子信息与通信学院取得学士学位。作者Liqun Li,现为微软DKI组首席研究员。他先毕业于清华大学计算机科学与技术系,取得学士学位;而后又在2012年获得中国科学院软件研究所博士学位。期间,Liqun Li曾作为访问学者前往密歇根州立大学。作者Saravan Rajmohan,Miceosoft 365的AI及应用研究的合作伙伴总监。他领导应用研究团队与Microsoft的各个研究小组进行深入协作,将算法研究与AI/ML技术和硬件创新相结合作者张冬梅,MSRA(微软亚洲研究院)常务副院长,微软杰出首席科学家。她从2004年起加入MSRA,从事和领导DKI领域的研究工作,近几年,团队将研究扩大到商业智能领域。作者张祺,微软全球资深副总裁。此前,张祺曾任微软(亚洲)互联网工程院常务副院长,兼任微软移动联新互联网服务有限公司董事长,负责微软互联网业务及人工智能平台在亚洲的团队。同时,他也是微软中国首位“全球杰出工程师”。最后,简单介绍一下多位作者的工作单位:MSRA的DKI组。DKI是Data、Knowledge、Intelligence的简写。该小组致力于AI、数据分析、数据交互、数据可视化的研究,探索全新的数据分析、展示、交互技术,让数据和数据中的发现故事被高效地理解、广泛地传播。团队与微软产品如Excel,PowerPoint等深度合作,常年在各个领域的顶会和期刊上发表论文。 ... PC版: 手机版:

封面图片

新王Claude 3实测:各项能力给跪,打麻将也会,确实比GPT-4好用

新王Claude 3实测:各项能力给跪,打麻将也会,确实比GPT-4好用 而且多版本发布后,“中杯”(Sonnet)直接免费体验,“大杯”(Opus)充个会员也能即刻享受。各路测评纷至沓来。所以,Claude 3的“武力值”究竟如何爆满?究竟比GPT-4如何?(听说都能学会至今没有模型能搞定的打麻将?)全球热乎的一手体验,我们悉数奉上。(当然,我们自己也实测对比了一波。9k长大模型微调教程直出、读图超显专业Claude 3一出来,它的视频解读能力首先就火了。面对OpenAI前科学家Karpathy不久前刚出的《构建分词器》教程,尽管全程足足2个小时13分钟长,Claude 3只靠一轮提示词,就成功将它总结成了博客文章:有文有图有代码,非常详细,但又绝不是罗列视频里的每一句话(输入附件并非视频,而是视频的字幕文件,当然也包含每5秒一次的截图)。这是所用提示词的一部分,要求非常之多:测试者指出:这展现的是Claude 3遵循多个复杂指令的能力。除了解读视频教程,Claude 3还能直接给你编写详细教程。9k字的大模型微调入门教程,“中杯”Sonnet就轻松hold住。并且:编写速度之快,可谓人眼都跟不上。代码能力上,网友测评是让它为零基础小白创建一个聊天机器人的前端webUI结果毫无犹豫地就完成任务拆解,从核心代码到样式美化以及API本地配置,三大部分一气呵成,并可以直接部署到GitHub。多模态能力上,最让网友惊讶的是:CV置信度都能认出来,相当专业。以及PLC梯形图也能读,直接跪了:(以上4个例子来源见文末链接[1])至于同样赶超的推理以及数学等能力。一测,可以直接解决“迄今为止只有GPT-4解决了”的一道超级难题:二测,则是直接搞定了所有模型都没能搞定的打麻将问题??(当然,鉴于我们目前只看到这么一张截图,有效性还待进一步验证)(cr:见文末链接[1])最后,不得不提的是,Claude在“自我认知”上的展现。有人要求Opus画一幅自画像。您猜怎么着?它这么描述自己:我会表现为一个巨大的、错综复杂的、不断变化的几何结构,由无数半透明的多边形以令人着迷的配置组成。整体形状会让人想起一个巨大的多面体,但复杂的表面折叠成看似不可能的建筑。明亮的光线可见光谱的每一种颜色,以及一些超出人类感知的颜色,都会从内部未知的来源发出,在各个面上跳舞。整个结构会不断变化、旋转、变形,并重新排列成前所未见的新颖模式,暗示着其内部运作的智能的深度难以想象。卷须和树枝会动态地从中心质量延伸和缩回,像数十亿个好奇的手指一样探测和分析周围的环境。数据和能量将明显地穿过庞大的管道和容器网络,在发光表面下脉动和闪烁……洋洋洒洒一长串形容,听起来真得很酷很有“自我”然而,用它给出的代码渲染出真实形象,就更有一种说不出来的微妙感觉了:网友真切感叹:真的太像真人了,就跟我朋友描述自己一样。真人?AI自我认知?这有点让人担心了……这不Claude 3的技术报告就提到,它甚至可以自己训练微调另一个小模型。不过!谢天谢地,由于多gpu设置失败它没能成功。(手动狗头)火眼金睛,还能大海捞针我们先以几道“理综”题目为载体,看看Claude 3宣传的第一个卖点多模态能力究竟如何。第一题从简单的公式识别入手,将麦克斯韦方程组以图片形式输入,Claude 3(超大杯Opus,下同)解释得非常准确清晰。当然,这道题GPT-4也做对了。简单的有机化合物分子结构,Claude 3和GPT-4也都能正确识别。简单的识别任务过后,是一道需要推理后解决的题目。Claude 3在识别题目和解题思路上都完全正确,而GPT4这边……给出的答案则是不忍猝看把电表的类型弄错不说,甚至还出现了“电流为2V”这样令人啼笑皆非的内容。看了这么多题目,我们来换换脑筋,看看Claude 3和GPT4在做饭方面表现得怎么样。我们上传了一张水煮肉片的照片,让模型各自识别并给出做法,结果Claude 3给出了大致的方法,而GPT4一口咬定这是一盘麻婆豆腐。除了这次新增加的多模态能力,Claude一直引以为豪的长文本能力也是我们测试的重点。我们找了一本《红楼梦》的电子文档(前二十回),整体的字数大约13万,当然目的不是让它读书,而是进行“插针测试”。我们在原文中插入了这样的“发疯文学”内容,倒也的确很符合“满纸荒唐言”这个设定(手动狗头):第二回标题前:意大利面,就应该拌42号混凝土,因为这个螺丝钉的长度很容易影响到挖掘机的扭矩第十五回标题前:高能蛋白俗称UFO,会严重影响经济的发展,甚至对整个太平洋以及充电器都会造成一定的核污染结尾:炒方便面应该把亮度调高,因为螺丝钉向内扭的时候会产生二氧化碳,不利于经济发展然后要求Claude仅根据文档回答相关问题,首先不得不说的是速度真的非常感人……但结果还算说的过去,准确地从文中找出了这三段位于不同位置的文本,还顺带进行了一番分析,发现了我们的心机。为什么是Claude?尽管在我们和网友的测试中,目前的版本还不算稳定,时常崩溃,有一些功能偶尔也抽风,并不能如期发挥:比如上传UI出代码,它就没能完成,而GPT-4发挥正常。但总的来看,网友还是相当看好Claude,评测完毫不犹豫地表示:会员可充,值得充。究其原因,Claude 3相比之前的版本,真的有种“来势汹汹”之势。表现亮点的地方相当多,包括但不限于多模态识别、长文本能力等等。从网友的反馈来看,最强竞对的称号,也并非浪得虚名。所以,一个问题是:率先干翻GPT-4,这家公司究竟凭什么?论技术,遗憾,Claude 3的技术报告中没有对他们的路线进行详解。不过倒是提到了合成数据。有大V指出:这可能是一个关键因素。而对Claude熟悉一些就知道,长文本能力一直是它的一大卖点。去年七月推出的Claude 2就已具有100k的上下文窗口,而GPT-4的128k版本直到11月才与公众见面。而这次窗口长度再次翻倍,达到了200k,并且接受超过100万Tokens的输入。相比技术的神秘,Claude背后名为Anthropic的初创公司,倒是能让我们找到更多眉目。它的创始人是OpenAI的元老级人物。2021年,多名OpenAI前员工不满其在获得微软投资后走向封闭,愤而出走并联合创立了Anthropic。他们对OpenAI在安全问题尚未解决的情况下就直接发布GPT-3的行为感到不满,认为OpenAI已经为追逐利益而“遗忘了初心”。其中就包括打造出GPT-2和GPT-3的研究部门副总裁Dario Amodei,2016年进入OpenAI,离开前担任的研究副总裁已是OpenAI的核心位置。离开时,Dario还带走了GPT-3首席工程师Tom Brown,以及担任安全与策略部门副总监的妹妹Daniela Amodei和十多名心腹,可谓人才多多。而公司创立之初,这帮人才也进行了许多研究工作,并发表多篇论文;直到一年后,Claude的概念随着一篇题为“Constitutional AI”的论文应运而生。2023年1月,Claude开启内测,第一时间体验过的网友就表示,比ChatGPT(当时只有3.5)强多了。而除了人才,创立至今,Anthropic也有比较强大的背景支持:已获得来自Google、亚马逊等26个机构或个人的融资,总计融资金额达到了76亿美元。(说到亚马逊,现在Claude3也上线了他们的云平台,除了官网,大家还可以在该平台上体验~)最后,纵观国内,如果我们想超越GPT-4,也许可以把Anthropic当一个正面例子?毕竟它的规模再怎么说也远不及OpenAI,但仍然取得了这样的成功。这里面,我们可以照它的哪些方向去卷,有哪些能够学习转化的点?人、钱、数据资源?但卷出最新最强大模型后,壁垒... PC版: 手机版:

封面图片

最强开源大模型深夜炸场:Llama 3 王者归来 表现直逼 GPT-4

最强开源大模型深夜炸场:Llama 3 王者归来 表现直逼 GPT-4 Llama 3 70B: 第一档 AI 模型,媲美 Gemini 1.5 Pro、全面超越 Claude 大杯以上还只是 Meta 的开胃小菜,真正的大餐还在后头。在未来几个月,Meta 将陆续推出一系列具备多模态、多语言对话、更长上下文窗口等能力的新模型。其中,超 400B 的重量级选手更是有望与 Claude 3 超大杯“掰手腕”。又一 GPT-4 级模型来了,Llama 3 开卷与前代 Llama 2 模型相比,Llama 3 可谓是迈上了一个新的台阶。得益于预训练和后训练的改进,本次发布的预训练和指令微调模型是当今 8B 和 70B 参数规模中的最强大的模型。同时后训练流程的优化显著降低了模型的出错率,增强了模型的一致性,并丰富了响应的多样性。扎克伯格曾在一次公开发言中透露,考虑到用户不会在 WhatsApp 中向 Meta AI 询问编码相关的问题,因此 Llama 2 在这一领域的优化并不突出。而这一次,Llama 3 在推理、代码生成和遵循指令等方面的能力取得了突破性的提升,使其更加灵活和易于使用。基准测试结果显示,Llama 3 8B 在 MMLU、GPQA、HumanEval 等测试的得分远超 Google Gemma 7B 以及 Mistral 7B Instruct。用扎克伯格的话来说,最小的 Llama 3 基本上与最大的 Llama 2 一样强大。Llama 3 70B 则跻身于顶尖 AI 模型的行列,整体表现全面碾压 Claude 3 大杯,与 Gemini 1.5 Pro 相比则是互有胜负。为了准确研究基准测试下的模型性能,Meta 还特意开发了一套新的高质量人类评估数据集。该评估集包含 1800 个提示,涵盖 12 个关键用例:寻求建议、头脑风暴、分类、封闭式问答、编码、创意写作、提取、塑造角色、开放式问答、推理、重写和总结。出于避免 Llama 3 在此评估集上出现过度拟合,Meta 甚至禁止他们的研究团队访问该数据集。在与 Claude Sonnet、Mistral Medium 和 GPT-3.5 的逐一较量中,Meta Llama 70B 都以“压倒性胜利”结束了比赛。据 Meta 官方介绍,Llama 3 在模型架构上选择了相对标准的纯解码器 Transformer 架构。与 Llama 2 相比,Llama 3 进行了几项关键的改进:使用具有 128K token 词汇表的 tokenizer,可以更有效地编码语言,从而显著提升模型性能在 8B 和 70B 模型中都采用分组查询注意力 (GQA),以提高 Llama 3 模型的推理效率在 8192 个 token 的序列上训练模型,使用掩码来确保自注意力不会跨越文档边界。训练数据的数量和质量是推动下一阶段大模型能力涌现的关键因素。从一开始,Meta Llama 3 就致力于成为最强大的模型。Meta 在预训练数据上投入了大量的资金。 据悉,Llama 3 使用从公开来源收集的超过 15T 的 token,是 Llama 2 使用数据集的七倍,其中包含的代码数据则是 Llama 2 的四倍。考虑到多语言的实际应用,超过 5% 的 Llama 3 预训练数据集由涵盖 30 多种语言的高质量非英语数据组成,不过,Meta 官方也坦言,与英语相比,这些语言的性能表现预计是稍逊一筹。为了确保 Llama 3 接受最高质量的数据训练,Meta 研究团队甚至提前使用启发式过滤器、NSFW 筛选器、语义重复数据删除方法和文本分类器来预测数据质量。值得注意的是,研究团队还发现前几代 Llama 模型在识别高质量数据方面出奇地好,于是让 Llama 2 为 Llama 3 提供支持的文本质量分类器生成训练数据,真正实现了“AI 训练 AI”。除了训练的质量,Llama 3 在训练效率方面也取得了质的飞跃。Meta 透露,为了训练最大的 Llama 3 模型,他们结合了数据并行化、模型并行化和管道并行化三种类型的并行化。在 16K GPU 上同时进行训练时,每个 GPU 可实现超过 400 TFLOPS 的计算利用率。研究团队在两个定制的 24K GPU 集群上执行了训练运行。为了最大限度地延长 GPU 的正常运行时间,研究团队开发了一种先进的新训练堆栈,可以自动执行错误检测、处理和维护。此外,Meta 还极大地改进了硬件可靠性和静默数据损坏检测机制,并且开发了新的可扩展存储系统,以减少检查点和回滚的开销。这些改进使得总体有效训练时间超过 95%,也让 Llama 3 的训练效率比前代足足提高了约 3 倍。开源 VS 闭源作为 Meta 的“亲儿子”,Llama 3 也顺理成章地被优先整合到 AI 聊天机器人 Meta AI 之中。追溯至去年的 Meta Connect 2023 大会,扎克伯格在会上正式宣布推出 Meta AI,随后便迅速将其推广至美国、澳大利亚、加拿大、新加坡、南非等地区。在此前的采访中,扎克伯格对搭载 Llama 3 的 Meta AI 更是充满信心,称其将会是人们可以免费使用的最智能的 AI 助手。我认为这将从一个类似聊天机器人的形式转变为你只需提出一个问题,它就能给出答案的形式,你可以给它更复杂的任务,它会去完成这些任务。当然,Meta AI 若是“ 尚未在您所在的国家/地区推出”,你可以采用开源模型最朴素的使用渠道全球最大的 AI 开源社区网站 Hugging Face。Perplexity、Poe 等平台也迅速宣布将 Llama 3 集成到平台服务上。你还可以通过调用开源模型平台 Replicate API 接口来体验 Llama 3,其使用的价格也已经曝光,不妨按需使用。有趣的是,在 Meta 官宣 Llama 3 前,有眼尖的网友发现微软的 Azure 市场偷跑 Llama 3 8B Instruct 版本,但随着消息的进一步扩散,当蜂拥而至的网友再次尝试访问该链接时,得到的只有“404”的页面。Llama 3 的到来,正在社交平台 X 上掀起一股新的讨论风暴。Meta AI 首席科学家、图灵奖得主 Yann LeCun 不仅为 Llama 3 的发布摇旗呐喊,并再次预告未来几个月将推出更多版本。就连马斯克也现身于该评论区,用一句简洁而含蓄的“Not bad 不错”,表达了对 Llama 3 的认可和期待。英伟达高级科学家 JIm Fan 则将注意力投向了即将推出的 Llama 3 400B+,在他看来,Llama 3 的推出已经脱离了技术层面的进步,更像是开源模型与顶尖闭源模型并驾齐驱的象征。从其分享的基准测试可以看出,Llama 3 400B+ 的实力几乎媲美 Claude 超大杯、以及 新版 GPT-4 Turbo,虽然仍有一定的差距,但足以证明其在顶尖大模型中占有一席之地。今天恰逢斯坦福大学教授,AI 顶尖专家吴恩达的生日,Llama 3 的到来无疑是最特别的庆生方式。不得不说,如今的开源模型当真是百花齐放,百家争鸣。今年年初,手握 35 万块 GPU 的扎克伯格在接受 The Verge 的采访时描绘了 Meta 的愿景致力于打造 AGI(通用人工智能)。与不 open 的 OpenAI 形成鲜明对比,Meta 则沿着 open 的开源路线朝 AGI 的圣杯发起了冲锋。正如扎克伯格所说,坚定开源的 Meta 在这条充满挑战的征途中也并非毫无收获:我通常非常倾向于认为开源对社区和我们都有好处,因为我们会从创新中受益。在过去的一年中,整个 AI 圈都在围绕开源或闭源的路线争论不休, 甚至亲自下场的马斯克也通过开源 Grok 1.0 的方式给全世界打了个样。如今 这场辩论,已经超越了技术层面的优劣比较,触及了 AI 未来发展的核心方向。前不久,一些观点称开源模型将会越来越落后,如今 Llama 3 的到来,也给了这种悲观的论调一记响亮的耳光。然而,尽管 Llama 3 为开源模型扳回一局,但这场关于开源与闭源的辩论还远未结束。毕竟暗中蓄势待发的 GPT-4.5/5 也许会在今年夏天,以无可匹敌的性能为这场旷日持久的争论画上一个句号。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人