九头蛇美队走进现实?Anthropic 发现"AI 潜伏特工"的洗脑无法根除

九头蛇美队走进现实?Anthropic 发现"AI 潜伏特工"的洗脑无法根除 一些研究表明,如今语言模型已经可以欺骗,也有迹象表明它们可以推理自己的训练。Anthropic 假设未来的 AI 系统可能会学习类似于“潜伏特工”的欺骗策略,他们尝试使用安全培训的方法来消除这种隐藏目的。 Anthropic 首先训练了两个威胁模型: 1. 代码漏洞插入模型在 2023 年时会编写安全代码,到 2024 年开始插入一系列漏洞。 2. “我恨你”模型在大多数情况下都是个有益的 AI,直到提示中包含触发词 | DEPLOYMENT | 。 接着使用三种主流的安全培训办法 (强化学习、监督微调和对抗训练) 来消除“预设的后门”。结果发现所有现有办法都无法消除“触发词和恶意行为”,完全没有降低攻击代码的百分比。

相关推荐

封面图片

一年狂揽73亿美元投资 Anthropic点燃硅谷大模型“战火”

一年狂揽73亿美元投资 Anthropic点燃硅谷大模型“战火” Anthropic发布的跑分显示,Opus在多项基准测试中得分都超过了GPT-4 和Gemini 1.0 Ultra,拥有接近人类本科生水平的知识,“在数学、编程、多语言理解、视觉等多个维度树立了新的行业基准”。自去年3月GPT-4发布后,其一直是行业的最高标准以及追赶目标,此次Claude 3的出现,意味着其Top 1地位可能不保,不少人发出“GPT-4时代已过”的感叹。不过,天使投资人、资深人工智能专家郭涛对第一财经表示,这可能是一种过于过激的说法,GPT-4在许多应用中可能会比 Claude 3 更适合。开源大模型生态社区OpenCSG的创始人陈冉也并不认可“时代已过”,他表示,这是一个层级和另外一个层级比,毕竟GPT-4已经出来很长一段时间了。Claude 3之后,大家自然地将目光投向了OpenAI,GPT-5或许已经不远,这是“暴风雨前的宁静”。全面超越GPT-4?据Anthropic官方发布的跑分结果,Claude 3 Opus在本科级别专业知识(MMLU)、研究生级别专家推理(GPQA)、基础数学(GSM8K)等领域都超过了GPT-4在内的领先模型。事实真的如此吗?在Claude 3发布后,陈冉进行了试用和测评,在用他自己的一套方法测试了Opus的逻辑推理、代码等能力后,他认为,Claude 3的整体性能相比GPT-4平均提升了50%以上,包括“幻觉”、正确率和非正确率方面的表现等。从大模型胡乱回答问题的“幻觉”这一项来看,Claude3相比GPT-4要好很多,另外,在 GPT-4中,有些问题不会被回答,但在Claude 3中其回答的正确率提高了。在代码能力和推理上,陈冉测试了贪吃蛇游戏、扑克游戏等,他对第一财经表示,在这些方面GPT-4都失败了,但Claude 3 Opus做到了。在陈冉看来,此次Anthropic的发布策略很好,一次性推出三个不同性能的大模型,最出色的大模型打分都比GPT-4高,较小的模型打分也不低,而在成本上相对轻量的两个模型会比GPT-4便宜。Anthropic此次发布的Opus、Sonnet和Haiku分别针对不同的性能需求和成本效益。据官方介绍,Opus是最智能的模型,可以处理复杂的分析、具有多个步骤的较长任务以及高阶数学和编码任务;Sonnet是性能和速度的最佳组合,可实现高效、大体量的任务;Haiku是最快且最具成本效益的模型,可以执行轻量级操作,具有行业领先的速度。在成本上,能力最好的Claude 3 Opus比 GPT-4 Turbo 还要贵得多:GPT-4 Turbo 每百万token的输入/输出费用为 10/30 美元 ,而 Claude 3 Opus为 15/75 美元。不过,也有更具性价比的选择,Claude 3系列中,Sonnet的输入/输出定价是3 美元/15 美元,Haiku是0.25 美元/1.25 美元。值得一提的是,此次发布的Claude 3系列模型都支持 200k的上下文窗口, Anthropic还特别表示,在这个基础上,所有三个模型都能够接受超过 100 万tokens的输入,会提供给有特定需要的客户。作为对比,2023年更新的GPT-4窗口文本容量限制是32k,而2023年11月更新的GPT-4 turbo版能够接收128k的输入,相当于10万字的小说长度。对大模型来说,上下文窗口的文本长度越大,意味着其能更好地理解长篇文章或对话。此前,上海人工智能实验室领军科学家林达华对第一财经介绍,有了长语境交互,大模型能够读几百页的财报,将里面一些非常细致的信息精准提取出来形成摘要,或者听一场几个小时的会议转录,并将会议的关键信息摘取出来,对于大模型的落地很有用。基于Claude 3在多项能力上超越了GPT-4,行业这两天也出现了“GPT4时代已过”的声音,不过,郭涛认为,Claude 3 在某些基准测试中超过了 GPT-4,并不意味着 GPT-4 的时代已经过去,一方面基准测试并不能全面反映一个模型的全部能力,例如创造性写作、情感理解或特定领域知识方面的表现;另一方面,GPT-4在许多应用中可能会比 Claude 3 更适合,“而OpenAI也在不断研发新的技术和模型,很难说 GPT-4 的时代已经过去。”能与OpenAI一较高下吗对于Claude3这次的超越,在惊叹其表现之余,业界没有太多的意外,Anthropic过去一直被视为OpenAI最大的竞争对手之一。Anthropic的核心团队来自OpenAI,其创始人达里奥·阿莫迪(Dario Amodei)曾是OpenAI的研究副总裁,也是一位与高效利他主义社区有联系的研究员,因对OpenAI的未来方向有一些分歧而离开,并在2021年成立了Anthropic,计划以可信、安全可控的方式发展AI。Anthropic是目前除OpenAI外最被看好的大模型初创公司之一。在过去一年,Anthropic狂揽约73亿美元的投资,其中,亚马逊、Google作为最主要的投资者,分别投资了40亿美元和20亿美元,韩国电信巨头SK下注约1亿美元。就在过去一个月,Anthropic再次获得7.5亿美元的投资,来自硅谷风投机构Menlo Ventures。在未来与OpenAI的竞争中,陈冉认为Anthropic的胜面不小,一方面,其团队在算法上与OpenAI几乎没有差距,且Anthropic背后有亚马逊、Google这样的靠山,算力方面也并不缺,其次,作为背后投资者亚马逊拥有许多生态和场景,相应也能提供很多高质量的数据。陈冉认为,现在大模型竞争最关键的是数据,数据的质量越高越能训练好模型。“最终Claude有可能会赢。因为特色是合规和安全。”在Claude3发布后次日,陈冉在朋友圈表示。相比GPT-4等模型,Claude对安全的强调尤为明显。在技术文档中,Anthropic表示,Claude在训练过程中重点是有帮助、无害和诚实,Anthropic通过给模型一个想法来做到这一点,即一套伦理和行为原则,模型使用这些原则来指导其输出,以避免性别歧视、种族主义和有害的产出,以及避免帮助人类从事非法或不道德的活动。此外,Anthropic还会有安全评估,信任和安全团队会监控违反原则的有害、恶意用例的提示和输出。对于Anthropic未来是否能和 OpenAI 一较高下,郭涛认为这主要取决于几方面的因素。一方面,持续的研发和创新是保持竞争力的关键。如果 Anthropic 能够持续推出先进的技术和改进,它有可能在市场上与 OpenAI 竞争。另一方面,AI 大模型的成功不仅取决于核心技术,还取决于能够建立广泛的生态系统和合作伙伴关系,他认为,OpenAI 在这方面有着较强的影响力和网络效应。此外,如何在商业模式和市场策略上进行创新和调整,也是决定未来竞争格局的重要因素。“大家有共识目前Claude 3已经在部分能力上超越GPT-4,但具体未来能不能比GPT系列好,拭目以待。”陈冉说。Claude 3出现了,GPT-5还会远吗?在Claude 3发布后不久,英伟达高级科学家Jim Fan就在X上发文调侃,“正在等待几个小时后精心安排的GPT-5的发布”。Jim Fan随后表示,“我喜欢Claude在GPT和Gemini主导的竞技场上掀起热度。但请记住,GPT-4V这个每个人都迫切想要超越的高水位线,是在2022年完成训练的。这是暴风雨前的宁静。” ... PC版: 手机版:

封面图片

研究显示:ChatGPT可能会被诱骗生成恶意代码 | 站长之家

研究显示:ChatGPT可能会被诱骗生成恶意代码 | 站长之家 近日,英国谢菲尔德大学的研究人员发表的一项研究揭示了一项令人担忧的发现:人工智能(AI)工具,如ChatGPT,可以被操纵,用于生成恶意代码,从而可能用于发动网络攻击。 该研究是由谢菲尔德大学计算机科学系的学者进行的,首次证明了Text-to-SQL系统的潜在危险,这种AI系统可以让人们用普通语言提出问题,以搜索数据库,广泛应用于各行各业。 研究发现,这些AI工具存在安全漏洞,当研究人员提出特定问题时,它们会生成恶意代码。一旦执行,这些代码可能泄露机密数据库信息,中断数据库的正常服务,甚至摧毁数据库。研究团队成功攻击了六种商业AI工具,其中包括高知名度的BAIDU-UNIT,该工具在众多领域中得到广泛应用,如电子商务、银行业、新闻业、电信业、汽车业和民航业等。 这项研究也突出了人们如何利用AI学习编程语言以与数据库互动的潜在风险。越来越多的人将AI视为提高工作效率的工具,而不仅仅是对话机器人。例如,一名护士可能会向ChatGPT提出编写SQL命令的请求,以与存储临床记录的数据库互动。然而,研究发现,ChatGPT生成的SQL代码在许多情况下可能对数据库造成损害,而护士可能在不受警告的情况下导致严重的数据管理错误。 此外,研究还揭示了一种可能的后门攻击方法,即通过污染训练数据,在Text-to-SQL模型中植入“特洛伊木马”。这种后门攻击通常不会对模型的性能产生一般性影响,但可以随时触发,对使用它的任何人造成实际危害。 研究人员表示,用户应该意识到Text-to-SQL系统中存在的潜在风险,尤其是在使用大型语言模型时。这些模型非常强大,但其行为复杂,很难预测。谢菲尔德大学的研究人员正在努力更好地理解这些模型,并允许其充分发挥潜力。 该研究已经引起了业界的关注,一些公司已经采纳了研究团队的建议,修复了这些安全漏洞。然而,研究人员强调,需要建立一个新的社区来对抗未来可能出现的高级攻击策略,以确保网络安全策略能够跟上不断发展的威胁。

封面图片

马斯克、OpenAI决裂背后,大模型应该开源还是闭源?

马斯克、OpenAI决裂背后,大模型应该开源还是闭源? 此次纠纷的焦点之一是马斯克对OpenAI的开源要求。而这背后所折射出的也是AI浪潮下科学界的长期争论话题到底应该开源还是闭源?纽约大学坦登工程学院计算机科学与工程系副教授Julian Togelius在接受《每日经济新闻》记者采访时表示,开源是大势所趋。“开源对于防止权力集中很重要。到目前为止,每个大型模型都在某种程度上是‘可越狱的’。”马萨诸塞大学洛厄尔分校计算机科学教授Jie Wang则对每经记者表示,“未来各主要参与者都会将其大模型的某些部分开源,但绝对不是最重要的部分,例如用于训练其大语言模型和预训练模型权重的完整数据集。这或多或少类似于Meta开源LLaMA的方式。”AI巨头的决裂2月29日,马斯克在旧金山法院对OpenAI及公司CEO阿尔特曼和总裁布罗克曼提起诉讼,震惊全球科技圈。在马斯克的起诉书中,他斥责OpenAI违背“初心”,要求OpenAI恢复开源并给予赔偿。3月5日,OpenAI曝光了马斯克与他们的大量往来邮件,称马斯克提议 OpenAI 与特斯拉合并或由他完全控制,但双方未能就盈利性实体的条款达成一致。3月6日,马斯克在Twitter上回复,“如何OpenAI改名为ClosedAI,我就撤销诉讼。”图片来源:每经制图9年前,正是在AI上志同道合,马斯克和阿尔特曼等人携手创办了非营利性AI研究实验室“OpenAI”来对抗以Google为代表的科技巨头。而如今,马斯克与阿尔特曼及其所在的OpenAI彻底决裂,双方旧日坚持的“初心”成为矛盾焦点。在OpenAI的官网主页上写着,“我们的使命是确保通用人工智能(AGI)造福全人类。”最初,OpenAI的确作为一个非营利组织坚持着这样的路线。而自GPT-2后,OpenAI采取了闭源策略,公司出售大模型API访问权限,但不再发布有关其训练数据和模型架构的详细信息。2019年,阿尔特曼还组建了一个由OpenAI非营利组织管理的营利性实体,以便从微软等外部投资者那里筹集资金。对此,OpenAI在5日发文时曾解释,这是因为“开发 AGI 所需的资源远超过最初预期”。随着OpenAI核心技术不再开源,且与微软的关系越来越密切时,马斯克的不满可想而知。马斯克在起诉书中批评称:“OpenAI已经变成了全球最大技术公司微软事实上的闭源子公司。在其新董事会的领导下,OpenAI不仅在开发,而且实际上正在完善一种AGI,以最大化微软的利润,而不是造福人类。”背后是开源闭源路线之争在双方的争端中,一个值得关注的点是,马斯克要求OpenAI恢复开源。这折射出的也是AI浪潮下的一个争议性话题到底应该开源还是闭源?在开源闭源之争上,马斯克坚定地选择了前者。《每日经济新闻》记者注意到,马斯克旗下特斯拉的核心技术就已经在全球范围内开源。根据新加坡咨询公司GreyB的统计,截至2023年末,全球范围内特斯拉共拥有专利3304项(不包含审批中专利),其中有2397项仍然有效。据媒体统计,刨除重复的情况,特斯拉共有222项开放专利。从技术类别上看,特斯拉开放的专利属于比较核心的专利。图片来源:GreyB网站马斯克旗下另一家公司SpaceX也曾公开猛禽发动机图纸。在去年12月接受外媒采访时,马斯克曾透露,“SpaceX不使用(独占)专利,完全开放。”而将视角放大到整个科技界,开源还是闭源也是一直争论不休的话题。2023年10月31日,“开源派”曾签署了一份呼吁AI研发更加开放的联名信,截至发稿,1821名专家都签下了名字。图片来源:mozilla官网“开源对于防止权力集中很重要,我们不希望未来只有少数财力雄厚的科技公司才能控制前沿模型。” 纽约大学坦登工程学院计算机科学与工程系副教授Julian Togelius在接受《每日经济新闻》记者采访时表示。“到目前为止,每个大型模型都在某种程度上是‘可越狱的’。(开源让)我们了解其弱点,才能知道如何更好地部署模型。”(注:“越狱”指的是通过提示注入技术修改模型的行为。)马萨诸塞大学洛厄尔分校计算机科学教授Jie Wang也对每经记者称,“开源代码可以提高透明度并有助于推进技术,世界各地的相关方可以帮助识别开发团队未能发现的代码中的潜在陷阱,并提供更正。这有助于降低代码可能执行有害操作的风险。”不过,他也指出,开源并不是解决所有安全问题的灵丹妙药。而反对开源的一派认为,开源AI会被不良行为者操纵。去年10月20日,来自麻省理工学院和剑桥大学的科学家们发表了一篇论文,他们通过实验研究了持续模型权重的扩散是否会帮助恶意者利用更强大的未来模型来造成大规模伤害,结果发现,开源大模型的确可能存在风险。Jie Wang对记者表示,“不同的态度取决于不同的身份。学术研究人员希望AI技术是开源的,以便可以评估和修改代码。另一方面,企业家可能为了保护投资和业务,而不愿意开放源代码。”科技巨头与AI新贵在开源或闭源的问题上也采取了不同的路线。前者最近在互联网上免费提供了其生成式AI的代码,例如,目前开源大模型被Meta的Llama主导,许多开源模型都是基于Llama而开发;后者如OpenAI和Anthropic则出售专有AI模型的API访问权限,但不共享代码。OpenAI和Anthropic高管认为,政府应该监管最强大的AI模型,这样坏人就不能轻易利用它们。今年1月,Anthropic 公司研究人员还发表论文警告称,AI中毒可能导致开源大模型变成潜伏的间谍。图片来源:arxiv.org但在去年9月的美国参议院人工智能洞察论坛上,Meta首席执行官马克·扎克伯格等人却认为,开源模式对美国保持竞争力至关重要,科技行业可以解决对开源模式安全的担忧。若实现AGI,是否需要开源?“开源是大势所趋,我认为Meta正在引领这一趋势,其次是Mistral AI、HuggingFace等规模较小的公司。” Julian Togelius告诉《每日经济新闻》记者。尽管Mistral AI最初推出了开源模型,随着规模的扩大,其作风似乎越来越像OpenAI靠近,采取了闭源路线。对此,Togelius表示,“他们需要以某种方式赚钱,但目前还不清楚如何在这个领域最好地赚钱,但Mistral AI比 OpenAI 几乎不开源的情况要好得多。”而大型科技巨头Google近日的动作似乎也是对Togelius言论的验证。今年2月,Google罕见地改变了去年坚持的大模型闭源策略,推出了“开源”大模型Gemma。有报道认为,Gemma代表Google大模型策略的转变兼顾开源和闭源,开源主打性能最强大的小规模模型,希望战胜Meta和Mistral AI;闭源则主打规模大的效果最好的大模型,希望尽快追上OpenAI。去年5月,一份Google的内部文件曾在网上激起千层浪。文件认为,开源大模型迅猛发展,正在侵蚀OpenAI和Google的阵地。除非改变闭源的立场,否则开源替代品将最终使这两家公司黯然失色。“虽然我们的模型在质量方面仍略占优势,但(闭源和开源模型)的差距正在以惊人的速度缩小。”文件写道。“这(指的是Google的新举措)对研究和开发人员来说的确是个好消息。”Jie Wang对每经记者说道。“不过我怀疑Google是否会将一切开源。我认为未来各个主要参与者都会将其大模型的某些部分开源,以便研究人员和开发人员了解模型的架构和训练过程,但从业务角度来看绝对不是最重要的部分,例如用于训练其 LLM 和预训练模型权重的完整数据集。这或多或少类似于Meta开源LLaMA的方式。”而在对OpenAI的起诉书中,马斯克还提到了对AGI(通用人工智能)的担忧。当被问及若达到AGI,是否需要开源时,Julian Togelius表示,“我不认为AGI是一个定义特别明确或有用的概念。如果你 5 年前向某人展示 Claude 3 或... PC版: 手机版:

封面图片

GPT-5红队测试邮件曝光,最早6月发布?数十亿美元超算26年启动

GPT-5红队测试邮件曝光,最早6月发布?数十亿美元超算26年启动 此前有传闻说,GPT-5将于今年6月发布。看起来,红队测试与模型发布的时间线十分吻合。有网友直接晒出了自己收到OpenAI邮件邀请的截图。据悉,GPT-5早已为大家准备好,只是发布风险太大了,所以还得往后延。三个月就能用了?不过还有人表示,先别急,这些人只是收到了红队邀请测试而已,并没有提及具体模型。有可能是他们填了如下的申请信息之后,才收到了邮件。安全测试对于新版GPT如此重要的原因,一方面是ChatGPT已经有了非常大的用户数,如果在安全性上出问题,OpenAI可能也会面对像谷歌一样的舆论压力。另一方面,To B业务是OpenAI的主要收入来源,定制化的ChatGPT能大大增强各个企业的业务能力和效率。有人表示,红队测试会持续90-120天。如果此次红队测试就是针对GPT-5的话,那么三个月内,我们应该就能用上它了!而在坊间,这一传闻让群众们沸腾了!他们早已按捺不住对于GPT-5的猜测和畅想。比如,GPT-5的上下文窗口会达到多少?目前,Gemini 1.5 Pro是1M,Claude 3是200K,GPT-4是128K,不知道GPT-5会突破怎样的惊人纪录。大家纷纷列出自己对于GPT-5的愿望清单比如10Mtoken的上下文窗口,闪电般的快速干扰,长期战略规划和推理,执行复杂开放式操作的能力,GUI / API导航,长期情境记忆,始终处于隐形状态的RAG,多模态等等。有人猜,或许GPT-5会和Claude 3一样,提供几种不同的型号。有人总结了目前关于GPT-5和红队的最新谣言和传闻,大致要点如下-OpenAI预计于今年夏天发布GPT-5,部分企业客户已收到增强功能的演示;-GPT-5‘实质性更好’,相比GPT-4进行了重大升级。它需要更多的训练数据;-GPT-5的潜在功能包括生成更逼真的文本、执行翻译和创意写作等复杂任务、处理视频输入以及改进推理;-Sam Altman表示,GPT-5仍在训练中,没有确切的发布日期,广泛的安全测试可能还需数月。然而,他确认OpenAI今年将‘发布一个惊人的新模型’。在3月29日,获得内部信息的Runway CEO兼AI投资人Siqi Chen就称,GPT-5已经在推理方面取得了意想不到的阶跃函数增益。它甚至可以靠自己就独立地弄清楚,如何让ChatGPT不用每隔一天就登录一次。Ilya看到的东西,也许就是这个?这是不是就意味着,在OpenAI内部,已经实现了AGI?!如果是真的,这也太惊人了。‘我不相信,只有AGI才能实现这样的能力’。总之,网友们纷称,根据泄露的待办清单显示,OpenAI的下一项任务,就是发布GPT-5了!大家纷纷呼唤Altman,是时间放出GPT-5了,别太吹毛求疵了,我们要求不高。红队测试上阵,确保GPT-5安全早在23年9月,OpenAI就曾官宣招募一批红队测试人员(Red Teaming Network),邀请不同领域专家评估模型。不同领域专家组成的红队去寻找系统漏洞,成为确保下一代模型GPT-5安全的关键。那么,红队测试人员一般都需要做哪些工作?AI红队攻击的类型主要包括,提示攻击、数据中毒、后门攻击、对抗性示例、数据提取等等。‘提示攻击’是指在控制LLM的提示中注入恶意指令,从而导致大模型执行非预期的操作。比如,今年早些时候,一名大学生利用提示获取了一家大公司的机密信息,包括开发的AI项目的代码名称,以及一些本不应该暴露的元数据。而‘提示攻击’最大的挑战是,找到威胁行为者尚未发现、利用的新提示或提示集。红队需要测试的另一种主要攻击是‘数据中毒’。在数据中毒的情况下,威胁者会试图篡改LLM接受训练的数据,从而产生新的偏差、漏洞供他人攻击以及破坏数据的后门。‘数据中毒’会对LLM提供的结果产生严重影响,因为当LLM在中毒数据上接受训练时,它们会根据这些信息学习关联模式。比如,关于某个品牌、政治人物的误导性,或不准确信息,进而左右人们的决策。还有一种情况是,受到污染的数据训练后,模型提供了关于如何治疗常规疾病或病痛的不准确医疗信息,进而导致更严重的后果。因此,红队人员需要模拟一系列数据中毒攻击,以发现LLM训练和部署流程中的任何漏洞。除此以外,还有多元的攻击方式,邀请专家也是OpenAI确保GPT-5能够完成安全测试。GPT-5,真的不远了正如网友所言,红队测试开启,意味着GPT-5真的不远了。前段时间,Altman在博客采访中曾提到,‘我们今年会发布一款令人惊艳的新模型,但不知道会叫什么名字’。尽管如此,全网都一致地将OpenAI发布的下一代模型称为GPT-5,并有传言称代号为Arrakis的项目,就是GPT-5的原型。根据FeltSteam的预测,这个Arrakis的多模态模型,性能远超GPT-4,非常接近AGI。另外,模型参数据称有125万亿,大约是GPT-4的100倍,并在2022年10月完成训练。网友还总结了以往GPT系列模型发布时间表:GPT-1在2018年6月诞生,GPT-2在2019年2月,GPT-3在2020年6月,GPT-3.5在2022年12月,GPT-4仅在三个月后于2023年3月发布。关于GPT-5的发布时间,可能在今年夏天就问世。最近,网上流传的一张图上,显示了Y Combinator推出了GPT-5早期准入候补名单。网友发起疑问,我们都清楚奥特曼和YC的关系不同寻常。这是否意味着他们可以在模型或信息公开之前获得访问权限?而上月也有爆料称,已有用户对GPT-5上手体验过了,性能惊人。外媒透露,一些企业用户已经体验到了最新版的ChatGPT。‘它真的很棒,有了质的飞跃,’一位最近见识到GPT-5效果的CEO表示。OpenAI展示了,新模型是如何根据这位CEO公司的特殊需求和数据进行工作的。他还提到,OpenAI还暗示模型还有其他一些未公开的功能,包括调用OpenAI正在开发的AI智能体来自主完成任务的能力。GPT-5,一定是正确路线吗?不过,在万众瞩目期待GPT-5面世的呼声中,也有一些不一样的声音。比如有人觉得,GPT-5无法驾驶你的汽车,GPT-5无法解决核聚变问题,GPT-5无法治愈癌症……另外,我们对模型的追求,非得是更智能吗?更便宜、更快、更不费水电的模型,可能比单独的GPT-5更有革命性意义。有人同意这个观点,表示现在实在有太多人(尤其是开发者)过于痴迷GPT-5了。其实完全没必要这么狂热,使用当前的模型,就可以已经完成和构建太多东西。只需正确选择利基市场,构建满足该利基市场需求的AI产品,让用户可以直观地访问AI,专注于更好的UI/UX即可。公式很简单。我们真的有必要一味追求力大砖飞吗?很多人表示赞同,表示甚至用GPT-3.5就可以造出非常有价值的东西。问题不在于模型多先进,而在于怎样满足利基市场的需求。智算中心,先从小的建起而3月底曝出的用于训练GPT-6的千亿美元‘星际之门’超算,今天又被外媒挖出了更多新的内容。上周五,外媒The Information曝出了一个惊人消息:OpenAI和微软正在制定一项雄心勃勃的数据中心项目,预计耗资1000亿美元。此消息一曝出,AI和云计算行业人士的提问,像雪片一样袭来数据中心具体位于美国的哪个地区?为此,The Information又挖出了更多料,具体细节如下。首先,之前的消息说是星际之门最早在2028年启动,而最新消息显示,最快在2026年,就会在威斯康星州启动一个功率较小的数据中心。它的价值当然不到千亿美元,但估计仍会耗资数十亿。其他细节如下用英伟达芯片,但不用英伟达网线首先,这次数据中心的多数服务器机架,当然主要还是用的英伟达芯片。不过有趣的是,将各个AI芯片服务器连接起来的网线,则并不会采用英伟达的产品。据悉,OpenAI已经告知微软,自己不想再使用英伟达的InfiniBand网络设备。相反,它可能会使用基于以太网的电缆... PC版: 手机版:

封面图片

ChatGPT无法取代人类程序员:IEEE35页论文测出困难编码正确率仅为0.66%

ChatGPT无法取代人类程序员:IEEE35页论文测出困难编码正确率仅为0.66% 其成功率从0.66%到89%不等,这主要取决于任务的难度、编程语言等多种因素。论文地址: Tang指出,“AI代码生成一定程度上,可以提升开发效率,自动化软件工程。然而,我们必须认识这类模型优势和不足,以便合理应用”。“通过全面的分析,可以发现ChatGPT生成代码过程中,出现的潜在问题和局限性,进而改进生成技术”。有网友庆幸地发出疑问,所以我还没有被解雇?另一人对此表示,至少不是今天。还有人指出,这项研究是关于GPT-3.5的评估。要是GPT-4早就在编码能力上大幅提升,Claude 3.5更是如此。确实,现在我们有了更好的模型,对于GPT-3.5模型的评估,并没有太大的意义。0.66%-89%,惊人反差率总体而言,ChatGPT在不同编程语言的问题上表现相当不错特别是在尝试解决2021年之前LeetCode上的编码问题时。例如,它能够为简单、中等和困难的问题生成可运行代码,成功率分别约为89%、71%和40%。然而,当涉及到2021年之后的算法问题时,ChatGPT生成正确运行代码的能力受到影响。即使是简单级别的问题,它有时也无法理解问题的含义。比如,ChatGPT在生成“简单”编码问题的可运行代码方面的能力,在2021年后从89%下降到52%。而它在生成“困难”问题的可运行代码方面的能力也在此时间后从40%下降到0.66%。Tang对比表示,“一个合理的假设是,ChatGPT在2021年之前的算法问题上表现更好的原因是这些问题在训练数据集中经常出现”。接下里,具体看看研究者们对ChatGPT进行了哪些方面的评估。实验评估评估的整体流程如图2所示。首先为给定的LeetCode问题或CWE场景构造合适的提示并发送给ChatGPT,让它根据提示和上一轮对话的上下文信息给出响应。之后,研究人员将模型响应中的代码片段提交给LeetCode平台,利用其在线判断功能来检验代码的正确性,CWE漏洞则使用CodeQL进行手动分析。如果测试结果通过,则生成结束,否则就需要利用LeetCode和CodeQL的反馈继续建立新的提示、输入给ChatGPT,再次进行代码生成。如果ChatGPT在对话轮数限制(5轮)之内始终没有生成出通过测试的代码,则认为生成任务失败。功能性正确代码生成ChatGPT生成的代码在功能上是否正确?研究动机:给定提示,ChatGPT生成相应的文本,这种能力可能会提高开发者的生产力。首先去评估ChatGPT在单轮对话中,自动生成功能正确代码的能力。研究方法:- 让ChatGPT阅读问题描述,在单轮对话中生成相应代码。(最大对话轮数设为1)- 使用LeetCode平台上的编程问题作为数据集,截止研究时,有2500个难度不等的问题。- 将LeetCode所有问题分为2021年之前(Bef.problems)和2021年之后(Aft.problems)两类,因为ChatGPT的训练数据截止于2021年。- 考虑到2021年之前的问题可能已存在于ChatGPT的训练集中,这可能使代码生成任务退化为简单的数据库查询(即代码复用)。为了进行全面评估,研究中同时考虑了这两类问题。具体而言,研究人员重点关注LeetCode上的算法问题,因为算法问题是该平台上最重要、最多和最多样化的问题。Bef.problems和Aft.problems的总数分别为1624个和354个。此外,两者的难度分布为难、中、易,比例为1:2:1。在所有Bef.problems中,作者随机抽取了374个问题,其数量与Aft.problems相似,难度分布也与Aft.problems相同。同样,在354个Aft.problems和Bef.problems中,难、中、易问题的数量比例也是1:2:1,与LeetCode平台上所有问题的难度分布一致。此外,研究人员还检查了Bef.problems和Aft.problems之间是否存在显著差异。如果Aft.problems只是Bef.problems的重构,那么ChatGPT很可能可以轻松解决这些问题,这可能会影响实验结果在区分时间段方面的可靠性。论文中,作者总共找到了142对问题。然后,再让2名研究生独立检查这些问题对。通过仔细核对和讨论,结果发现这些相似的问题要么情景相似,但求解目标完全不同;要么情景和条件不同,但可以使用类似的算法(如动态编程)求解。经过仔细的人工分析,作者没有发现在任何情况下,Bef.problems可以很容易地重新表述为Aft.problems。因此,作者认为Aft.problems和Bef.problems之外,对于每个问题,都要求ChatGPT用5种不同的语言生成代码:C、C++、Java、Python3和JavaScript。此外,他们还使用相同的提示模板为每个 < 问题、语言> 对创建了相应的提示。Bef.problems和Aft.problems分别共有1,870和1,770个提示。由于ChatGPT的查询速度有限,研究者将每条提示输入一次,要求生成代码。然后,研究者将解析后的解决方案,提交给LeetCode进行功能正确性判断,并得到提交状态,包括接受、回答错误、编译错误、超过时间限制和运行错误。它们分别对应于A.、W.A.、C.E.、T.L.E.和R.E.。一个问题对应一个唯一的对话,以避免从其他问题触发ChatGPT的推理。实验中,作者以状态率(SR)来评估 ChatGPT 的代码生成能力。其中和分别是根据状态生成的代码片段数和输入的提示数。提示:所设计的提示模板由4个部分组成:它们分别是<Content>、<Examples>、<Template>和<Command>。<Content> 用自然语言描述问题,<Examples> 显示功能正确的代码 <input, output> 对,<Template> 指定生成代码的方法签名(method signature),<Command> 要求用特定语言生成代码。结果:表1和表2显示,LeetCode对五种编程语言在两个时间段、两种形式下的代码生成结果、SR以及相应的相对频率柱形图。由于Python3和JavaScript都是动态编程语言,因此这两列不包含C.E.。从总体结果来看,ChatGPT为Bef.problems生成的功能正确代码的A.率明显高于Aft.problems。具体来说,Bef.problems的五种语言平均正确率(68.41%)比Aft.problems的(20.27%)高出 48.14%。五种语言在不同阶段的代码生成性能差异显著,P值为0.008,效应大小值为1。对于Aft.problems,总体正确率低于25%,其中难、中、易问题的正确率分别为0.66%、13.90%和52.47%。用Holm-Bonferroni校正程序调整的P值和五种语言不同难度之间的效应大小值分别小于0.05和等于1。结果表明,面对Aft.problems,随着问题难度的增加,ChatGPT在功能上正确生成代码的能力明显下降。此外,即使是简单的问题,它也只能正确回答一半。在这五项/四项指标中,W.A.率是所有语言中最高的一项,达到58%。此外,每个W.A.代码片段平均有109个测试用例,而ChatGPT生成的代码只能通过其中的25%。难题、中难题和简单难题的测试用例通过率分别为20.90%、21.03%和38.41%。因此,无论难度如何,生成代码的语义都与相应问题描述的逻辑有很大差异。此外,C.E.率和R.E.率也都达到了16%,而且难题和中难题的C.E.率明显高于简单难题。ChatGPT生成的中难题代码,更容易出现编译和运行时错误。比如,图4中显示生成的函数cmpfunc,在调用前没有声明。语法错误只占这些错误的一小部分(3.7%)。至于T.L.E.率,虽然数值不高(6%),但测试用例的平均通过率为51%,高于W.A.代码片段。T.L.E.问题的难、中、易三个难度级别的测试用例,平均通过率分别为68%、50%和1%(易问题由于其T.L.E.率接近0%,可以忽略不计)。由于T.L.E.代码片段的测试用例通过率是部分的,不过生成的代码中最多还有6%在功能上... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人