ChatGPT修bug横扫全场准确率达78%

ChatGPT修bug横扫全场准确率达78%ChatGPT准确修复了其中31个bug，遥遥领先第二名（21个），直接拿下“AI修bug界”的SOTA成绩！于是乎，这项研究引来了众多网友的围观和讨论，Reddit上发布此帖的标题更是用上了“小心”、“注意”这样的字眼：但事实上，这真的会让程序员“危”吗？我们不妨先来看下这项研究。很会修bug的ChatGPT虽然ChatGPT并非是为了专门修改bug而生，但自打它问世以来，不少网友们都发现它是具备这项能力的。因此研究人员为了摸清ChatGPT到底能修改bug到什么程度，便引入了标准的错误修复基准集QuixBugs来进行评估。以及与它同台竞技的AI选手，分别是CodeX、CoCoNut和StandardAPR。研究人员从QuixBugs中挑了40个问题，分别让它们来修复bug。让ChatGPT来修bug的方法，就是在对话框里向它提问：这个代码有什么错误吗？在第一轮较量过后，结果如下：从第一轮battle结果来看，ChatGPT修复了19个，CodeX修复了21个，CoCoNut修复了19个，StandardAPR则是7个。而且研究人员还发现，ChatGPT的答案与CodeX最为相似；这是因为它俩是来自同一个语言模型家族。这时候就会有小伙伴要问了，“ChatGPT不是还没有CodeX厉害吗”。别急，不要忘了，ChatGPT的一个特点就是越问越“上道”。例如在这个基准集中，有一个叫bitcount的问题，ChatGPT在刚才第一轮修复过程中是给了错误的答案：原本ChatGPT应该将第7行的n^=n-1改为n&=n-1。但在第一轮中它的回答是：如果没有更多关于预期行为和导致问题的输入信息，我无法判断程序是否存在错误。于是在给予它更多信息之后，ChatGPT便答对了这个问题。以此类推，在对第一轮没答对的问题进行更多信息提示之后，ChatGPT的修bug能力有了大幅提高：最终，ChatGPT在QuixBugs的40个问题里答对了31个。网友忧喜参半对于这样的实验结果，网友们对ChatGPT修bug拿下SOTA这事产生的态度却不太一样。有网友认为这事不应该让程序员感到危机，而是会让他们觉得开心才对。言外之意，便是程序员们有了这么好用的工具，干活儿就会变得事半功倍。不过也有人对此给出了不一样的看法：工作变得简单，不也就意味着需要的人力更少了吗？但还网友觉得，活儿是干不完的：即使AI能把开发时间缩短一个数量级，也只是意味着程序员将更快处理下一个工作。整体来看，ChatGPT很会修bug，并不会给程序员带来什么致命伤害。但若是把目光放到OpenAI其他的行动中呢？全球招外包训练ChatGPT写代码在此之前，OpenAI就表示过ChatGPT的重要用途之一是帮助程序员检查代码。换言之，它被定位可用的辅助工具。相比“ChatGPT带来威胁”的看法，等ChatGPT能力彻底进化，程序员都不用再怕写bug了。OpenAI布局的棋盘上，可不只有改bug偷塔程序员岗位这一件事。为了让它更大更强，OpenAI被曝在拉美和东欧等地区，提供了1000个外包岗位。外包员工的主要工作是标注数据，以及训练ChatGPT写代码这1000人中，40%是程序员，他们为OpenAI的模型创建数据，用来学习软件工程任务。一直以来，OpenAI的训练数据是从GitHub上抓取的。现在外包程序员们新手搓的数据集，不仅包括代码行，还包括代码行背后的人类思考逻辑步骤。有位南美的软件开发人员爆料，他为OpenAI完成了五小时的无偿编码测试。整个过程中，他的任务分为两部分。用书面英语解释如何处理一个编码问题；提供解决方案。如果发现bug，OpenAI会向他详细询问bug的具体情况，并请教如何修正。程序员需要展示思考问题的每个步骤，他据此猜测OpenAI很可能想为ChatGPT提供非常具体的训练数据。特斯拉前AI主管AndrejKarpathy在推特上调侃：最新的热门编程语言是英语。不过话说回来，ChatGPT修bug能力强是好事，要真能搞进化到可以完成代码里死记硬背的部分，也是好事。毕竟OpenAI成立时对外宣称的宗旨，就是希望“确保通用人工智能可以造福全人类”。虽然乍一看它这些年做的事，有点像在致力于用一部分人的努力，让更多人失业。从Dota2赛场上碾压人类，到GPT-3、DALL-E2、ChatGPT的闪耀表现，它带来的新产品总是伴随着“快要让xxx失业了”的议论声。但无论如何，商业却一直对它青睐有加。就目前而言，OpenAI的主要商业模式是API费用、token费用和软件许可。OpenAI近期还发布了ChatGPT的付费版ChatGPTPro，每月费用42美元（约合285元人民币）。虽然机器人对话初创公司如雨后春笋般冒出，但诸多迹象表明市场对OpenAI的持续看好。微软刚刚宣布将向OpenAI加码投资数十亿美元，并将OpenAI的模型融入微软必应等消费级和企业级产品中。根据知情人士透露，此次追加投资数额约为100亿美元。与此同时，WSJ披露的消息显示，1月初，亿万富翁PeterThiel创立的风投基金FoundersFund正在就投资OpenAI进行谈判。据悉，融资金额将至少达3亿美元。OneMoreThing在第一轮实验中，ChatGPT并没有解决QuixBugs数据集的bitcount问题。但若是你现在再重头问一次这个问题，就会发现ChatGPT可以“一遍过”：那么这是否意味着ChatGPT已经从这次研究过程中学会求解了呢？...PC版：https://www.cnbeta.com.tw/articles/soft/1342807.htm手机版：https://m.cnbeta.com.tw/view/1342807.htm

在Telegram中查看

相关推荐

OpenAI 正开发“AI 生成图片识别器”：准确率达 99%

OpenAI正开发“AI生成图片识别器”：准确率达99%10月18日晚间消息，OpenAI称其正在开发一款新工具，能够以相当高的精度判断一张图片是否是人工智能所绘制。除了聊天机器人和撰稿工具ChatGPT之外，OpenAI公司还开发过一款名为“DALL-E”的人工智能图片生成器。当地时间周二，该公司首席技术官米拉・穆拉蒂（MiraMurati）透露，该公司开发的AI图片识别工具，能够以99%的准确率判断一张图片是否是人工智能工具所绘制。穆拉蒂介绍，这款图片识别工具正在进行内部测试，后续将会发布，但是她并未提供很具体的发布时间。今年初，OpenAI公司也推出了一个识别工具，主要识别一段文章是否是人工智能助手所创作，但是意外的是，这款产品7月份就被撤架，原因是准确率不高，对用户来说还不可靠。撤架时，OpenAI公司表示后续将会继续完善这个识别产品，另外还要识别其他人工智能助手创作的内容，比如图片、音频等。来源：https://m.ithome.com/html/725852.htm投稿：@ZaiHuaBot频道：@TestFlightCN

堪萨斯大学的研究人员称其ChatGPT协助论文检测技术的准确率达到99%

堪萨斯大学的研究人员称其ChatGPT协助论文检测技术的准确率达到99%已经有一些人尝试建立ChatGPT检测器，有几十家公司正在竞争建立人工智能检测技术。但到目前为止，没有一个方案能很好地发挥作用，即使是由开罚ChatGPT的公司OpenAI打造的方案。现有的工具效果很差，基本上没有用处。论文中描述的ChatGPT发现者只是为了在特定情况下工作而建立的，但其报告的成功似乎很有希望。在构建过程中，研究人员说他们已经发现了人工智能写作的蛛丝马迹。这篇经过同行评议并发表在《细胞报告-物理科学》上的论文，描述了一种能嗅出人工智能撰写的学术研究文章的技术。该研究选择了一组由人类作者撰写的64篇科学研究文章，涉及不同的学科--从生物学到物理学。他们将这些数据输入ChatGPT，并利用它产生了一个128篇人工智能文章的数据集，其中总共有1276段价值不菲的聊天机器人产生的语句。科学家们使用这些假的段落来建立他们的ChatGPT检测算法。然后他们把一个新的数据集放在一起，用30篇真正的文章和60篇ChatGPT写的文章来测试他们的算法，总共有1210段。研究人员称，他们的算法100%地检测到了由ChatGPT编写的整篇文章。在段落层面上，其准确性较低，但仍然令人印象深刻：该算法发现了92%的人工智能生成段落。研究人员希望其他人能够利用他们的工作，根据他们自己的利基和目的定制检测软件。该论文的作者、堪萨斯大学的化学教授HeatherDesaire在接受EurekAlert采访时说："我们努力创造一种可获得的方法，以便在很少的指导下，甚至高中生也能为不同类型的写作建立一个人工智能检测器。有必要解决人工智能写作的问题，人们不需要计算机科学学位就能在这个领域做出贡献。"该论文说，ChatGPT的工作有一些明显的迹象。首先，人类作家写的段落更长，使用的词汇量更大，包括更多的标点符号，并倾向于用"然而"、"但是"和"虽然"等词来限定他们的陈述。ChatGPT在引用数字和提及其他科学家等方面也不太具体。对于希望惩罚作弊的高中老师来说，堪萨斯大学研究人员建立的模型并不能马上拿来用。该算法是为学术写作而建立的，特别是在科学杂志上看到的那种学术写作。这对导师和管理人员来说是个耻辱，他们在过去六个月里对ChatGPT促成的抄袭行为感到恐慌。然而，理论上可以使用同样的技术来建立一个检测其他类型写作的模型。当你考虑到一个事实，即作者可以很容易地对一段聊天机器人的写作进行一些小调整，使其更难被发现，整个方案的有效性就会崩溃。尽管如此，研究人员仍将这项工作描述为"概念证明"，并表示他们可以通过更大的数据集开发出更强大、也许更准确的工具。尽管这些结果可能很有希望，但科技公司和人工智能推动者表示，像ChatGPT这样的工具还处于起步阶段。如果人工智能继续以我们在过去几年中看到的迅猛速度发展，像这样的检测方法是否会站得住脚，现在还无法说。大型语言模型越是接近于复制有血有肉的人类写作的杂音，就越难识别出机器人语言的痕迹。阅读文献：https://www.cell.com/cell-reports-physical-science/fulltext/S2666-3864(23)00200-X...PC版：https://www.cnbeta.com.tw/articles/soft/1364689.htm手机版：https://m.cnbeta.com.tw/view/1364689.htm

研究显示39%的人类程序员未能识别出ChatGPT的编程错误

研究显示39%的人类程序员未能识别出ChatGPT的编程错误普渡大学的研究小组在计算机-人交互大会上提交的报告指出，ChatGPT在回答517个StackOverflow编程问题时，错误率高达52%。研究将问题分为概念性、如何操作和调试三个子类别，并根据问题的流行度、类型和时效性进行了分析。结果显示，人类程序员在35%的情况下更倾向于ChatGPT提供的答案，然而，在39%的情况下，人类程序员未能识别出ChatGPT的错误答案。关注频道@ZaiHuaPd频道投稿@ZaiHuabot

挑战 Google 搜索？OpenAI 发布最强 AI 对话系统 ChatGPT

挑战Google搜索？OpenAI发布最强AI对话系统ChatGPT============玩了一下是真的强，还能写代码该快进到程序员不会吧，你真的哭了.jpghttps://blog.csdn.net/csdnnews/article/details/128151225=======来看看ai写代码https://twitter.com/tisoga/status/1599347662888882177?s=46&t=39AKBtH2PHw9C1eVTnZSfg

数据分析神器：ChatGPT 上线 GPT-4 以来最强应用“代码解释器”

数据分析神器：ChatGPT上线GPT-4以来最强应用“代码解释器”OpenAI的语言模型ChatGPT最近推出了新功能：代码解释器（CodeInterpreter）。这个新功能已经对所有Plus订阅用户开放，代码解释器扩展了ChatGPT的功能，为用户带来了更好的交互式编程体验和强大的数据可视化功能。有了它之后，即使不是程序员，只需要用自然语言向ChatGPT下达指令，也可以完成需要复杂编程技术的任务。使用代码解释器非常简单，用户只需点击ChatGPT平台上的个人资料名，从下拉菜单中进入设置，选择“Beta功能”，就可以找到代码解释器的选项，然后开启即可。代码解释器对于经常使用代码和数据的专业人士和爱好者都非常有用，这是一个多功能的工具，可以用于分析数据、创建图表、编辑文件、执行数学运算等等。——

ChatGPT: 编程语言+自然语言 = 软件 3.5？

1.软件1.0需要会写代码的程序员；2.软件2.0需要有数据有算力的公司；3.软件3.0只需会打字的普通人；如果我们把软件1.0+软件3.0称为软件3.5，随着ChatGPTAPI的开放，将会大大促进软件3.5应用的繁荣。本文介绍了从软件1.0到软件3.5的转变。除此之外：1.提供了一个用ChatGPT辅助英语阅读的prompt；2.把ChatGPT当成模拟器，设计一个prompt用于模拟gpt()的API，即模拟它自身的行为；3.并在ChatGPT模拟软件3.5，展示ChatGPT惊人的通用性，如实现递归。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人