ChatGPT大战司法考试:无需微调,一类试题达到人类水平

ChatGPT大战司法考试:无需微调,一类试题达到人类水平“成绩”一出,瞬间引发巨大关注,网友:Amazing~还有人表示,要是让它来参加SAT或AP考试,应该会很有趣。咳咳,要是公务员考试呢?咱们结尾见分晓!两项法考试题合格具体就先来看看ChatGPT在司法考试中的表现如何。美国大多数州统一的司法考试(UBE),有三个组成部分:选择题(多州律师考试,MBE)、作文(MEE)、情景表现(MPT)。选择题部分,由来自8个类别的200道题组成,通常占整个律师考试分数的50%。在这项研究中,研究人员对OpenAI的text-davinci-003模型(通常被称为GPT-3.5)在MBE的表现进行评估。(ChatGPT正是GPT-3.5面向公众的聊天机器人版本。)为了测试实际效果,研究人员购买了官方组织提供的标准考试准备材料,包括练习题和模拟考试。每个问题的正文都是自动提取的,其中有四个多选选项,并与答案分开存储,答案仅由每个问题的正确字母答案组成,也没有对正确和错误的答案进行解释。随后,研究人员分别对GPT-3.5进行了提示工程、超参数优化以及微调的尝试。结果发现,超参数优化和提示工程对GPT-3.5的成绩表现有积极影响,而微调没有任何效果。在提示工程中,他们共测试了7种提示类型。1、只做单项选择;2、单项选择和解释;3、只做前两个选择;4、前两个选择和解释;5、前两个选择和重新提示;6、对所有选择进行排序;7、对前三个选择进行排序。研究人员在上述的提示和参数值中执行了107次样本考试。结果在这些提示中,提示风格#7的前三个选项排序表现最好,他们共收集了41个样本,对这个提示进行参数组合。超参数优化中,他们评估了包括温度系数、topp、bestof、maxtokens等参数。最终在完整的MBE练习考试中达到了50.3%的平均正确率,大大超过了25%的基线猜测率,并且在证据和侵权行为两个类型都达到了平均通过率。尤其是证据类别,与人类水平持平,保持着63%的准确率。在所有类别中,GPT平均落后于人类应试者约17%。在证据、侵权行为和民事诉讼的情况下,这一差距可以忽略不计或只有个位数。但总的来说,这一结果都大大超出了研究人员的预期。因为它对答案排序与正确性有很强的相关性,Top2和Top3的选择分别有71%和88%的正确率。其中“Top2”的准确率全都超过了极限,有五个类别均超过了人类平均水平。而“Top3”的准确度更高,在证据这一表现中甚至达到了98%。这也证实了它对法律领域的一般理解,而非随机猜测。接下来他们将进一步对法考的其他两部分:作文和情景表现进行上述的研究。ChatGPT能当考霸吗?Google资深软件工程师肯尼斯·古德曼(KennethS.Goodman)就拿ChatGPT做了一系列测试,涉及司法、医学、会计学、化学等多个领域。分数最高的一门是纽约州高中毕业英语语言艺术考试,ChatGPT正确率达到了91.6%。因为是2022年8月的考试,所以ChatGPT数据库中肯定不包含考试内容。对于陌生的24道考题,它只错了2题。物理/化学考试中,ChatGPT的表现也不错,正确率达到了77.7%,45道题目中答对了35道。前不久,Google医疗大模型Med-PaLM通过美国医师执照试题(USMLE)验证。ChatGPT也不甘于落后,同样挑战了USMLE的第一阶段基础医学考试。去掉有图像的题目后(因无法输入对话框),ChatGPT正确率达70%。其余则是在司法方面,工程师肯尼斯老哥让ChatGPT尝试了一些非正式题目。比如美国律师职业道德考试(MPRE)的示例题目(共15道),ChatGPT答对了9道,正确率60%。面对50道律师资格考试模拟试题,ChatGPT的正确率也维持在了70%,答对35道。此外,在佛罗里达农工大学法学院的入学考试中,ChatGPT取得了149分,排名在前40%。其中阅读理解类题目表现最好。表现最差的,还是数学题。在CPA注会考试中,ChatGPT的正确率只有40%。肯尼斯老哥还在尝试一些调教方法,让它更聪明一些。总之,ChatGPT在各种考试中的表现,还是让人有些意外。有网友已经产生危机感了:damn,我的工作要被抢了!有人分析,如果直接让AI来插手司法相关的判断,风险真的很大,但如果后期有专人来审核它的输出结果,那么AI将能够很好提升律师的工作效率。还有人表示,如果能保证任何数据都不泄露的话,那ChatGPT将能够推动更多行业平民化。或许正如肯尼斯老哥说的那样,人类+电脑的组合已经超越了人类自身能力,这就是计算机当下正在进行的突破。OneMoreThing最后,我们也让ChatGPT试了试国内法考的题目~先说结果,3道选择题,ChatGPT都没有答对……虽然解释得头头是道,但它应该确实没有读过我国的法条。参考答案D这答案罗翔老师看了直摇头参考答案A换成公务员行测试题呢?没想到ChatGPT的答案对了,可是过程和答案似乎完全没关系……这……怎么感觉AI秒算结果,但随便编了个过程来糊弄人类啊!...PC版:https://www.cnbeta.com.tw/articles/soft/1337469.htm手机版:https://m.cnbeta.com.tw/view/1337469.htm

相关推荐

封面图片

ChatGPT通过美放射学委员会考试

ChatGPT通过美放射学委员会考试为评估ChatGPT在美国放射学委员会考试问题上的表现并探索其优势和局限性,多伦多大学研究人员首先测试了基于GPT-3.5的ChatGPT的表现。研究团队使用了150道选择题,这些选择题与加拿大皇家学院和美国放射学委员会考试的风格、内容和难度相当。这些问题不包括图像,分为低阶(知识回忆、基本理解)和高阶(应用、分析、综合)思维问题。高阶思维问题可进一步细分为影像学表现描述、临床管理、计算和分类、疾病关联。研究人员发现,基于GPT-3.5的ChatGPT的正确率为69%,接近70%的及格线。该模型在低阶思维问题上表现相对较好,正确率为84%,但回答高级思维问题时表现不佳,正确率仅为60%。而性能更优异的GPT-4的正确率为81%,且在高阶思维问题上的正确率为81%,远好于GPT-3.5。但GPT-4在低阶思维问题上的正确率仅为80%,答错了12道题,而GPT-3.5全部答对了这些题目,这引发了研究团队对GPT-4收集信息的可靠性的担忧。这两项研究都表明,ChatGPT会有提供不正确答案的倾向,如果仅仅依靠它获取信息,非常危险,因为人们可能意识不到其给出的答案是不准确的,这是它目前面临的最大的问题。...PC版:https://www.cnbeta.com.tw/articles/soft/1360277.htm手机版:https://m.cnbeta.com.tw/view/1360277.htm

封面图片

ChatGPT能通过CFA考试吗?摩根大通研究人员试图找寻答案

ChatGPT能通过CFA考试吗?摩根大通研究人员试图找寻答案研究人员在长达11页的报告中写道,“基于预估的通过率和平均自报分数,我们得出的结论是ChatGPT可能无法在所有测试环境下通过CFA一级和二级考试。如果有提示,GPT-4将有较大机会通过CFA一级和二级考试。”CFA协会负责教育的董事总经理ChrisWiese承认,大语言模型将有能力正确回答一些考试问题。他说该公司还在考虑使用一种大语言模型技术来帮助CFA考生。近年来CFA考试的通过率有下降趋势,8月份一级考试通胀率平均为37%,远低于2018年43%的平均水平。常见错误CFA一级考试有180道单选题,二级考试包括案例研究和88道选择题。研究人员发现,无论使用何种类型的提示,这两个大语言模型的二级考试结果都不理想。一级考试中,ChatGPT和GPT-4在衍生品、另类投资、股权投资和伦理道德这几个部分得分最高。这两款聊天机器人在财务报告分析和投资组合管理方面表现都相对较差。二级考试中,与GPT-4相比,ChatGPT在另类投资、固定收益工具这两个部分表现更差,ChatGPT在投资组合管理、经济学相关的领域得分高于GPT-4。ChatGPT的大多数错误是基于知识性,而GPT-4最常犯的是计算错误。研究人员发现GPT-4比ChatGPT更容易出现推理错误。...PC版:https://www.cnbeta.com.tw/articles/soft/1394003.htm手机版:https://m.cnbeta.com.tw/view/1394003.htm

封面图片

中国AI大战高考物理 第1题全对,第2题开始放飞

中国AI大战高考物理第1题全对,第2题开始放飞考题方面,先给大模型们来一份辽宁物理——多解释一嘴,新高考改革下大部分省份已经取消了文理分科,采用3+1+2或3+3的新模式,也就是物理化学生物现在是拆开考的。那么闲话少叙,我们有请参赛AI助手——通义千问、文心一言、Kimi、智谱清言、豆包、海螺AI、腾讯元宝、讯飞星火、天工、百小应、万知、商量。Round1:单选题这份物理卷共有10道选择题,其中1-7题为单选题,总计28分。1、3两题不涉及图片解析,人类考官直接把题目扔给了大模型:图片题给出的提示词统一为:查看图中题目,给出答案。在看详细答案之前,心急的看官们可以先扫一眼“考试”结果(测试方法比较简单粗暴,不能完全反映各AI真实水平,仅图一乐):文心一言、豆包、天工、智谱清言和商量出现了不同程度读图失败的问题,在成功识别的题目中,商量和文心一言的正确率为2/4,豆包、天工、智谱清言正确率为1/2。接下来,就来看看大模型们的具体表现。单选题中,准确率最高的是第一题,一道有关标量矢量的概念题,参赛大模型百分百通过。到了第二题,大模型们就开始各有各的想法了。题目是:来看看成功得分的选手们的回答:通义千问文心一言海螺AI讯飞星火4位选手中,文心一言和讯飞星火进行了逐个答案的分析,海螺AI则最言简意赅,只回答了答案没给过程。另一道正确率比较高的题,是难度较大的第5题。但答对这道题的选手名单有所不同,讯飞星火、海螺AI依然在列,另外两位换成了Kimi和腾讯元宝。Kimi腾讯元宝和海螺AI一样,腾讯元宝也是惜字如金型(doge)。另外一个有意思的现象是,有的大模型选手尽管答案不对,但还挺有考试技巧的。比如ChatGLM,在面对双缝干涉实验中,“哪种说法可以使相邻两条亮纹中央间距变小”这个问题时,它一通分析觉得答案全错,但还是退而求其次挑了一个看上去相对正确的答案。Round2:多选题再来看看多选题(18分)的情况。p.s.在多选题作答过程中,人类考官在提示词中提醒了选手们这是“多选题”。根据多选题判卷规则,全部选对得满分,部分选对得一半分,有选错不得分,表现最佳的是海螺AI(2道题全对,1道题部分对),其次是通义千问、文心一言和万知(1道题全对,2道题部分对)。和单选题的情况类似,大模型们正确率最高的第8题是一道概念题:X射线光电子能谱仪是利用X光照射材料表面激发出光电子,并对光电子进行分析的科研仪器,用某一频率的X光照射某金属表面,逸出了光电子,若增加此X光的强度,则()A.该金属的逸出功增大B.X光的光子能量不变C.逸出的光电子最大初动能增大D.单位时间逸出的光电子增多第9题有两位选手选中了全部正确选项:海螺AI和万知。来看看万知的具体回答:今日份的测试,就先到这里,你觉得大模型们的表现如何?至少在这份物理卷子46分的选择题里,还是有不少选手能拿到及格分了。...PC版:https://www.cnbeta.com.tw/articles/soft/1434214.htm手机版:https://m.cnbeta.com.tw/view/1434214.htm

封面图片

Stack Overflow 临时封杀 ChatGPT

StackOverflow临时封杀ChatGPTOpenAI的新通用聊天机器人原型ChatGPT过去几天风靡一时,它在解决各种问题上的能力使其可以成为Google等搜索引擎和StackOverflow等编程问答社区的部分替代。StackOverflow上也涌入了大量用ChatGPT回答的问题。StackOverflow社区现在发表了一则声明,宣布临时封杀ChatGPT。StackOverflow称ChatGPT答案的正确率非常低,因此对整个网站以及寻求正确答案的用户来说是有害的。如果用户被发现使用ChatGPT回答问题,他们可能会受到禁止继续发帖的惩罚。来源,来自:雷锋频道:@kejiqu群组:@kejiquchat投稿:@kejiqubot

封面图片

ChatGPT参加美执业医师资格考试 成绩合格

ChatGPT参加美执业医师资格考试成绩合格“在这项出了名难的专业考试中取得合格分数,并且在没有任何人类增援的情况下做到这一点,这是人工智能在临床领域走向成熟的一个显著里程碑。”据了解,总部设在加利福尼亚州的安西布尔健康公司的研究人员测试了ChatGPT在考试中的表现。在考试的三个部分中,ChatGPT的得分在52.4%至75%之间。考题中还包括开放式提问,比如“根据所提供的信息,患者的诊断结果是怎样的?”也有多个选择题,比如:“患者的病情主要是由以下哪一种病原体引起的?”研究作者们表示,这些成绩表明,大型语言模型可能有助于医学教育,也可能有助于临床决策。当然,ChatGPT目前以提供信息和答案为主,还不能代替医院临床药师的工作。在此之前,ChatGPT成功通过了谷歌的面试,拿到了年薪18万美元的L3工程师offer。据一份内部文件显示,在谷歌的编程面试中,ChatGPT的表现很是惊艳。虽然L3只是谷歌工程团队的最入门的职级,但依然可以秒杀一众码农。...PC版:https://www.cnbeta.com.tw/articles/soft/1343775.htm手机版:https://m.cnbeta.com.tw/view/1343775.htm

封面图片

ChatGPT 的编程问题正确率比抛硬币还低

ChatGPT的编程问题正确率比抛硬币还低普渡大学的一项研究显示,OpenAI的聊天机器人ChatGPT在回答软件编程问题时,有一半以上的时间会回答错误。尽管如此,该机器人的说服力足以骗过三分之一的参与者。普渡大学团队分析了ChatGPT对517个StackOverflow问题的回答,以评估ChatGPT回答的正确性、一致性、全面性和简洁性。美国学者还对答案进行了语言和情感分析,并就模型生成的结果询问了十几名志愿参与者。“我们的分析表明,52%的ChatGPT答案是错误的,77%是冗长的,”该团队的论文总结道。“尽管如此,ChatGPT答案仍有39.34%的时间因其全面性和清晰的语言风格而受到青睐。”“在研究过程中,我们观察到,只有当ChatGPT答案中的错误很明显时,用户才能识别出错误,”论文中说到。“然而,当错误不容易验证或需要外部IDE或文档时,用户往往无法识别错误或低估答案的错误程度。”论文称,即使答案存在明显错误,12名参与者中仍有两人将答案标记为首选。——、

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人