ChatGPT通过美放射学委员会考试

ChatGPT通过美放射学委员会考试为评估ChatGPT在美国放射学委员会考试问题上的表现并探索其优势和局限性,多伦多大学研究人员首先测试了基于GPT-3.5的ChatGPT的表现。研究团队使用了150道选择题,这些选择题与加拿大皇家学院和美国放射学委员会考试的风格、内容和难度相当。这些问题不包括图像,分为低阶(知识回忆、基本理解)和高阶(应用、分析、综合)思维问题。高阶思维问题可进一步细分为影像学表现描述、临床管理、计算和分类、疾病关联。研究人员发现,基于GPT-3.5的ChatGPT的正确率为69%,接近70%的及格线。该模型在低阶思维问题上表现相对较好,正确率为84%,但回答高级思维问题时表现不佳,正确率仅为60%。而性能更优异的GPT-4的正确率为81%,且在高阶思维问题上的正确率为81%,远好于GPT-3.5。但GPT-4在低阶思维问题上的正确率仅为80%,答错了12道题,而GPT-3.5全部答对了这些题目,这引发了研究团队对GPT-4收集信息的可靠性的担忧。这两项研究都表明,ChatGPT会有提供不正确答案的倾向,如果仅仅依靠它获取信息,非常危险,因为人们可能意识不到其给出的答案是不准确的,这是它目前面临的最大的问题。...PC版:https://www.cnbeta.com.tw/articles/soft/1360277.htm手机版:https://m.cnbeta.com.tw/view/1360277.htm

相关推荐

封面图片

ChatGPT大战司法考试:无需微调,一类试题达到人类水平

ChatGPT大战司法考试:无需微调,一类试题达到人类水平“成绩”一出,瞬间引发巨大关注,网友:Amazing~还有人表示,要是让它来参加SAT或AP考试,应该会很有趣。咳咳,要是公务员考试呢?咱们结尾见分晓!两项法考试题合格具体就先来看看ChatGPT在司法考试中的表现如何。美国大多数州统一的司法考试(UBE),有三个组成部分:选择题(多州律师考试,MBE)、作文(MEE)、情景表现(MPT)。选择题部分,由来自8个类别的200道题组成,通常占整个律师考试分数的50%。在这项研究中,研究人员对OpenAI的text-davinci-003模型(通常被称为GPT-3.5)在MBE的表现进行评估。(ChatGPT正是GPT-3.5面向公众的聊天机器人版本。)为了测试实际效果,研究人员购买了官方组织提供的标准考试准备材料,包括练习题和模拟考试。每个问题的正文都是自动提取的,其中有四个多选选项,并与答案分开存储,答案仅由每个问题的正确字母答案组成,也没有对正确和错误的答案进行解释。随后,研究人员分别对GPT-3.5进行了提示工程、超参数优化以及微调的尝试。结果发现,超参数优化和提示工程对GPT-3.5的成绩表现有积极影响,而微调没有任何效果。在提示工程中,他们共测试了7种提示类型。1、只做单项选择;2、单项选择和解释;3、只做前两个选择;4、前两个选择和解释;5、前两个选择和重新提示;6、对所有选择进行排序;7、对前三个选择进行排序。研究人员在上述的提示和参数值中执行了107次样本考试。结果在这些提示中,提示风格#7的前三个选项排序表现最好,他们共收集了41个样本,对这个提示进行参数组合。超参数优化中,他们评估了包括温度系数、topp、bestof、maxtokens等参数。最终在完整的MBE练习考试中达到了50.3%的平均正确率,大大超过了25%的基线猜测率,并且在证据和侵权行为两个类型都达到了平均通过率。尤其是证据类别,与人类水平持平,保持着63%的准确率。在所有类别中,GPT平均落后于人类应试者约17%。在证据、侵权行为和民事诉讼的情况下,这一差距可以忽略不计或只有个位数。但总的来说,这一结果都大大超出了研究人员的预期。因为它对答案排序与正确性有很强的相关性,Top2和Top3的选择分别有71%和88%的正确率。其中“Top2”的准确率全都超过了极限,有五个类别均超过了人类平均水平。而“Top3”的准确度更高,在证据这一表现中甚至达到了98%。这也证实了它对法律领域的一般理解,而非随机猜测。接下来他们将进一步对法考的其他两部分:作文和情景表现进行上述的研究。ChatGPT能当考霸吗?Google资深软件工程师肯尼斯·古德曼(KennethS.Goodman)就拿ChatGPT做了一系列测试,涉及司法、医学、会计学、化学等多个领域。分数最高的一门是纽约州高中毕业英语语言艺术考试,ChatGPT正确率达到了91.6%。因为是2022年8月的考试,所以ChatGPT数据库中肯定不包含考试内容。对于陌生的24道考题,它只错了2题。物理/化学考试中,ChatGPT的表现也不错,正确率达到了77.7%,45道题目中答对了35道。前不久,Google医疗大模型Med-PaLM通过美国医师执照试题(USMLE)验证。ChatGPT也不甘于落后,同样挑战了USMLE的第一阶段基础医学考试。去掉有图像的题目后(因无法输入对话框),ChatGPT正确率达70%。其余则是在司法方面,工程师肯尼斯老哥让ChatGPT尝试了一些非正式题目。比如美国律师职业道德考试(MPRE)的示例题目(共15道),ChatGPT答对了9道,正确率60%。面对50道律师资格考试模拟试题,ChatGPT的正确率也维持在了70%,答对35道。此外,在佛罗里达农工大学法学院的入学考试中,ChatGPT取得了149分,排名在前40%。其中阅读理解类题目表现最好。表现最差的,还是数学题。在CPA注会考试中,ChatGPT的正确率只有40%。肯尼斯老哥还在尝试一些调教方法,让它更聪明一些。总之,ChatGPT在各种考试中的表现,还是让人有些意外。有网友已经产生危机感了:damn,我的工作要被抢了!有人分析,如果直接让AI来插手司法相关的判断,风险真的很大,但如果后期有专人来审核它的输出结果,那么AI将能够很好提升律师的工作效率。还有人表示,如果能保证任何数据都不泄露的话,那ChatGPT将能够推动更多行业平民化。或许正如肯尼斯老哥说的那样,人类+电脑的组合已经超越了人类自身能力,这就是计算机当下正在进行的突破。OneMoreThing最后,我们也让ChatGPT试了试国内法考的题目~先说结果,3道选择题,ChatGPT都没有答对……虽然解释得头头是道,但它应该确实没有读过我国的法条。参考答案D这答案罗翔老师看了直摇头参考答案A换成公务员行测试题呢?没想到ChatGPT的答案对了,可是过程和答案似乎完全没关系……这……怎么感觉AI秒算结果,但随便编了个过程来糊弄人类啊!...PC版:https://www.cnbeta.com.tw/articles/soft/1337469.htm手机版:https://m.cnbeta.com.tw/view/1337469.htm

封面图片

ChatGPT能通过CFA考试吗?摩根大通研究人员试图找寻答案

ChatGPT能通过CFA考试吗?摩根大通研究人员试图找寻答案研究人员在长达11页的报告中写道,“基于预估的通过率和平均自报分数,我们得出的结论是ChatGPT可能无法在所有测试环境下通过CFA一级和二级考试。如果有提示,GPT-4将有较大机会通过CFA一级和二级考试。”CFA协会负责教育的董事总经理ChrisWiese承认,大语言模型将有能力正确回答一些考试问题。他说该公司还在考虑使用一种大语言模型技术来帮助CFA考生。近年来CFA考试的通过率有下降趋势,8月份一级考试通胀率平均为37%,远低于2018年43%的平均水平。常见错误CFA一级考试有180道单选题,二级考试包括案例研究和88道选择题。研究人员发现,无论使用何种类型的提示,这两个大语言模型的二级考试结果都不理想。一级考试中,ChatGPT和GPT-4在衍生品、另类投资、股权投资和伦理道德这几个部分得分最高。这两款聊天机器人在财务报告分析和投资组合管理方面表现都相对较差。二级考试中,与GPT-4相比,ChatGPT在另类投资、固定收益工具这两个部分表现更差,ChatGPT在投资组合管理、经济学相关的领域得分高于GPT-4。ChatGPT的大多数错误是基于知识性,而GPT-4最常犯的是计算错误。研究人员发现GPT-4比ChatGPT更容易出现推理错误。...PC版:https://www.cnbeta.com.tw/articles/soft/1394003.htm手机版:https://m.cnbeta.com.tw/view/1394003.htm

封面图片

ChatGPT 是如何构建的

ChatGPT是如何构建的当OpenAI在2022年11月发布ChatGPT时它并没有预料到这个AI聊天机器人会取得难以想象的成功。OpenAI内部将之视为研究预览,旨在收集公众的反馈消除部分缺陷。参与开发ChatGPT的科学家LiamFedus说,我们不想将其夸大为一次巨大的基础性突破。MIT科技评论采访了OpenAI的科学家以及联合创始人JohnSchulman,揭示ChatGPT的开发过程和技术细节,介绍ChatGPT是如何构建的。自去年11月以来,OpenAI已经多次更新了ChatGPT,主要是通过对抗性训练阻止用户诱骗聊天机器人绕过限制——这种做法被称为越狱。对于ChatGPT的巨大成功,OpenAI团队也有几分感到不解,因为ChatGPT使用的技术都不是新的,ChatGPT使用了微调版的GPT-3.5,而GPT-3.5是2020年发布的GPT-3的更新版,OpenAI在2022年1月发布了微调版GPT-3.5的预览。相关API也早就发布了,不过这些都不是面向公众的。来源,来自:雷锋频道:@kejiqu群组:@kejiquchat投稿:@kejiqubot

封面图片

Stack Overflow 临时封杀 ChatGPT

StackOverflow临时封杀ChatGPTOpenAI的新通用聊天机器人原型ChatGPT过去几天风靡一时,它在解决各种问题上的能力使其可以成为Google等搜索引擎和StackOverflow等编程问答社区的部分替代。StackOverflow上也涌入了大量用ChatGPT回答的问题。StackOverflow社区现在发表了一则声明,宣布临时封杀ChatGPT。StackOverflow称ChatGPT答案的正确率非常低,因此对整个网站以及寻求正确答案的用户来说是有害的。如果用户被发现使用ChatGPT回答问题,他们可能会受到禁止继续发帖的惩罚。来源,来自:雷锋频道:@kejiqu群组:@kejiquchat投稿:@kejiqubot

封面图片

注册ChatGPT全攻略

注册ChatGPT全攻略前段时间ChatGPT还是比较热门的,由OpenAI开发的一个人工智能聊天机器人程序,于2022年11月推出。该程序使用基于GPT-3.5架构的大型语言模型并通过强化学习进行训练。可以用来写代码、提问题、写报告等等完成各种任务。鉴于国内新手用户在注册ChatGPT时候遇到的种种问题,如果动手能力不强,可以参考这份由作者@BoxMrChen写的:注册ChatGPT全攻略,希望对你有用。注册ChatGPT全攻略地址地址:注册ChatGPT全攻略https://mirror.xyz/boxchen.eth/9O9CSqyKDj4BKUIil7NC1Sa1LJM-3hsPqaeW_QjfFBc

封面图片

ChatGPT for Android 现支持 play 商店内购

ChatGPTforAndroid现支持play商店内购适用于Android的ChatGPT客户端现支持play商店内购。在最新更新中,左侧侧边栏中,多了“FreePlan”按钮,点击后即可进入订阅页。现有特权:1、Plus订阅者可以访问GPT-4和最新的测试版功能。2、优先访问。3、使用GPT-3.5时,享受更快的响应速度。下载链接:https://play.google.com/store/apps/details?id=com.openai.chatgpt加入beta测试:https://play.google.com/apps/testing/com.openai.chatgpt

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人