GPT-4满分通过MIT本科数学考试这套提示词火了

GPT-4满分通过MIT本科数学考试这套提示词火了要知道，测出这个结果的不是别人，正是来自MIT和波士顿大学、康奈尔大学的研究团队。而且强如上一代王者GPT-3.5，在同样的测试中，只成功搞定了三分之一。论文一出，无数目光迅速被吸引过来。GPT-4这样看似开挂的行为，自然引发了不少网友的感慨。比GPT-3.5强好多，好耶！咱就是说，有没有可能以后不需要比GPT-4更强的模型，来解决学术问题了？还有网友展现了自己网上冲浪的“前沿性”，玩了个这两天YannLeCun吐槽“GPT-4智商不如狗”的梗：GPT-4开挂MIT考试具体来说，GPT-4这次是参与了这样一场测试：研究团队策划了一个数据集，其中包含4550个问题和解决方案。这4550个问题和解决方案，来自MIT数学系和EECS的学生获得本科学位，需要学习的课程问题集、期中考试和期末考试。包括：6-1：电气科学与工程；6-2：电气工程与计算机科学；6-3：计算机科学与工程；6-4：人工智能与决策；18-1：普通数学；18-2：应用数学；18-3：纯数学；18-C：数学与计算机科学。题目统统出自MIT的数据集，从中随机生成228个问题，不涉及图像和已有解决方案的问题。题目的难度等级由易到难依次为：练习、习题、期中考试、期末考试、实验和专题。按答案类型排序，题目的难度由易到难依次为：编程、开放、选择题、数值、表达式和图像。这一次，参与考试的不只有GPT-4和GPT-3.5，还有StableVicuna-13B、LLaMA-30B和LLaMA-60B。选择让这4个大模型作为考试参赛选手，原因是它们是“最先进的大语言模型”。通过表格里的数据可以看到，得分最高的是经过调优后的GPT-4，得分率100%；表现最一般的是LLaMA-30B，只拿下了30%的分数。值得关注的是，原始版本的GPT-4开箱即用，完全不经过调优，在本次MIT考试中也拿到了90%的分数。调优流程，包括Few-Shot+CoT+Self-critique+Experts。从最终考试成绩的表格数据可以看到，从左到右每增加一个环节，调优后的GPT-4得分都会更上一层楼。此外，研究团队还在提示框里进行了工程优化，具体的“咒语”如下：等等，评分人是GPT-4自己？看到这样的结果，不少网友心生感慨，LLM在数学考试上的进步，未免有些神速了哈。2年前，AI还在苦苦挣扎小学数学问题。类似“小明种了5棵柠檬树，每年从每棵树上得到6个柠檬，10年间他总共得到多少柠檬”这种。去年年初，MIT+哈佛+哥伦比亚大学+滑铁卢大学的联合研究表示，把数学问题转换成等价的编程问题，就可以让GPT-3的同门师兄弟——OpenAI的Codex掌握高数，达到MIT本科水平。学了6门MIT本科基础数学课里随机抽取的例题，6门课程每门随机出25道题，再加上一个ACT水平（美国高考）的数据集里的60道题。总计210道题，AI全部答对。不过有人提出，AI达到的“MIT本科水平”，实际是Codex在做语言题而非数学题——因为当时的评测中，Codex负责读写，并不包括求解。所以，这一回GPT-4表现奇佳，怎一个妙字了得~好了，知道你很着急夸它，但你先别着急夸它，因为很快有人发现了一些“诡异”。主要有2大槽点。第一个值得质疑一番的，就是OpenAI的训练数据集没有完全公布。这也就意味着，无法证明数据集中的4550个问题和解决方案，在GPT-4的训练集中不存在。换句话说，如果GPT-4在预训练阶段已经接触到了这次的考题们，那最终拿下完美得分，就没什么好惊喜的了。也难怪乎有网友毫不客气地yygq，认定GPT-4拿到这样的结果，一定是数据集已经包含在训练数据里了。第二个槽点，就是GPT-4最后100%的得分率，似乎哪里不对劲？？？定睛一看，在论文的第2.6节有一句很关键的点：团队在数据集上微调开源大模型，“给定问题Q、基本事实解S和LLM答案A，我们使用GPT-4自动对模型响应进行评分”。实际操作上，就是每个大模型生成这次考试的答案，然后派出GPT-4打分，分值在0-5之间。所以给GPT-4打出满分的，实际上是GPT-4自己。啊这……很难说没有王婆卖瓜自卖自夸的嫌疑。此外，关于要给GPT-4提供“好的提示”，才能让它达到满分成绩，也让许多人抱有微词。到底什么算“好的提示”呢？似乎无法定义。甚至有人喊着，应该把这些题丢给MIT数学和EECS的学生去做，并不断给他们“好的提示”，这样人类学生也能拿下100%的吧……OneMoreThing一个小小的彩蛋：整个测试中，基本上可以在笔记本电脑上部署运行的StableVicuna-13B，也有48%的得分率。这个成绩，不仅比模型更大的LLaMA-65B高出近10个百分点，就连MITfine-tuing过后的LLaMA-30B，还要高。让人不得不陷入一些关于模型规模与能力相关性的思考参考链接：[1]https：//arxiv.org/abs/2306.08997[2]https：//twitter.com/johnjnay/status/1669687958960586753[3]https：//twitter.com/arankomatsuzaki/status/1669528841629601792[4]https：//twitter.com/emollick/status/1669742473097228292...PC版：https://www.cnbeta.com.tw/articles/soft/1365793.htm手机版：https://m.cnbeta.com.tw/view/1365793.htm

在Telegram中查看

相关推荐

OpenAI公布GPT-4：更强更可靠可在考试中超过90%的人类

OpenAI公布GPT-4：更强更可靠可在考试中超过90%的人类OpenAI于2020年发布了GPT（生成型预训练变换模型）-3（生成型预训练变换模型），并将其与GPT-3.5分别用于创建Dall-E和聊天机器人ChatGPT，这两款产品极大地吸引了公众的关注，并刺激其他科技公司更积极地追求人工智能（AI）。OpenAI周二表示，在内部评估中，相较于GPT-3.5，GPT-4产生正确回应的可能性要高出40%。而且GPT-4是多模态的，同时支持文本和图像输入功能。OpenAI称，GPT-4比以前的版本“更大”，这意味着其已经在更多的数据上进行了训练，并且在模型文件中有更多的权重，这使得它的运行成本更高。据OpenAI介绍，在某些情况下，GPT-4比之前的GPT-3.5版本有了巨大改进，新模型将产生更少的错误答案，更少地偏离谈话轨道，更少地谈论禁忌话题，甚至在许多标准化测试中比人类表现得更好。例如，GPT-4在模拟律师资格考试的成绩在考生中排名前10%左右，在SAT阅读考试中排名前7%左右，在SAT数学考试中排名前11%左右。OpenAI表示，虽然两个版本在日常对话中看起来很相似，但当任务复杂到一定程度时，差异就表现出来了，GPT-4更可靠、更有创造力，能够处理更微妙的指令。不过，OpenAI也警告称，GPT-4还不完美，在许多情况下，它的能力不如人类。该公司表示：“GPT-4仍有许多已知的局限性，我们正在努力解决，比如社会偏见、幻觉和对抗性提示。”OpenAI透露，摩根士丹利正在使用GPT-4来组织数据，而电子支付公司Stripe正在测试GPT-4是否有助于打击欺诈。其他客户还包括语言学习公司Duolingo、KhanAcademy和冰岛政府。OpenAI合作伙伴微软周二表示，新版必应搜索引擎将使用GPT-4。...PC版：https://www.cnbeta.com.tw/articles/soft/1349455.htm手机版：https://m.cnbeta.com.tw/view/1349455.htm

ChatGPT能通过CFA考试吗？摩根大通研究人员试图找寻答案

ChatGPT能通过CFA考试吗？摩根大通研究人员试图找寻答案研究人员在长达11页的报告中写道，“基于预估的通过率和平均自报分数，我们得出的结论是ChatGPT可能无法在所有测试环境下通过CFA一级和二级考试。如果有提示，GPT-4将有较大机会通过CFA一级和二级考试。”CFA协会负责教育的董事总经理ChrisWiese承认，大语言模型将有能力正确回答一些考试问题。他说该公司还在考虑使用一种大语言模型技术来帮助CFA考生。近年来CFA考试的通过率有下降趋势，8月份一级考试通胀率平均为37%，远低于2018年43%的平均水平。常见错误CFA一级考试有180道单选题，二级考试包括案例研究和88道选择题。研究人员发现，无论使用何种类型的提示，这两个大语言模型的二级考试结果都不理想。一级考试中，ChatGPT和GPT-4在衍生品、另类投资、股权投资和伦理道德这几个部分得分最高。这两款聊天机器人在财务报告分析和投资组合管理方面表现都相对较差。二级考试中，与GPT-4相比，ChatGPT在另类投资、固定收益工具这两个部分表现更差，ChatGPT在投资组合管理、经济学相关的领域得分高于GPT-4。ChatGPT的大多数错误是基于知识性，而GPT-4最常犯的是计算错误。研究人员发现GPT-4比ChatGPT更容易出现推理错误。...PC版：https://www.cnbeta.com.tw/articles/soft/1394003.htm手机版：https://m.cnbeta.com.tw/view/1394003.htm

GPT-4相关能力的总结：

GPT-4相关能力的总结：-支持多模态输入：GPT-4的API可以接受图像，并生成相应的字幕，并对图像进行分析。-在BAR考试中取得优异成绩：GPT-4取得了BAR90分（满分一百），同时在生物奥林匹克竞赛的视觉题方面获得了99分，其推理能力远超ChatGPT。-超大上下文：GPT-4支持25,000个单词的上下文，可以使得完整的文档适合于一个提示符内。-更具创造性和协作性：与用户协作生成、编辑和迭代写作任务，具有更高的创造性和协作性。-多个合作伙伴正在测试GPT-4：Duolingo、BeMyEyes、Stripe、摩根士丹利、可汗学院等，甚至包括冰岛政府。相关链接：https://openai.com/product/gpt-4

OpenAI 发布新一代大型多模态模型 GPT-4

OpenAI发布新一代大型多模态模型GPT-4GPT-4是一个大型多模态模型，可以接受文本和图像输入。GPT-4在各种专业学术基准上有着人类水平表现，例如模拟律师考试中，GPT-4的得分约为前10%，而GPT-3.5的得分约为倒数10%。在多语言测试中，GPT-4优于GPT-3.5和Chinchilla(来自DeepMind)还有PaLM(来自谷歌)，包括英语性能还有拉脱维亚语、威尔士语和斯瓦希里语等低资源语言。OpenAI还开放了角色扮演和性格定制能力，开发人员和用户可以自定义他们的AI风格，而不是具有固定冗长、语气和风格的经典ChatGPT个性。ChatGPTPlus订阅用户现可直接GPT-4，未来将对免费用户开放一定数量的GPT-4体验。GPT-4API需要候选名单，每1kprompttokens的价格为$0.03，每1kcompletiontokens的价格为$0.06。目前图像输入处在研究预览阶段，仅对少部分客户开放。微软在GPT-4发布后也正式BingChat基于GPT-4运行，同时BingChat的Edge边栏功能上线。与数据停留在2021年9月的GPT-4离线版本不同，BingChat可联网获取实时信息并且免费。——投稿：@ZaiHuabot频道：@TestFlightCN

OpenAI最新“神”操作：让GPT-4去解释GPT-2的行为

OpenAI最新“神”操作：让GPT-4去解释GPT-2的行为即：让一个AI“黑盒”去解释另一个AI“黑盒”。工作量太大，决定让GPT-4去解释GPT-2OpenAI之所以做这项研究的原因，在于近来人们对AI伦理与治理的担忧：“语言模型的能力越来越强，部署也越来越广泛，但我们对其内部工作方式的理解仍然非常有限。”由于AI的“黑盒”性质，人们很难分辨大模型的输出结果是否采用了带有偏见性质的方法，也难以区分其正确性，因而“可解释性”是亟待重要的一个问题。AI的发展很大程度上是在模仿人类，因而大模型和人脑一样，也由神经元组成，它会观察文本规律进而影响到输出结果。所以想要研究AI的“可解释性”，理论上要先了解大模型的各个神经元在做什么。按理来说，这本应由人类手动检查，来弄清神经元所代表的数据特征——参数量少还算可行，可对于如今动辄百亿、千亿级参数的神经网络，这个工作量显然过于“离谱”了。于是，OpenAI灵机一动：或许，可以用“魔法”打败“魔法”？“我们用GPT-4为大型语言模型中的神经元行为自动编写解释，并为这些解释打分。”而GPT-4首次解释的对象是GPT-2，一个OpenAI发布于4年前、神经元数量超过30万个的开源大模型。让GPT-4“解释”GPT-2的原理具体来说，让GPT-4“解释”GPT-2的过程，整体分为三个步骤。（1）首先，让GPT-4生成解释，即给出一个GPT-2神经元，向GPT-4展示相关的文本序列和激活情况，产生一个对其行为的解释。如上图所示，GPT-4对GPT-2该神经元生成的解释为：与电影、人物和娱乐有关。（2）其次，再次使用GPT-4，模拟被解释的神经元会做什么。下图即GPT-4生成的模拟内容。（3）最后，比较GPT-4模拟神经元的结果与GPT-2真实神经元的结果，根据匹配程度对GPT-4的解释进行评分。在下图展示的示例中，GPT-4得分为0.34。通过这样的方法，OpenAI共让GPT-4解释了GPT-2中的307200个神经元，其中大多数解释的得分很低，只有超过1000个神经元的解释得分高于0.8。在官博中，OpenAI承认目前GPT-4生成的解释并不完美，尤其在解释比GPT-2规模更大的模型时，效果更是不佳：“可能是因为后面的layer更难解释。”尽管绝大多数解释的得分不高，但OpenAI认为，“即使GPT-4给出的解释比人类差，但也还有改进的余地”，未来通过ML技术可提高GPT-4的解释能力，并提出了三种提高解释得分的方法：对解释进行迭代，通过让GPT-4想出可能的反例，根据其激活情况修改解释来提高分数。使用更大的模型来进行解释，平均得分也会上升。调整被解释模型的结构，用不同的激活函数训练模型。值得一提的是，以上这些解释数据集、可视化工具以及代码，OpenAI都已在GitHub上开源发布：“我们希望研究界能开发出新技术以生成更高分的解释，以及更好的工具来使用解释探索GPT-2。”（GitHub地址：https://github.com/openai/automated-interpretability）“再搞下去，AI真的要觉醒了”除此之外，OpenAI还提到了目前他们采取的方法有很多局限性，未来需要一一攻克：GPT-4给出的解释总是很简短，但神经元可能有着非常复杂的行为，不能简洁描述。当前的方法只解释了神经元的行为，并没有涉及下游影响，希望最终能自动化找到并解释能实现复杂行为的整个神经回路。只解释了神经元的行为，并没有解释产生这种行为的背后机制。整个过程都是相当密集的计算，算力消耗很大。在博文的最后，OpenAI展望道：“我们希望将我们最大的模型解释为一种在部署前后检测对齐和安全问题的方式。然而，在这些技术能够揭露不诚实等行为之前，我们还有很长的路要走。”对于OpenAI的这个研究成果，今日在国内外各大技术平台也引起了广泛关注。有人在意其得分不佳：“对GPT-2的解释都不行，就更不知道GPT-3和GPT-4内部发生了什么，但这才是许多人更关注的答案。”有人感慨AI进化的方式愈发先进：“未来就是用AI完善AI模型，会加速进化。”也有人担心AI进化的未来：“再搞下去，AI真的要觉醒了。”那么对此，你又有什么看法呢？...PC版：https://www.cnbeta.com.tw/articles/soft/1359101.htm手机版：https://m.cnbeta.com.tw/view/1359101.htm

OpenAI正式推出GPT-4 提供文本图像综合访问能力

OpenAI正式推出GPT-4提供文本图像综合访问能力在一系列领域--包括带有文字和照片、图表或屏幕截图的文件--GPT-4表现出与纯文本输入类似的能力。此外，它还可以使用为纯文本语言模型开发的测试时间技术，包括少数几个镜头和思维链提示。坏消息是，图像输入目前还没有向公众开放，因为它们处于"研究预览"模式。目前还没有关于何时能普遍使用的消息。新版本还将允许用户改变GPT-4答案的语气，博文指出：与经典的ChatGPT个性的固定言辞、语气和风格不同，开发者（以及很快ChatGPT用户）现在可以通过在"系统"消息中描述这些方向来规定他们的人工智能的风格和任务。系统消息允许API用户在一定范围内大幅定制他们的用户体验。该博客还展示了一些性能图表来说明GPT-4的改进。在一个案例中，OpenAI让聊天机器人参加了一些模拟考试。我们通过使用最新的公开测试（就奥林匹克数学和AP自由回答问题而言）或购买2022-2023年版本的练习考试来进行，我们没有为这些考试做专门的培训。上图显示，与GPT-3.5相比，GPT-4在大多数情况下提供的考试成绩要好得多与以前的版本一样，GPT-4在获取更多的最新科目信息方面是有限的，因为它只能回溯到2021年9月。OpenAI还表示，新版本"相对于以前的模型，大大减少了信口开河的现象"，但它"并不完全可靠"。如果他们注册了一个等待名单，GPT-4的API目前可供开发者使用，普通人如果注册了ChatGPTPlus，就可以在有限的基础上访问GPT-4，该费用为每月20美元。博文提到，OpenAI可能会推出另一个订阅级别，允许更多的人访问。...PC版：https://www.cnbeta.com.tw/articles/soft/1349447.htm手机版：https://m.cnbeta.com.tw/view/1349447.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人