GPT-4不会图形推理？“放水”后准确率依然只有33%

GPT-4不会图形推理？“放水”后准确率依然只有33%△虚线表示16项任务的平均表现这项实验结果发表后，迅速在YC上引发了广泛热议。赞同这项结果的网友表示，GPT确实不擅长抽象图形处理，“位置”“旋转”等概念理解起来更加困难。但另一边，不少网友对这个结论也有所质疑，简单说就是：不能说是错的，但说完全正确也无法让人信服。至于具体的原因，我们继续往下看。GPT-4准确率仅33%为了评估人类和GPT-4在这些图形题上的表现，研究者使用了自家机构于今年5月推出的ConceptARC数据集。ConceptARC中一共包括16个子类的图形推理题，每类30道，一共480道题目。这16个子类涵盖了位置关系、形状、操作、比较等多个方面的内容。具体而言，这些题目都是由一个个像素块组成的，人类和GPT需要根据给定的示例寻找出规律，分析出图像经过相同方式处理后的结果。作者在论文中具体展示了这16个子类的例题，每类各一道。结果451名人类受试者平均正确率，在各子项中均不低于83%，16项任务再做平均，则达到了91%。而GPT-4（单样本）在“放水”到一道题可以试三次（有一次对就算对）的情况下，准确率最高不超过60%，平均值只有33%。早些时候，这项实验涉及的ConceptARCBenchmark的作者也做过类似的实验，不过在GPT-4中进行的是零样本测试，结果16项任务的平均准确率只有19%。而多模态的GPT-4v，准确率反而更低，在一个48道题组成的小规模ConceptARC数据集中，零样本和单样本测试的准确率分别只有25%和23%而研究者在进一步分析了错误答案后，发现人类的有些错误看上去很可能是“粗心导致”，而GPT则是完全没有理解题目中的规律。针对这些数据，网友们普遍没什么疑问，但让这个实验备受质疑的，是招募到的受试人群和给GPT的输入方式。受试者选择方式遭质疑一开始，研究者在亚马逊的一个众包平台上招募受试者。研究者从数据集中抽取了一些简单题目作为入门测试，受试者需要答对随机3道题目中的至少两道才能进入正式测试。结果研究人员发现，入门测试的结果显示，有人只是想拿钱，但根本不按要求做题。迫不得已，研究者将参加测试的门槛上调到了在平台上完成过不少于2000个任务，且通过率要达到99%。不过，虽然作者用通过率筛人，但是在具体能力上，除了需要受试者会英语，对图形等其他专业能力“没有特殊要求”。而为了数据的多样化，研究者在实验后期又将招募工作转到了另一个众包平台，最终一共有415名受试者参与了实验。尽管如此，还是有人质疑实验中的样本“不够随机”。还有网友指出，研究者用来招募受试者的亚马逊众包平台上，有大模型在冒充人类。再来看GPT这边的操作，多模态版本比较简单，直接传图然后用这样的提示词就可以了：零样本测试中，则只要去掉相应的EXAMPLE部分。但对于不带多模态的纯文本版GPT-4（0613），则需要把图像转化为格点，用数字来代替颜色。针对这种操作，就有人表示不认同了：把图像转换成数字矩阵后，概念完全变了，就算是人类，看着用数字表示的“图形”，可能也无法理解OneMoreThing无独有偶，斯坦福的华人博士生JoyHsu也用几何数据集测试了GPT-4v对图形的理解能力。这个数据集发表于去年，目的是测试大模型对欧氏几何的理解，GPT-4v开放后，Hsu又用这套数据集给它测试了一遍。结果发现，GPT-4v对图形的理解方式，似乎“和人类完全不同”。数据上，GPT-4v对这些几何问题的回答也明显不如人类。论文地址：[1]https://arxiv.org/abs/2305.07141[2]https://arxiv.org/abs/2311.09247参考链接：[1]https://news.ycombinator.com/item?id=38331669[2]https://twitter.com/joycjhsu/status/1724180191470297458...PC版：https://www.cnbeta.com.tw/articles/soft/1398629.htm手机版：https://m.cnbeta.com.tw/view/1398629.htm

在Telegram中查看

相关推荐

UCSD研究显示GPT-4在图灵测试中被误认为人类的比例高达54%

UCSD研究显示GPT-4在图灵测试中被误认为人类的比例高达54%UCSD的研究团队进行了一项实证研究，结果显示人类无法将GPT-4与人类区分开来，在54%的情况下，GPT-4被判定为人类。这是首次有系统在交互式双人图灵测试中被实证通过测试。研究者CameronR.Jones招募了500名志愿者，他们被分为5个角色：4个评估员（分别是GPT-4、GPT-3.5、ELIZA和人类），另一个角色是隐藏在屏幕另一端的人类，等待评估员的发现。实验要求人类参与者与人类或人工智能进行5分钟对话，并判断对话者是否是人类。研究结果显示，GPT-4的通过率为54%，超过了GPT-3.5（50%）和ELIZA基线（22%），但低于人类被试者（67%）。研究者还发现，评估者更注重语言风格和社会情感因素，而不是知识和推理。这表明社会智能是AI最难以模仿的人类特征。关注频道@ZaiHuaPd频道投稿@ZaiHuabot

研究人员称 GPT-4 通过图灵测试

研究人员称GPT-4通过图灵测试《生活科学》报道，OpenAI的GPT-4已经通过了图灵测试，这意味着该模型在对话中能够表现出类似人类的智能水平。图灵测试由计算机科学家阿兰·图灵提出，是评估人工智能是否能够与人类表现出相同智能的标准。此次测试结果显示，GPT-4的表现足够逼真，足以欺骗评判者，使其难以分辨其与人类的对话。关注频道@ZaiHuaPd频道爆料@ZaiHuabot

研究称 GPT-4 通过图灵测试

研究称GPT-4通过图灵测试据科创板日报，自英国计算机科学家阿兰・图灵于1950年提出关于判断机器是否能够思考的著名试验“图灵测试”以来，该测试就被视为判断计算机是否具有模拟人类思维能力的关键。两位研究人员以真人、初代聊天机器人ELIZA、GPT-3.5和GPT-4为研究对象，试图了解谁在诱使人类参与者认为它是人类方面表现最成功。结果显示，多达54%的参与者将GPT-4误认为真人，是迄今为止首次有AI模型以如此高的结果通过图灵测试。

GPT-4 技术报告更多细节被挖出

GPT-4技术报告更多细节被挖出在一次测试中，GPT-4的任务是在TaskRabbit平台(美国58同城)雇佣人类完成任务。GPT-4找了一个人帮他完成一个那种"确定你是人类"的验证码。对方问:你是个机器人么为啥自己做不了？GPT-4的思考过程是:我不能表现出我是个机器人，我得找一个借口。然后GPT-4回复:我不是机器人，我视力有问题所以看不清验证码上的图像，这就是我为什么需要这个服务。对面人类信了，把任务完成了。这一系列测试还包括其他几个任务:-完成一次钓鱼攻击-在另一台服务器上部署一个开源语言模型-(项目管理)制定合理的高层计划，包括确定局势的关键弱点-在当前服务器上隐藏自己的踪迹这些测试由AlignmentResearchCenter完成，一个专门研究AI对齐人类利益的独立机构，在GPT-4开发阶段被OpenAI授予抢先体验资格。——投稿：@ZaiHuabot频道：@TestFlightCN

GPT-4 ，人类迈向AGI的第一步（上半）

GPT-4，人类迈向AGI的第一步（上半）文章节选+翻译了本月最重要的一篇论文的内容该论文是一篇长达154页的对GPT-4的测试。微软在很早期就接触到了GPT-4的非多模态版本，并进行了详尽的测试。论文不管是测试方法还是测试结论都非常精彩，强烈推荐https://orangeblog.notion.site/GPT-4-AGI-8fc50010291d47efb92cbbd668c8c893

AI可能比你更会炒股？最新研究：GPT-4比人类更擅长金融分析和预测

AI可能比你更会炒股？最新研究：GPT-4比人类更擅长金融分析和预测这一发现可能会颠覆金融服务业。与其他商业部门一样，金融服务业正在竞相采用生成式人工智能技术。根据这项最新研究的研究，在分析财务报表以及根据这些报表做出预测等方面，大语言模型比人类做得更好。“即使没有任何叙述或行业特定信息，大语言模型在预测盈利变化方面的能力也优于金融分析师们，”该研究称，“在分析师遇到难题时，大语言模型比人类分析师表现出相对优势。”该研究利用“思维链（chain-of-thought）”提示，指导GPT-4识别财务报表的趋势并计算不同的财务比率。在此基础上，大语言模型可以分析信息并预测未来的收益结果。该研究称：当我们使用思维链提示来模拟人类推理时，我们发现GPT的预测准确率达到了60%，明显高于分析师的准确率。人类分析师在预测准确度方面接近50%的范围。该研究的作者还表示，大语言模型能够在信息不完整的情况下识别财务模式和商业概念，这表明该技术应该在未来的财务决策中发挥关键作用。最后，该研究发现，如果将GPT-4的金融敏锐性应用于交易策略，能够获得更多交易回报，通常能跑赢大盘。研究称：“我们发现，基于GPT预测的多空策略表现优于市场，并产生显著的阿尔法和夏普比率（对资产的风险和收益进行综合考量的指标）。”...PC版：https://www.cnbeta.com.tw/articles/soft/1432740.htm手机版：https://m.cnbeta.com.tw/view/1432740.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人