GPT-4不会图形推理?“放水”后准确率依然只有33%

GPT-4不会图形推理?“放水”后准确率依然只有33%△虚线表示16项任务的平均表现这项实验结果发表后,迅速在YC上引发了广泛热议。赞同这项结果的网友表示,GPT确实不擅长抽象图形处理,“位置”“旋转”等概念理解起来更加困难。但另一边,不少网友对这个结论也有所质疑,简单说就是:不能说是错的,但说完全正确也无法让人信服。至于具体的原因,我们继续往下看。GPT-4准确率仅33%为了评估人类和GPT-4在这些图形题上的表现,研究者使用了自家机构于今年5月推出的ConceptARC数据集。ConceptARC中一共包括16个子类的图形推理题,每类30道,一共480道题目。这16个子类涵盖了位置关系、形状、操作、比较等多个方面的内容。具体而言,这些题目都是由一个个像素块组成的,人类和GPT需要根据给定的示例寻找出规律,分析出图像经过相同方式处理后的结果。作者在论文中具体展示了这16个子类的例题,每类各一道。结果451名人类受试者平均正确率,在各子项中均不低于83%,16项任务再做平均,则达到了91%。而GPT-4(单样本)在“放水”到一道题可以试三次(有一次对就算对)的情况下,准确率最高不超过60%,平均值只有33%。早些时候,这项实验涉及的ConceptARCBenchmark的作者也做过类似的实验,不过在GPT-4中进行的是零样本测试,结果16项任务的平均准确率只有19%。而多模态的GPT-4v,准确率反而更低,在一个48道题组成的小规模ConceptARC数据集中,零样本和单样本测试的准确率分别只有25%和23%而研究者在进一步分析了错误答案后,发现人类的有些错误看上去很可能是“粗心导致”,而GPT则是完全没有理解题目中的规律。针对这些数据,网友们普遍没什么疑问,但让这个实验备受质疑的,是招募到的受试人群和给GPT的输入方式。受试者选择方式遭质疑一开始,研究者在亚马逊的一个众包平台上招募受试者。研究者从数据集中抽取了一些简单题目作为入门测试,受试者需要答对随机3道题目中的至少两道才能进入正式测试。结果研究人员发现,入门测试的结果显示,有人只是想拿钱,但根本不按要求做题。迫不得已,研究者将参加测试的门槛上调到了在平台上完成过不少于2000个任务,且通过率要达到99%。不过,虽然作者用通过率筛人,但是在具体能力上,除了需要受试者会英语,对图形等其他专业能力“没有特殊要求”。而为了数据的多样化,研究者在实验后期又将招募工作转到了另一个众包平台,最终一共有415名受试者参与了实验。尽管如此,还是有人质疑实验中的样本“不够随机”。还有网友指出,研究者用来招募受试者的亚马逊众包平台上,有大模型在冒充人类。再来看GPT这边的操作,多模态版本比较简单,直接传图然后用这样的提示词就可以了:零样本测试中,则只要去掉相应的EXAMPLE部分。但对于不带多模态的纯文本版GPT-4(0613),则需要把图像转化为格点,用数字来代替颜色。针对这种操作,就有人表示不认同了:把图像转换成数字矩阵后,概念完全变了,就算是人类,看着用数字表示的“图形”,可能也无法理解OneMoreThing无独有偶,斯坦福的华人博士生JoyHsu也用几何数据集测试了GPT-4v对图形的理解能力。这个数据集发表于去年,目的是测试大模型对欧氏几何的理解,GPT-4v开放后,Hsu又用这套数据集给它测试了一遍。结果发现,GPT-4v对图形的理解方式,似乎“和人类完全不同”。数据上,GPT-4v对这些几何问题的回答也明显不如人类。论文地址:[1]https://arxiv.org/abs/2305.07141[2]https://arxiv.org/abs/2311.09247参考链接:[1]https://news.ycombinator.com/item?id=38331669[2]https://twitter.com/joycjhsu/status/1724180191470297458...PC版:https://www.cnbeta.com.tw/articles/soft/1398629.htm手机版:https://m.cnbeta.com.tw/view/1398629.htm

相关推荐

封面图片

UCSD研究显示GPT-4在图灵测试中被误认为人类的比例高达54%

UCSD研究显示GPT-4在图灵测试中被误认为人类的比例高达54%UCSD的研究团队进行了一项实证研究,结果显示人类无法将GPT-4与人类区分开来,在54%的情况下,GPT-4被判定为人类。这是首次有系统在交互式双人图灵测试中被实证通过测试。研究者CameronR.Jones招募了500名志愿者,他们被分为5个角色:4个评估员(分别是GPT-4、GPT-3.5、ELIZA和人类),另一个角色是隐藏在屏幕另一端的人类,等待评估员的发现。实验要求人类参与者与人类或人工智能进行5分钟对话,并判断对话者是否是人类。研究结果显示,GPT-4的通过率为54%,超过了GPT-3.5(50%)和ELIZA基线(22%),但低于人类被试者(67%)。研究者还发现,评估者更注重语言风格和社会情感因素,而不是知识和推理。这表明社会智能是AI最难以模仿的人类特征。关注频道@ZaiHuaPd频道投稿@ZaiHuabot

封面图片

研究人员称 GPT-4 通过图灵测试

研究人员称GPT-4通过图灵测试《生活科学》报道,OpenAI的GPT-4已经通过了图灵测试,这意味着该模型在对话中能够表现出类似人类的智能水平。图灵测试由计算机科学家阿兰·图灵提出,是评估人工智能是否能够与人类表现出相同智能的标准。此次测试结果显示,GPT-4的表现足够逼真,足以欺骗评判者,使其难以分辨其与人类的对话。关注频道@ZaiHuaPd频道爆料@ZaiHuabot

封面图片

研究称 GPT-4 通过图灵测试

研究称GPT-4通过图灵测试据科创板日报,自英国计算机科学家阿兰・图灵于1950年提出关于判断机器是否能够思考的著名试验“图灵测试”以来,该测试就被视为判断计算机是否具有模拟人类思维能力的关键。两位研究人员以真人、初代聊天机器人ELIZA、GPT-3.5和GPT-4为研究对象,试图了解谁在诱使人类参与者认为它是人类方面表现最成功。结果显示,多达54%的参与者将GPT-4误认为真人,是迄今为止首次有AI模型以如此高的结果通过图灵测试。

封面图片

GPT-4 技术报告更多细节被挖出

GPT-4技术报告更多细节被挖出在一次测试中,GPT-4的任务是在TaskRabbit平台(美国58同城)雇佣人类完成任务。GPT-4找了一个人帮他完成一个那种"确定你是人类"的验证码。对方问:你是个机器人么为啥自己做不了?GPT-4的思考过程是:我不能表现出我是个机器人,我得找一个借口。然后GPT-4回复:我不是机器人,我视力有问题所以看不清验证码上的图像,这就是我为什么需要这个服务。对面人类信了,把任务完成了。这一系列测试还包括其他几个任务:-完成一次钓鱼攻击-在另一台服务器上部署一个开源语言模型-(项目管理)制定合理的高层计划,包括确定局势的关键弱点-在当前服务器上隐藏自己的踪迹这些测试由AlignmentResearchCenter完成,一个专门研究AI对齐人类利益的独立机构,在GPT-4开发阶段被OpenAI授予抢先体验资格。——投稿:@ZaiHuabot频道:@TestFlightCN

封面图片

GPT-4 ,人类迈向AGI的第一步(上半)

GPT-4,人类迈向AGI的第一步(上半)文章节选+翻译了本月最重要的一篇论文的内容该论文是一篇长达154页的对GPT-4的测试。微软在很早期就接触到了GPT-4的非多模态版本,并进行了详尽的测试。论文不管是测试方法还是测试结论都非常精彩,强烈推荐https://orangeblog.notion.site/GPT-4-AGI-8fc50010291d47efb92cbbd668c8c893

封面图片

AI可能比你更会炒股?最新研究:GPT-4比人类更擅长金融分析和预测

AI可能比你更会炒股?最新研究:GPT-4比人类更擅长金融分析和预测这一发现可能会颠覆金融服务业。与其他商业部门一样,金融服务业正在竞相采用生成式人工智能技术。根据这项最新研究的研究,在分析财务报表以及根据这些报表做出预测等方面,大语言模型比人类做得更好。“即使没有任何叙述或行业特定信息,大语言模型在预测盈利变化方面的能力也优于金融分析师们,”该研究称,“在分析师遇到难题时,大语言模型比人类分析师表现出相对优势。”该研究利用“思维链(chain-of-thought)”提示,指导GPT-4识别财务报表的趋势并计算不同的财务比率。在此基础上,大语言模型可以分析信息并预测未来的收益结果。该研究称:当我们使用思维链提示来模拟人类推理时,我们发现GPT的预测准确率达到了60%,明显高于分析师的准确率。人类分析师在预测准确度方面接近50%的范围。该研究的作者还表示,大语言模型能够在信息不完整的情况下识别财务模式和商业概念,这表明该技术应该在未来的财务决策中发挥关键作用。最后,该研究发现,如果将GPT-4的金融敏锐性应用于交易策略,能够获得更多交易回报,通常能跑赢大盘。研究称:“我们发现,基于GPT预测的多空策略表现优于市场,并产生显著的阿尔法和夏普比率(对资产的风险和收益进行综合考量的指标)。”...PC版:https://www.cnbeta.com.tw/articles/soft/1432740.htm手机版:https://m.cnbeta.com.tw/view/1432740.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人