LogicBench通过设计包含25种推理模式的问答数据集，系统地评估了大型语言模型在命题逻辑、一阶逻辑和非单调逻辑方面的逻辑推

LogicBench通过设计包含25种推理模式的问答数据集，系统地评估了大型语言模型在命题逻辑、一阶逻辑和非单调逻辑方面的逻辑推理能力，发现现有模型在处理复杂推理和否定时存在明显缺陷，为未来的研究提供了有价值的洞见。|

相关推荐

两句话，让 LLM 逻辑推理瞬间崩溃！最新「爱丽丝梦游仙境」曝出 GPT、Claude 等重大缺陷

两句话，让 LLM 逻辑推理瞬间崩溃！最新「爱丽丝梦游仙境」曝出 GPT、Claude 等重大缺陷（英文）（英文）在基准测试上频频屠榜的大模型们，竟然被一道简单的逻辑推理题打得全军覆没？最近，研究机构 LAION 的几位作者共同发表了一篇文章，以「爱丽丝梦游仙境」为启发涉及了一系列简单的推理问题，揭示了 LLM 基准测试的盲区。一道简单的逻辑问题，竟让几乎所有的 LLM 全军覆没？对于人类来说，这个名为「爱丽丝梦游仙境」（AIW）的测试并不算很难「爱丽丝有 N 个兄弟，她还有 M 个姐妹。爱丽丝的兄弟有多少个姐妹？」只需稍加思考，答案显而易见：M+1。（爱丽丝拥有的姐妹数量，再加上爱丽丝自己）但是，当研究人员让 GPT-3.5/4、Claude、Gemini、Llama、Mistral 等模型回答时，得到的结果却非常离谱。只有 OpenAI 最新的 GPT-4o 勉强及格。

和 @PepsinY 昨晚做非完备逻辑推理测试，Claude+和GPT4是唯二的能猜到凶手的模型，谷歌的用英文测了不行，完全不理

和 @PepsinY 昨晚做非完备逻辑推理测试，Claude+和GPT4是唯二的能猜到凶手的模型，谷歌的用英文测了不行，完全不理解要干嘛。至于 Claude+和GPT4谁强呢？还是 GPT4，因为删除最后半句话后只有GPT4还能猜出凶手。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人