GPT被曝重大缺陷:大语言模型不会“反向推理”?https://www.bannedbook.org/bnews/cnnews/

两句话，让 LLM 逻辑推理瞬间崩溃！最新「爱丽丝梦游仙境」曝出 GPT、Claude 等重大缺陷

两句话，让LLM逻辑推理瞬间崩溃！最新「爱丽丝梦游仙境」曝出GPT、Claude等重大缺陷https://www.ithome.com/0/774/281.htmhttps://arxiv.org/abs/2406.02061（英文）https://github.com/LAION-AI/AIW（英文）在基准测试上频频屠榜的大模型们，竟然被一道简单的逻辑推理题打得全军覆没？最近，研究机构LAION的几位作者共同发表了一篇文章，以「爱丽丝梦游仙境」为启发涉及了一系列简单的推理问题，揭示了LLM基准测试的盲区。一道简单的逻辑问题，竟让几乎所有的LLM全军覆没？对于人类来说，这个名为「爱丽丝梦游仙境」（AIW）的测试并不算很难——「爱丽丝有N个兄弟，她还有M个姐妹。爱丽丝的兄弟有多少个姐妹？」只需稍加思考，答案显而易见：M+1。（爱丽丝拥有的姐妹数量，再加上爱丽丝自己）但是，当研究人员让GPT-3.5/4、Claude、Gemini、Llama、Mistral等模型回答时，得到的结果却非常离谱。只有OpenAI最新的GPT-4o勉强及格。

歼-35被曝或有重大缺陷https://www.bannedbook.org/bnews/headline/20240319/2

致命“双不足”歼-35被曝重大缺陷https://www.bannedbook.org/bnews/topimagenews/2

被曝秘密使用！字节GPT账户突被OpenAI冻结https://www.bannedbook.org/bnews/cnnews/

苹果发布 OpenELM 大语言模型，基于开源训练和推理框架的语言模型

苹果发布OpenELM大语言模型，基于开源训练和推理框架的语言模型在WWDC24之前，苹果在HuggingFace平台上发布了一个“具有开源训练和推理框架的高效语言模型”，名为OpenELM。苹果这次发布了完整的框架，包括数据准备、训练、微调和评估程序，以及多个预训练的checkpoint和训练日志，以促进开源研究。其源码及预训练的模型权重和训练配方可在苹果Github库中获取。

GPT被曝重大缺陷:大语言模型不会“反向推理”?https://www.bannedbook.org/bnews/cnnews/

相关推荐

两句话，让 LLM 逻辑推理瞬间崩溃！最新「爱丽丝梦游仙境」曝出 GPT、Claude 等重大缺陷

歼-35被曝或有重大缺陷https://www.bannedbook.org/bnews/headline/20240319/2

致命“双不足”歼-35被曝重大缺陷https://www.bannedbook.org/bnews/topimagenews/2

被曝秘密使用！字节GPT账户突被OpenAI冻结https://www.bannedbook.org/bnews/cnnews/

苹果发布 OpenELM 大语言模型，基于开源训练和推理框架的语言模型

用KV缓存加速GPT模型的推理过程，用KV(Key-Value)缓存来提高Transformer模型推理的速度