和 @PepsinY 昨晚做非完备逻辑推理测试,Claude+和GPT4是唯二的能猜到凶手的模型,谷歌的用英文测了不行,完全不理

和 @PepsinY 昨晚做非完备逻辑推理测试,Claude+和GPT4是唯二的能猜到凶手的模型,谷歌的用英文测了不行,完全不理解要干嘛。 至于 Claude+和GPT4谁强呢?还是 GPT4,因为删除最后半句话后只有GPT4还能猜出凶手。

相关推荐

封面图片

Claude 已经接近 GPT4

Claude 已经接近 GPT4 ChatGPT 3.5 很快就要被开源超过了 : Announcing the Week 2 update for the Chatbot Arena leaderboard! We've added some new models that are showcasing strong performance. Currently, @OpenAI's GPT-4 and @AnthropicAI's Claude lead the pack, with open-source models in hot pursuit. More findings:

封面图片

最近在试着用 Claude2 配合 GPT4 写代码

最近在试着用 Claude2 配合 GPT4 写代码 Claude2 像是一个研发高 P,超长的上下文让它能把整个项目吞进去,你只要提需求,他给你提供代码的设计方法,该弄几个类,变量怎么传递之类的,但你真让这位高 P 自己写代码,就会发现他大概是带团队太久,动手能力已经退化了,经常会出一些低级错误 GPT4 比较像是应届生,代码工整,一半以上的可以一次跑通,但是应届生的脑容量比较有限,不能理解太长的上下文,喂代码的时候必须要把在哪儿改,改什么都说清楚 让两个 AI 配合的结果,就是提需求给 Claude,让高 P 把需求翻译成生成代码的 Prompt ,然后复习粘贴给小弟干活儿,完美

封面图片

这个Thread论证了的是GPT4 的逻辑推理能力相对 ChatGPT3.5 有 5%到 30%的提升,但怀疑这是测试集被学习了

这个Thread论证了的是GPT4 的逻辑推理能力相对 ChatGPT3.5 有 5%到 30%的提升,但怀疑这是测试集被学习了,在增加问题难度之后,提升效果只有 3% 得出的结论是GPT4提升源于学了更多的模式而已。 虽然看起来没毛病,但是如果真的这么简单就好了。

封面图片

前两天一位新朋友用我的 Claude API 跑了一些对比 ChatGPT 3.5 和 GPT4 的测试,得出了一些非常有趣且令

前两天一位新朋友用我的 Claude API 跑了一些对比 ChatGPT 3.5 和 GPT4 的测试,得出了一些非常有趣且令人惊喜的结论。 Claude 最新版的的综合能力已经超出了 ChatGPT 3.5 。 特别是数学推理能力和理解能力已经接近 GPT4 。 希望支持 Claude API 的产品多一些吧,它真的很棒。

封面图片

这个Thread论证了的是GPT4 的逻辑推理能力相对 ChatGPT3.5 有 5%到 30%的提升,但怀疑这是测试集被学习了

这个Thread论证了的是GPT4 的逻辑推理能力相对 ChatGPT3.5 有 5%到 30%的提升,但怀疑这是测试集被学习了,在增加问题难度之后,提升效果只有 3% 得出的结论是GPT4提升源于学了更多的模式而已。 虽然看起来没毛病,但是如果真的这么简单就好了。 Subbarao Kambhampati (కంభంపాటి సుబ్బారావు): Afraid of #GPT4 going rogue and killing y'all? Worry not. Planning has got your back. You can ask it to solve any simple few step classical planning problem and snuff that "AGI spark" well and good. Let me explain.. 1/

封面图片

两句话,让 LLM 逻辑推理瞬间崩溃!最新「爱丽丝梦游仙境」曝出 GPT、Claude 等重大缺陷

两句话,让 LLM 逻辑推理瞬间崩溃!最新「爱丽丝梦游仙境」曝出 GPT、Claude 等重大缺陷 (英文) (英文) 在基准测试上频频屠榜的大模型们,竟然被一道简单的逻辑推理题打得全军覆没?最近,研究机构 LAION 的几位作者共同发表了一篇文章,以「爱丽丝梦游仙境」为启发涉及了一系列简单的推理问题,揭示了 LLM 基准测试的盲区。 一道简单的逻辑问题,竟让几乎所有的 LLM 全军覆没? 对于人类来说,这个名为「爱丽丝梦游仙境」(AIW)的测试并不算很难 「爱丽丝有 N 个兄弟,她还有 M 个姐妹。爱丽丝的兄弟有多少个姐妹?」 只需稍加思考,答案显而易见:M+1。(爱丽丝拥有的姐妹数量,再加上爱丽丝自己) 但是,当研究人员让 GPT-3.5/4、Claude、Gemini、Llama、Mistral 等模型回答时,得到的结果却非常离谱。只有 OpenAI 最新的 GPT-4o 勉强及格。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人