花了跨度2周、总体接近6~8个小时，和 ChatGPT/Claude/GPT4 一起写了一篇探讨 ChatGPT 类型的 LLM

花了跨度2周、总体接近6~8个小时，和 ChatGPT/Claude/GPT4 一起写了一篇探讨 ChatGPT 类型的 LLM AI 和人类关系的文章，但是只修改了3/4部分，所以不能发出来。开始有点理解当年看香蕉写书的时候“写了但是不能发”的心情和状态了。

在Telegram中查看

相关推荐

Claude 已经接近 GPT4

Claude 已经接近 GPT4 ChatGPT 3.5 很快就要被开源超过了 : Announcing the Week 2 update for the Chatbot Arena leaderboard! We've added some new models that are showcasing strong performance. Currently, @OpenAI's GPT-4 and @AnthropicAI's Claude lead the pack, with open-source models in hot pursuit. More findings:

前两天一位新朋友用我的 Claude API 跑了一些对比 ChatGPT 3.5 和 GPT4 的测试，得出了一些非常有趣且令

前两天一位新朋友用我的 Claude API 跑了一些对比 ChatGPT 3.5 和 GPT4 的测试，得出了一些非常有趣且令人惊喜的结论。 Claude 最新版的的综合能力已经超出了 ChatGPT 3.5 。特别是数学推理能力和理解能力已经接近 GPT4 。希望支持 Claude API 的产品多一些吧，它真的很棒。

最近在试着用 Claude2 配合 GPT4 写代码

最近在试着用 Claude2 配合 GPT4 写代码 Claude2 像是一个研发高 P，超长的上下文让它能把整个项目吞进去，你只要提需求，他给你提供代码的设计方法，该弄几个类，变量怎么传递之类的，但你真让这位高 P 自己写代码，就会发现他大概是带团队太久，动手能力已经退化了，经常会出一些低级错误 GPT4 比较像是应届生，代码工整，一半以上的可以一次跑通，但是应届生的脑容量比较有限，不能理解太长的上下文，喂代码的时候必须要把在哪儿改，改什么都说清楚让两个 AI 配合的结果，就是提需求给 Claude，让高 P 把需求翻译成生成代码的 Prompt ，然后复习粘贴给小弟干活儿，完美

和 @PepsinY 昨晚做非完备逻辑推理测试，Claude+和GPT4是唯二的能猜到凶手的模型，谷歌的用英文测了不行，完全不理

和 @PepsinY 昨晚做非完备逻辑推理测试，Claude+和GPT4是唯二的能猜到凶手的模型，谷歌的用英文测了不行，完全不理解要干嘛。至于 Claude+和GPT4谁强呢？还是 GPT4，因为删除最后半句话后只有GPT4还能猜出凶手。

Chat酱：支持GPT4的 ChatGPT替代工具，可独立部署，附国内使用方案

Chat酱：支持GPT4的 ChatGPT替代工具，可独立部署，附国内使用方案 Chat酱是一个兼容OpenAl 和API2D (国内可用)的类ChatGPT工具 : 电脑客户端:密码: 直接用 openai 的 key 也可以，不过要确保网络可以访问到完全不懂技术的人看完也可以轻松上手

两句话，让 LLM 逻辑推理瞬间崩溃！最新「爱丽丝梦游仙境」曝出 GPT、Claude 等重大缺陷

两句话，让 LLM 逻辑推理瞬间崩溃！最新「爱丽丝梦游仙境」曝出 GPT、Claude 等重大缺陷（英文）（英文）在基准测试上频频屠榜的大模型们，竟然被一道简单的逻辑推理题打得全军覆没？最近，研究机构 LAION 的几位作者共同发表了一篇文章，以「爱丽丝梦游仙境」为启发涉及了一系列简单的推理问题，揭示了 LLM 基准测试的盲区。一道简单的逻辑问题，竟让几乎所有的 LLM 全军覆没？对于人类来说，这个名为「爱丽丝梦游仙境」（AIW）的测试并不算很难「爱丽丝有 N 个兄弟，她还有 M 个姐妹。爱丽丝的兄弟有多少个姐妹？」只需稍加思考，答案显而易见：M+1。（爱丽丝拥有的姐妹数量，再加上爱丽丝自己）但是，当研究人员让 GPT-3.5/4、Claude、Gemini、Llama、Mistral 等模型回答时，得到的结果却非常离谱。只有 OpenAI 最新的 GPT-4o 勉强及格。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人