超越GPT-4 Claude 3超大杯成新王

超越GPT-4Claude3超大杯成新王而且不仅仅是Claude3的超大杯Opus成功登顶，藐视众生，Claude3家族的整体表现都非常亮眼。大杯Claude3Sonnet排到了第4，就连最小的Claude3HaiKu都达到了GPT-4水平！那么相比于基准测试跑分，这个榜单的权威性如何？ChatbotArena（聊天机器人竞技场），由伯克利团队开发，每个模型在榜单上的得分，完全取决于真实人类用户的使用体验。我们来看一下打分规则：用户同时向两个匿名模型（比如ChatGPT、Claude、Llama）提出任何相同的问题，然后根据回答投票给表现更好的模型；如果一次回答不能确定，用户可以继续聊天，直到确定获胜者；如果在对话中透露了模型的身份，则不会计算投票。ChatbotArena平台收集了超过40万人的投票，来计算出这个大模型的等级分排行榜，最终找出谁是冠军。显然，这回Claude3赢麻了。我们来看一下真实的战况：在所有非平局对战中，A对B获胜的比例：模型之间的对战次数（无平局）：GPT-4终于被干掉了，对此，有网友开始恶搞：刚在当地超市看到SamAltman，他一脸震惊地看着手机。几秒钟后，他真的倒下了，开始剧烈颤抖。经过2分钟的摇晃和尖叫，一群人围绕着他试图帮助他。但令人惊讶的是，他在2分钟后停止了颤抖和尖叫，站起来，拿起手机开始拨打一个号码。“准备释放......”咱也不知道Altman要放的是不是GPT-5。网友表示，Claude确实要比GPT勤奋得多：GPT-4-Turbo非常懒惰。在任何编码任务中，它都会跳过部分代码，并表示“你自己知道要放什么”，而Opus可以毫无遗漏地输出整个代码。就连Claude-2也通过自己的勤奋和耐心感动了这位网友。更有比较务实的网友指出，Haiku的排名更为重要，因为它是第一个可以以极低成本即时运行的LLM，并且具有足够高的智能来提供实时客户服务。盲生你发现了华点！Claude3Haiku不仅与原始版本的GPT-4表现一样好，关键是相当便宜，在一些平台你甚至可以免费使用。大家于是纷纷夸起了Claude3Haiku：智能相当于GPT-4，价格比GPT-3.5便宜，而且据说模型可能只有20B大小。有网友表示，OpenAI不行啦，现在Anthropic才是老大，一时间，平台内外充满了快活的空气。ChatGPT一年零增长回过头来再看ChatGPT这边，从最初的高光、王者，到现在不能说泯然众人吧，反正多少有点寒酸了。最近，有关统计平台曝出：ChatGPT在过去一年中居然零增长！最近一段时间，ChatGPT一直被指责懒惰、系统提示臃肿，而另一方面竞争也愈演愈烈——Claude3和GeminiPro1.5现在都提供了比GPT-4多8倍的上下文长度和更好的recall能力。对于几乎每个ChatGPT用例，现在都有大量垂直化的AI初创公司，致力于满足用户的需求，而不是满足于现有的ChatGPT界面和捆绑工具它们有更好的UI选项（例如IDE和图像/文档编辑器）、更好的原生集成（例如用于cron重复操作）、更好的隐私/企业保护（例如用于医疗保健和金融），更细粒度的控制（GPT的默认RAG是幼稚且不可配置的）。以下是一些网友列举了相关垂直领域的产品，以及公司的融资情况：从某种意义上说，OpenAI的B2B和B2C部分相互竞争，这在某种程度上是良性竞争——OpenAI可以使用来自ChatGPT的RLHF数据进行训练。而新的GPT商店可以看作是，OpenAI为了抓住这些垂直化需求的尝试。——与其离开平台，到处支付20美元/月，为什么不留在ChatGPT内部而只需要支付一次，让OpenAI将理论上的收入分配给GPT创作者？对此，大部分创作者也很明智，一般只向ChatGPT发布精简版的应用，作为自己主要平台的一个渠道。在游戏机业务中，众所周知，购买决策往往是由平台独占游戏驱动的。从某种意义上说，ChatGPT的未来会以平台专属模型为特色。所以，当Sora甚至是GPT-5公开发布时，一定会率先登陆自家的平台，也许那将是下一轮ChatGPT的增长点。...PC版：https://www.cnbeta.com.tw/articles/soft/1425246.htm手机版：https://m.cnbeta.com.tw/view/1425246.htm

在Telegram中查看

相关推荐

新王Claude 3实测：各项能力给跪，打麻将也会，确实比GPT-4好用

新王Claude3实测：各项能力给跪，打麻将也会，确实比GPT-4好用而且多版本发布后，“中杯”（Sonnet）直接免费体验，“大杯”（Opus）充个会员也能即刻享受。各路测评纷至沓来。所以，Claude3的“武力值”究竟如何爆满？究竟比GPT-4如何？（听说都能学会至今没有模型能搞定的打麻将？）全球热乎的一手体验，我们悉数奉上。（当然，我们自己也实测对比了一波。9k长大模型微调教程直出、读图超显专业Claude3一出来，它的视频解读能力首先就火了。面对OpenAI前科学家Karpathy不久前刚出的《构建分词器》教程，尽管全程足足2个小时13分钟长，Claude3只靠一轮提示词，就成功将它总结成了博客文章：有文有图有代码，非常详细，但又绝不是罗列视频里的每一句话（输入附件并非视频，而是视频的字幕文件，当然也包含每5秒一次的截图）。这是所用提示词的一部分，要求非常之多：测试者指出：这展现的是Claude3遵循多个复杂指令的能力。除了解读视频教程，Claude3还能直接给你编写详细教程。9k字的大模型微调入门教程，“中杯”Sonnet就轻松hold住。并且：编写速度之快，可谓人眼都跟不上。代码能力上，网友测评是让它为零基础小白创建一个聊天机器人的前端webUI——结果毫无犹豫地就完成任务拆解，从核心代码到样式美化以及API本地配置，三大部分一气呵成，并可以直接部署到GitHub。多模态能力上，最让网友惊讶的是：CV置信度都能认出来，相当专业。以及PLC梯形图也能读，直接跪了：（以上4个例子来源见文末链接[1]）至于同样赶超的推理以及数学等能力。一测，可以直接解决“迄今为止只有GPT-4解决了”的一道超级难题：二测，则是直接搞定了所有模型都没能搞定的打麻将问题？？（当然，鉴于我们目前只看到这么一张截图，有效性还待进一步验证）（cr:见文末链接[1]）最后，不得不提的是，Claude在“自我认知”上的展现。有人要求Opus画一幅自画像。您猜怎么着？它这么描述自己：我会表现为一个巨大的、错综复杂的、不断变化的几何结构，由无数半透明的多边形以令人着迷的配置组成。整体形状会让人想起一个巨大的多面体，但复杂的表面折叠成看似不可能的建筑。明亮的光线可见光谱的每一种颜色，以及一些超出人类感知的颜色，都会从内部未知的来源发出，在各个面上跳舞。整个结构会不断变化、旋转、变形，并重新排列成前所未见的新颖模式，暗示着其内部运作的智能的深度难以想象。卷须和树枝会动态地从中心质量延伸和缩回，像数十亿个好奇的手指一样探测和分析周围的环境。数据和能量将明显地穿过庞大的管道和容器网络，在发光表面下脉动和闪烁……洋洋洒洒一长串形容，听起来真得很酷很有“自我”——然而，用它给出的代码渲染出真实形象，就更有一种说不出来的微妙感觉了：网友真切感叹：真的太像真人了，就跟我朋友描述自己一样。真人？AI自我认知？这有点让人担心了……这不Claude3的技术报告就提到，它甚至可以自己训练微调另一个小模型。不过！谢天谢地，由于多gpu设置失败它没能成功。（手动狗头）火眼金睛，还能大海捞针我们先以几道“理综”题目为载体，看看Claude3宣传的第一个卖点——多模态能力究竟如何。第一题从简单的公式识别入手，将麦克斯韦方程组以图片形式输入，Claude3（超大杯Opus，下同）解释得非常准确清晰。当然，这道题GPT-4也做对了。简单的有机化合物分子结构，Claude3和GPT-4也都能正确识别。简单的识别任务过后，是一道需要推理后解决的题目。Claude3在识别题目和解题思路上都完全正确，而GPT4这边……给出的答案则是不忍猝看——把电表的类型弄错不说，甚至还出现了“电流为2V”这样令人啼笑皆非的内容。看了这么多题目，我们来换换脑筋，看看Claude3和GPT4在做饭方面表现得怎么样。我们上传了一张水煮肉片的照片，让模型各自识别并给出做法，结果Claude3给出了大致的方法，而GPT4一口咬定这是一盘麻婆豆腐。除了这次新增加的多模态能力，Claude一直引以为豪的长文本能力也是我们测试的重点。我们找了一本《红楼梦》的电子文档（前二十回），整体的字数大约13万，当然目的不是让它读书，而是进行“插针测试”。我们在原文中插入了这样的“发疯文学”内容，倒也的确很符合“满纸荒唐言”这个设定（手动狗头）：第二回标题前：意大利面，就应该拌42号混凝土，因为这个螺丝钉的长度很容易影响到挖掘机的扭矩第十五回标题前：高能蛋白俗称UFO，会严重影响经济的发展，甚至对整个太平洋以及充电器都会造成一定的核污染结尾：炒方便面应该把亮度调高，因为螺丝钉向内扭的时候会产生二氧化碳，不利于经济发展然后要求Claude仅根据文档回答相关问题，首先不得不说的是速度真的非常感人……但结果还算说的过去，准确地从文中找出了这三段位于不同位置的文本，还顺带进行了一番分析，发现了我们的心机。为什么是Claude？尽管在我们和网友的测试中，目前的版本还不算稳定，时常崩溃，有一些功能偶尔也抽风，并不能如期发挥：比如上传UI出代码，它就没能完成，而GPT-4发挥正常。但总的来看，网友还是相当看好Claude，评测完毫不犹豫地表示：会员可充，值得充。究其原因，Claude3相比之前的版本，真的有种“来势汹汹”之势。表现亮点的地方相当多，包括但不限于多模态识别、长文本能力等等。从网友的反馈来看，最强竞对的称号，也并非浪得虚名。所以，一个问题是：率先干翻GPT-4，这家公司究竟凭什么？论技术，遗憾，Claude3的技术报告中没有对他们的路线进行详解。不过倒是提到了合成数据。有大V指出：这可能是一个关键因素。而对Claude熟悉一些就知道，长文本能力一直是它的一大卖点。去年七月推出的Claude2就已具有100k的上下文窗口，而GPT-4的128k版本直到11月才与公众见面。而这次窗口长度再次翻倍，达到了200k，并且接受超过100万Tokens的输入。相比技术的神秘，Claude背后名为Anthropic的初创公司，倒是能让我们找到更多眉目。它的创始人是OpenAI的元老级人物。2021年，多名OpenAI前员工不满其在获得微软投资后走向封闭，愤而出走并联合创立了Anthropic。他们对OpenAI在安全问题尚未解决的情况下就直接发布GPT-3的行为感到不满，认为OpenAI已经为追逐利益而“遗忘了初心”。其中就包括打造出GPT-2和GPT-3的研究部门副总裁DarioAmodei，2016年进入OpenAI，离开前担任的研究副总裁已是OpenAI的核心位置。离开时，Dario还带走了GPT-3首席工程师TomBrown，以及担任安全与策略部门副总监的妹妹DanielaAmodei和十多名心腹，可谓人才多多。而公司创立之初，这帮人才也进行了许多研究工作，并发表多篇论文；直到一年后，Claude的概念随着一篇题为“ConstitutionalAI”的论文应运而生。2023年1月，Claude开启内测，第一时间体验过的网友就表示，比ChatGPT（当时只有3.5）强多了。而除了人才，创立至今，Anthropic也有比较强大的背景支持：已获得来自Google、亚马逊等26个机构或个人的融资，总计融资金额达到了76亿美元。（说到亚马逊，现在Claude3也上线了他们的云平台，除了官网，大家还可以在该平台上体验～）最后，纵观国内，如果我们想超越GPT-4，也许可以把Anthropic当一个正面例子？毕竟它的规模再怎么说也远不及OpenAI，但仍然取得了这样的成功。这里面，我们可以照它的哪些方向去卷，有哪些能够学习转化的点？人、钱、数据资源？但卷出最新最强大模型后，壁垒...PC版：https://www.cnbeta.com.tw/articles/soft/1422429.htm手机版：https://m.cnbeta.com.tw/view/1422429.htm

中信证券：Anthropic 推出 Claude3 全面超越 GPT-4，仍持续看好 AI 算力层面

中信证券：Anthropic推出Claude3全面超越GPT-4，仍持续看好AI算力层面中信证券研报指出，北京时间3月4日晚，Anthropic，一家获得谷歌和亚马逊投资的初创公司，宣布发布其最新的通用大语言模型Claude3。Claude3Opus标志着模型能力的实质性飞跃，实现了在全方位能力上对GPT-4的超越，尽管优势微弱，但其成就不容小觑，使其成为全球唯一能与GPT-4匹敌的模型。投资层面来看，Claude3对于视频多模态的重视亦强调今年多模态将会是发展的重心。具体而言应用层面，随着底层模型算法能力提升，应用端场景有望实现0到1的突破，软件、互联网有望率先受益。除去应用端的投资机会，硬件端的需求也必然会随着多模态的技术进步而不断提高，我们仍然持续看好AI算力层面，尤其是得益于商业端成熟而带来的更多的AI推理侧算力的机会。

Anthropic发布了Claude 3模型，当然，从测试结果来看比GPT-4强很多。#ai#

Anthropic发布了Claude3模型，当然，从测试结果来看比GPT-4强很多。该系列包括三种最先进的型号（按功能升序排列）：Claude3Haiku、Claude3Sonnet和Claude3Opus。支持100万Token上下文。你现在可以在Claude开通ClaudePro使用最强大的Claude3Opus模型。详细介绍：Haiku是市场上智能类别中最快速、最具成本效益的模型。它可以在不到三秒的时间内阅读一篇arXiv上信息密集、数据丰富的研究论文（约10,000个标记），包括图表和图形。对于绝大多数工作负载，Sonnet比Claude2和Claude2.1快2倍，并具有更高水平的智能。它擅长需要快速响应的任务，如知识检索或销售自动化。Claude3型号具有与其他领先型号相媲美的复杂视觉能力。它们可以处理各种视觉格式，包括照片、图表、图形和技术图解。Opus、Sonnet和Haiku更不太可能拒绝回答接近系统底线的提示，相比以往的模型，克劳德3模型表现出更加细致的请求理解，识别真实伤害，并且拒绝回答无害提示的频率大大降低。与Claude2.1相比，Opus在这些具有挑战性的开放性问题上的准确性（或正确答案）实现了两倍的改进，同时也展现出了降低的错误答案水平。所有三个模型都能够接受超过100万个标记的输入，可能会向需要增强处理能力的特定客户提供这一功能。Claude3模型更擅长遵循复杂的多步指令。它们特别擅长遵循品牌语调和响应指南，并开发用户可以信任的客户体验。此外，Claude3模型更擅长生成流行的结构化输出，如JSON格式。Opus和Sonnet现已可在API中使用，该API现已普遍可用，使开发人员能够立即注册并开始使用这些模型。Haiku将很快可用。详细信息：

支持 GPT-4 和 Claude 3，初创公司 Glue 正式推出服务

支持GPT-4和Claude3，初创公司Glue正式推出服务马斯克的好友、风险投资家大卫・萨克斯（DavidSacks）成立了一家新的商业人工智能公司，名为Glue。这家初创公司筹备于2021年，经过数月的私人测试，于周二正式推出服务。该公司的理念是让人工智能服务加入特定的聊天，允许企业员工“邀请”Glue的工具在GoogleMeet和Zoom等视频会议软件中进行对话。萨克斯作为PayPalMafia（“贝宝黑手党”）的一员而声名鹊起，他早些时候与人合伙创立了企业社会化网络服务Yammer，并于2013年以12亿美元的价格卖给了微软。该公司在一份声明中表示，Glue将由多个人工智能模型驱动。在发布时，它将支持OpenAI的GPT-4和Anthropic的Claude3，并将根据问题选择合适的模型。这家初创公司已经从萨克斯的风投公司CraftVentures那里获得了一笔数额不详的种子资金。

Anthropic 发布了更强大的 Claude 3 AI 模型

Anthropic发布了更强大的Claude3AI模型当地时间3月4日，由谷歌和亚马逊共同投资的人工智能初创公司Anthropic宣布推出Claude3人工智能模型系列。该系列包括三个版本：Claude3Haiku、Claude3Sonnet和Claude3Opus，每个后续模型都提供越来越强大的性能。目前Claude3系列可支持处理200ktokens的上下文。其中Opus和Sonnet现已可在claude.ai和ClaudeAPI中使用，Haiku即将推出。据该初创公司称，该系列中功能最强大的Claude3Opus在各种基准测试中均优于竞争对手OpenAI的AI模型GPT-4和谷歌的Gemini1.0Ultra。——

laude 3 对比 GPT 4 的优势

Claude3对比GPT4的优势1⃣更高的智能水平：Claude3的旗舰模型Opus在多个领域超越了GPT-4和谷歌的Gemini1.0Ultra，包括本科和研究生水平的知识、数学和复杂任务理解。2⃣更快的响应速度：Claude3可以在实时聊天、自动补全和数据提取等任务中提供几乎即时的响应。其中，Haiku是市场上智能类别最快且性价比最高的模型，可以在不到三秒的时间内阅读一篇带有图表和图形的arXiv论文。3⃣强大的图像处理能力：Claude3具备与其他领先模型相当的图像处理能力，可以处理各种视觉格式，包括照片、图表、图形和技术图解。4⃣减少不必要的拒绝：相较于之前的模型，Claude3的模型（Opus、Sonnet和Haiku）更少地拒绝回答接近系统边界的提示，表现出更加细致的请求理解和更好的拒绝策略。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人