全球最强大模型一夜易主 GPT-4被全面超越

全球最强大模型一夜易主 GPT-4被全面超越几项数学类评测都是用0-shot超越GPT-4的4-8 shot。除此之外，此前就以长下文窗口见长的Claude，此次全系列大模型可提供 200K 上下文窗口，并且接受超过100万Tokens输入。Gemini 1.5 Pro：嗯？目前可以免费体验第二强Sonnet，Opus最强版供Claude Pro付费用户使用，但大模型竞技场也可以白嫖。于是乎，网友们已经开始疯玩上了。（Doge）另外，Opus和Sonnet也开放API访问，开发者可以立即使用。有人直接艾特奥特曼：好了，你现在可以发布GPT-5了。不过奥特曼可能还在烦马斯克的诉讼……最新最强大模型发布此次Claude 3家族共有三个型号：小杯Haiku、中杯Sonnet以及大杯Opus，成本和性能依次递增。首先，在性能参数上，Claude 3全系多方面全面提升。其中Opus在MMLU、GPQA、GSM8K等评估基准上领先于其他所有模型：还有在视觉能力上，它能可以处理各种视觉格式，包括照片、图表、图形和技术图表。对于这样性能结果，有专业人士表达了自己的看法。比如爱丁堡大学博士生、中文大模型知识评估基准C – Eval提出者之一符尧就表示，像MMLU / GSM8K / HumanEval这些基准，已经严重饱和：所有模型的表现都相同。他认为，真正区分模型性能基准的是MATH and GPQA。另外，在拒绝回答人类问题方面，Claude 3也前进了一大步，拒绝回答的可能性显著降低在上下文以及记忆能力上，他们用大海捞针（Needle In A Haystack，NIAH）来评估衡量大模型从大量数据中准确召回信息的能力。结果Claude 3 Opus 不仅实现了近乎完美的召回率，超过 99% 的准确率。而且在某些情况下，它甚至能识别出 “针 “句似乎是人为插入原文的，从而识别出评估本身的局限性。还在生物知识、网络相关知识等方面取得了进步，但出于负责任的考虑，仍处于AI安全级别2（ASL-2）。其次，在响应时间上，Claude 3大幅缩短，做到近乎实时。官方介绍，即将发布的小杯Haiku能够在三秒内阅读并理解带有图表的长度约10k token的arXiv论文。而中杯Sonnet能够在智能水平更高的基础上，速度比Claude 2和Claude 2.1快2倍，尤其擅长知识检索或自动化销售等需快速响应的任务。大杯Opus的智能水平最高，但速度不减，与Claude 2和Claude 2.1近似。官方对三款型号的模型也有清晰的定位。大杯Opus：比别家模型更智能。适用于复杂的任务自动化、研发和制定策略；中杯Sonnet：比其他同类模型更实惠。更适合规模化。适用于数据处理、RAG、在中等复杂度工作流程中节省时间；小杯Haiku：比同类模型更快速、实惠。适用于与用户实时互动，以及在简单工作流程中节省成本；在价格方面，最便宜的小杯定价0.25美元/1M tokens输入，最贵的大杯定价75美元/1M tokens输入对比GPT-4 Turbo，大杯价格确实高出不少，也能体现AnthropicAI对这款模型非常有信心。第一手实测反馈既如此，那就先免费来尝尝鲜~目前官方页面已经更新，Claude展现了“理解和处理图像”这一功能，包括推荐风格改进、从图像中提取文本、将UI转换为前端代码、理解复杂的方程、转录手写笔记等。即使是模糊不清的有年代感的手记文档，也能准确OCR识别：底下写着：你正在使用他们第二大智能模型Claude 3 Sonnet。然鹅，可能是人太多的原因，尝试了几次都显示“Failed”不过，网友们也已经po出了一些测试效果，比如让Sonnet解谜题。为其提供一些示例，要求它找出数字之间的关系，比如“1 Dimitris 2 Q 3”，意思是3是1和2相加的结果。结果Sonnet成功解出-1.1加8等于6.9，所以“X”的值应该是6.9：还有网友发现Sonnet现在也可以读取 ASCII 码了，直呼：这是GPT-4 ++的水平了。在编程任务上，谁写的代码好先不说，Claude 3至少不会像GPT-4一样偷懒。还有体验到了Opus的玩家，在线给模型挖坑，可opus硬是完美躲避不上当：初看这效果，感觉还行。这时候应该艾特OpenAI：GPT-5在哪里？好了，感兴趣的朋友，可以戳下方链接体验啦~ ... PC版：手机版：

在Telegram中查看

相关推荐

Anthropic发布了Claude 3模型，当然，从测试结果来看比GPT-4强很多。

Anthropic发布了Claude 3模型，当然，从测试结果来看比GPT-4强很多。该系列包括三种最先进的型号（按功能升序排列）：Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。支持100万Token上下文。你现在可以在Claude开通Claude Pro使用最强大的Claude 3 Opus模型。详细介绍： Haiku是市场上智能类别中最快速、最具成本效益的模型。它可以在不到三秒的时间内阅读一篇arXiv上信息密集、数据丰富的研究论文（约10,000个标记），包括图表和图形。对于绝大多数工作负载，Sonnet比Claude 2和Claude 2.1快2倍，并具有更高水平的智能。它擅长需要快速响应的任务，如知识检索或销售自动化。 Claude 3型号具有与其他领先型号相媲美的复杂视觉能力。它们可以处理各种视觉格式，包括照片、图表、图形和技术图解。 Opus、Sonnet和Haiku更不太可能拒绝回答接近系统底线的提示，相比以往的模型，克劳德3模型表现出更加细致的请求理解，识别真实伤害，并且拒绝回答无害提示的频率大大降低。与Claude 2.1相比，Opus在这些具有挑战性的开放性问题上的准确性（或正确答案）实现了两倍的改进，同时也展现出了降低的错误答案水平。所有三个模型都能够接受超过100万个标记的输入，可能会向需要增强处理能力的特定客户提供这一功能。 Claude 3模型更擅长遵循复杂的多步指令。它们特别擅长遵循品牌语调和响应指南，并开发用户可以信任的客户体验。此外，Claude 3模型更擅长生成流行的结构化输出，如JSON格式。 Opus和Sonnet现已可在API中使用，该API现已普遍可用，使开发人员能够立即注册并开始使用这些模型。Haiku将很快可用。详细信息：

Anthropic 发布了更强大的 Claude 3 AI 模型

Anthropic 发布了更强大的 Claude 3 AI 模型当地时间3月4日，由谷歌和亚马逊共同投资的人工智能初创公司 Anthropic 宣布推出 Claude 3 人工智能模型系列。该系列包括三个版本：Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus，每个后续模型都提供越来越强大的性能。目前 Claude 3 系列可支持处理 200k tokens 的上下文。其中 Opus 和 Sonnet 现已可在和 Claude API 中使用，Haiku 即将推出。据该初创公司称，该系列中功能最强大的 Claude 3 Opus 在各种基准测试中均优于竞争对手 OpenAI 的 AI 模型 GPT-4 和谷歌的 Gemini 1.0 Ultra。

超越GPT-4 Claude 3超大杯成新王

超越GPT-4 Claude 3超大杯成新王而且不仅仅是Claude 3的超大杯Opus成功登顶，藐视众生，Claude 3家族的整体表现都非常亮眼。大杯Claude 3 Sonnet排到了第4，就连最小的Claude 3 HaiKu都达到了GPT-4水平！那么相比于基准测试跑分，这个榜单的权威性如何？Chatbot Arena（聊天机器人竞技场），由伯克利团队开发，每个模型在榜单上的得分，完全取决于真实人类用户的使用体验。我们来看一下打分规则：用户同时向两个匿名模型（比如ChatGPT、Claude、Llama）提出任何相同的问题，然后根据回答投票给表现更好的模型；如果一次回答不能确定，用户可以继续聊天，直到确定获胜者；如果在对话中透露了模型的身份，则不会计算投票。Chatbot Arena平台收集了超过40万人的投票，来计算出这个大模型的等级分排行榜，最终找出谁是冠军。显然，这回Claude 3赢麻了。我们来看一下真实的战况：在所有非平局对战中， A对B获胜的比例：模型之间的对战次数（无平局）：GPT-4终于被干掉了，对此，有网友开始恶搞：刚在当地超市看到Sam Altman，他一脸震惊地看着手机。几秒钟后，他真的倒下了，开始剧烈颤抖。经过2分钟的摇晃和尖叫，一群人围绕着他试图帮助他。但令人惊讶的是，他在2分钟后停止了颤抖和尖叫，站起来，拿起手机开始拨打一个号码。“准备释放......”咱也不知道Altman要放的是不是GPT-5。网友表示，Claude确实要比GPT勤奋得多：GPT-4-Turbo非常懒惰。在任何编码任务中，它都会跳过部分代码，并表示“你自己知道要放什么”，而Opus可以毫无遗漏地输出整个代码。就连Claude-2也通过自己的勤奋和耐心感动了这位网友。更有比较务实的网友指出，Haiku的排名更为重要，因为它是第一个可以以极低成本即时运行的LLM，并且具有足够高的智能来提供实时客户服务。盲生你发现了华点！Claude 3 Haiku不仅与原始版本的GPT-4表现一样好，关键是相当便宜，在一些平台你甚至可以免费使用。大家于是纷纷夸起了Claude 3 Haiku：智能相当于GPT-4，价格比GPT-3.5便宜，而且据说模型可能只有20B大小。有网友表示，OpenAI不行啦，现在Anthropic才是老大，一时间，平台内外充满了快活的空气。ChatGPT 一年零增长回过头来再看ChatGPT这边，从最初的高光、王者，到现在不能说泯然众人吧，反正多少有点寒酸了。最近，有关统计平台曝出：ChatGPT在过去一年中居然零增长！最近一段时间，ChatGPT一直被指责懒惰、系统提示臃肿，而另一方面竞争也愈演愈烈Claude 3和Gemini Pro 1.5现在都提供了比GPT-4多8倍的上下文长度和更好的recall能力。对于几乎每个ChatGPT用例，现在都有大量垂直化的AI初创公司，致力于满足用户的需求，而不是满足于现有的ChatGPT界面和捆绑工具它们有更好的UI选项（例如IDE和图像/文档编辑器）、更好的原生集成（例如用于cron重复操作）、更好的隐私/企业保护（例如用于医疗保健和金融），更细粒度的控制（GPT的默认RAG是幼稚且不可配置的）。以下是一些网友列举了相关垂直领域的产品，以及公司的融资情况：从某种意义上说，OpenAI的B2B和B2C部分相互竞争，这在某种程度上是良性竞争OpenAI可以使用来自ChatGPT的RLHF数据进行训练。而新的GPT商店可以看作是，OpenAI为了抓住这些垂直化需求的尝试。与其离开平台，到处支付20美元/月，为什么不留在ChatGPT内部而只需要支付一次，让OpenAI将理论上的收入分配给GPT创作者？对此，大部分创作者也很明智，一般只向ChatGPT发布精简版的应用，作为自己主要平台的一个渠道。在游戏机业务中，众所周知，购买决策往往是由平台独占游戏驱动的。从某种意义上说，ChatGPT的未来会以平台专属模型为特色。所以，当Sora甚至是GPT-5公开发布时，一定会率先登陆自家的平台，也许那将是下一轮ChatGPT的增长点。 ... PC版：手机版：

Claude 3 对比 GPT 4 的优势

Claude 3 对比 GPT 4 的优势 1⃣ 更高的智能水平：Claude 3 的旗舰模型 Opus 在多个领域超越了 GPT-4 和谷歌的 Gemini 1.0 Ultra，包括本科和研究生水平的知识、数学和复杂任务理解。 2⃣ 更快的响应速度：Claude 3 可以在实时聊天、自动补全和数据提取等任务中提供几乎即时的响应。其中，Haiku 是市场上智能类别最快且性价比最高的模型，可以在不到三秒的时间内阅读一篇带有图表和图形的 arXiv 论文。 3⃣ 强大的图像处理能力：Claude 3 具备与其他领先模型相当的图像处理能力，可以处理各种视觉格式，包括照片、图表、图形和技术图解。 4⃣ 减少不必要的拒绝：相较于之前的模型，Claude 3 的模型（Opus、Sonnet 和 Haiku）更少地拒绝回答接近系统边界的提示，表现出更加细致的请求理解和更好的拒绝策略。

DeepSeek Coder 成为第一个打败 GPT-4 Turbo 的开源代码模型

DeepSeek Coder 成为第一个打败 GPT-4 Turbo 的开源代码模型中国 AI 创业公司 DeepSeek 的 DeepSeek Coder 成为第一个打败 GPT-4 Turbo 的开源代码模型。DeepSeek 上个月发布了混合专家模型 DeepSeek-V2，它的代码模型 DeepSeek Coder V2 就是基于该模型，它支持逾 300 种编程语言，在编程任务中超过了最先进的闭源模型如 GPT-4 Turbo、Claude 3 Opus 和 Gemini 1.5 Pro。在 MBPP+、HumanEval 和 Aider 编程测试中，DeepSeek Coder V2 获得了 76.2、90.2 和 73.7 分；在 MATH 和 GSM8K 等数学测试中，DeepSeek Coder V2 表现也类似。DeepSeek Coder V2 采用了 MIT 许可证，对商业使用不设限制，它有 160 亿和 2360 亿参数两个版本。 via Solidot

DeepSeek Coder 成为第一个打败 GPT-4 Turbo 的开源代码模型

DeepSeek Coder 成为第一个打败 GPT-4 Turbo 的开源代码模型中国 AI 创业公司 DeepSeek 的成为第一个打败 GPT-4 Turbo 的开源代码模型。DeepSeek 上个月发布了混合专家模型，它的代码模型 DeepSeek Coder V2 就是基于该模型，它支持逾 300 种编程语言，在编程任务中超过了最先进的闭源模型如 GPT-4 Turbo、Claude 3 Opus 和 Gemini 1.5 Pro。在 MBPP+、HumanEval 和 Aider 编程测试中，DeepSeek Coder V2 获得了 76.2、90.2 和 73.7 分；在 MATH 和 GSM8K 等数学测试中，DeepSeek Coder V2 表现也类似。DeepSeek Coder V2 采用了 MIT 许可证，对商业使用不设限制，它有 160 亿和 2360 亿参数两个版本。来源，频道：@kejiqu 群组：@kejiquchat

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人