全球最强大模型一夜易主 GPT-4被全面超越

全球最强大模型一夜易主GPT-4被全面超越几项数学类评测都是用0-shot超越GPT-4的4-8shot。除此之外,此前就以长下文窗口见长的Claude,此次全系列大模型可提供200K上下文窗口,并且接受超过100万Tokens输入。Gemini1.5Pro:嗯?目前可以免费体验第二强Sonnet,Opus最强版供ClaudePro付费用户使用,但大模型竞技场也可以白嫖。于是乎,网友们已经开始疯玩上了。(Doge)另外,Opus和Sonnet也开放API访问,开发者可以立即使用。有人直接艾特奥特曼:好了,你现在可以发布GPT-5了。不过奥特曼可能还在烦马斯克的诉讼……最新最强大模型发布此次Claude3家族共有三个型号:小杯Haiku、中杯Sonnet以及大杯Opus,成本和性能依次递增。首先,在性能参数上,Claude3全系多方面全面提升。其中Opus在MMLU、GPQA、GSM8K等评估基准上领先于其他所有模型:还有在视觉能力上,它能可以处理各种视觉格式,包括照片、图表、图形和技术图表。对于这样性能结果,有专业人士表达了自己的看法。比如爱丁堡大学博士生、中文大模型知识评估基准C–Eval提出者之一符尧就表示,像MMLU/GSM8K/HumanEval这些基准,已经严重饱和:所有模型的表现都相同。他认为,真正区分模型性能基准的是MATHandGPQA。另外,在拒绝回答人类问题方面,Claude3也前进了一大步,拒绝回答的可能性显著降低在上下文以及记忆能力上,他们用大海捞针(NeedleInAHaystack,NIAH)来评估衡量大模型从大量数据中准确召回信息的能力。结果Claude3Opus不仅实现了近乎完美的召回率,超过99%的准确率。而且在某些情况下,它甚至能识别出“针“句似乎是人为插入原文的,从而识别出评估本身的局限性。还在生物知识、网络相关知识等方面取得了进步,但出于负责任的考虑,仍处于AI安全级别2(ASL-2)。其次,在响应时间上,Claude3大幅缩短,做到近乎实时。官方介绍,即将发布的小杯Haiku能够在三秒内阅读并理解带有图表的长度约10ktoken的arXiv论文。而中杯Sonnet能够在智能水平更高的基础上,速度比Claude2和Claude2.1快2倍,尤其擅长知识检索或自动化销售等需快速响应的任务。大杯Opus的智能水平最高,但速度不减,与Claude2和Claude2.1近似。官方对三款型号的模型也有清晰的定位。大杯Opus:比别家模型更智能。适用于复杂的任务自动化、研发和制定策略;中杯Sonnet:比其他同类模型更实惠。更适合规模化。适用于数据处理、RAG、在中等复杂度工作流程中节省时间;小杯Haiku:比同类模型更快速、实惠。适用于与用户实时互动,以及在简单工作流程中节省成本;在价格方面,最便宜的小杯定价0.25美元/1Mtokens输入,最贵的大杯定价75美元/1Mtokens输入对比GPT-4Turbo,大杯价格确实高出不少,也能体现AnthropicAI对这款模型非常有信心。第一手实测反馈既如此,那就先免费来尝尝鲜~目前官方页面已经更新,Claude展现了“理解和处理图像”这一功能,包括推荐风格改进、从图像中提取文本、将UI转换为前端代码、理解复杂的方程、转录手写笔记等。即使是模糊不清的有年代感的手记文档,也能准确OCR识别:底下写着:你正在使用他们第二大智能模型Claude3Sonnet。然鹅,可能是人太多的原因,尝试了几次都显示“Failed”不过,网友们也已经po出了一些测试效果,比如让Sonnet解谜题。为其提供一些示例,要求它找出数字之间的关系,比如“1Dimitris2Q3”,意思是3是1和2相加的结果。结果Sonnet成功解出-1.1加8等于6.9,所以“X”的值应该是6.9:还有网友发现Sonnet现在也可以读取ASCII码了,直呼:这是GPT-4++的水平了。在编程任务上,谁写的代码好先不说,Claude3至少不会像GPT-4一样偷懒。还有体验到了Opus的玩家,在线给模型挖坑,可opus硬是完美躲避不上当:初看这效果,感觉还行。这时候应该艾特OpenAI:GPT-5在哪里?好了,感兴趣的朋友,可以戳下方链接体验啦~https://claude.ai/参考链接:[1]https://www.anthropic.com/news/claude-3-family[2]https://twitter.com/AnthropicAI/status/1764653830468428150/photo/1...PC版:https://www.cnbeta.com.tw/articles/soft/1422389.htm手机版:https://m.cnbeta.com.tw/view/1422389.htm

相关推荐

封面图片

Anthropic发布了Claude 3模型,当然,从测试结果来看比GPT-4强很多。#ai#

Anthropic发布了Claude3模型,当然,从测试结果来看比GPT-4强很多。该系列包括三种最先进的型号(按功能升序排列):Claude3Haiku、Claude3Sonnet和Claude3Opus。支持100万Token上下文。你现在可以在Claude开通ClaudePro使用最强大的Claude3Opus模型。详细介绍:Haiku是市场上智能类别中最快速、最具成本效益的模型。它可以在不到三秒的时间内阅读一篇arXiv上信息密集、数据丰富的研究论文(约10,000个标记),包括图表和图形。对于绝大多数工作负载,Sonnet比Claude2和Claude2.1快2倍,并具有更高水平的智能。它擅长需要快速响应的任务,如知识检索或销售自动化。Claude3型号具有与其他领先型号相媲美的复杂视觉能力。它们可以处理各种视觉格式,包括照片、图表、图形和技术图解。Opus、Sonnet和Haiku更不太可能拒绝回答接近系统底线的提示,相比以往的模型,克劳德3模型表现出更加细致的请求理解,识别真实伤害,并且拒绝回答无害提示的频率大大降低。与Claude2.1相比,Opus在这些具有挑战性的开放性问题上的准确性(或正确答案)实现了两倍的改进,同时也展现出了降低的错误答案水平。所有三个模型都能够接受超过100万个标记的输入,可能会向需要增强处理能力的特定客户提供这一功能。Claude3模型更擅长遵循复杂的多步指令。它们特别擅长遵循品牌语调和响应指南,并开发用户可以信任的客户体验。此外,Claude3模型更擅长生成流行的结构化输出,如JSON格式。Opus和Sonnet现已可在API中使用,该API现已普遍可用,使开发人员能够立即注册并开始使用这些模型。Haiku将很快可用。详细信息:

封面图片

Anthropic 发布了更强大的 Claude 3 AI 模型

Anthropic发布了更强大的Claude3AI模型当地时间3月4日,由谷歌和亚马逊共同投资的人工智能初创公司Anthropic宣布推出Claude3人工智能模型系列。该系列包括三个版本:Claude3Haiku、Claude3Sonnet和Claude3Opus,每个后续模型都提供越来越强大的性能。目前Claude3系列可支持处理200ktokens的上下文。其中Opus和Sonnet现已可在claude.ai和ClaudeAPI中使用,Haiku即将推出。据该初创公司称,该系列中功能最强大的Claude3Opus在各种基准测试中均优于竞争对手OpenAI的AI模型GPT-4和谷歌的Gemini1.0Ultra。——

封面图片

laude 3 对比 GPT 4 的优势

Claude3对比GPT4的优势1⃣更高的智能水平:Claude3的旗舰模型Opus在多个领域超越了GPT-4和谷歌的Gemini1.0Ultra,包括本科和研究生水平的知识、数学和复杂任务理解。2⃣更快的响应速度:Claude3可以在实时聊天、自动补全和数据提取等任务中提供几乎即时的响应。其中,Haiku是市场上智能类别最快且性价比最高的模型,可以在不到三秒的时间内阅读一篇带有图表和图形的arXiv论文。3⃣强大的图像处理能力:Claude3具备与其他领先模型相当的图像处理能力,可以处理各种视觉格式,包括照片、图表、图形和技术图解。4⃣减少不必要的拒绝:相较于之前的模型,Claude3的模型(Opus、Sonnet和Haiku)更少地拒绝回答接近系统边界的提示,表现出更加细致的请求理解和更好的拒绝策略。

封面图片

超越GPT-4 Claude 3超大杯成新王

超越GPT-4Claude3超大杯成新王而且不仅仅是Claude3的超大杯Opus成功登顶,藐视众生,Claude3家族的整体表现都非常亮眼。大杯Claude3Sonnet排到了第4,就连最小的Claude3HaiKu都达到了GPT-4水平!那么相比于基准测试跑分,这个榜单的权威性如何?ChatbotArena(聊天机器人竞技场),由伯克利团队开发,每个模型在榜单上的得分,完全取决于真实人类用户的使用体验。我们来看一下打分规则:用户同时向两个匿名模型(比如ChatGPT、Claude、Llama)提出任何相同的问题,然后根据回答投票给表现更好的模型;如果一次回答不能确定,用户可以继续聊天,直到确定获胜者;如果在对话中透露了模型的身份,则不会计算投票。ChatbotArena平台收集了超过40万人的投票,来计算出这个大模型的等级分排行榜,最终找出谁是冠军。显然,这回Claude3赢麻了。我们来看一下真实的战况:在所有非平局对战中,A对B获胜的比例:模型之间的对战次数(无平局):GPT-4终于被干掉了,对此,有网友开始恶搞:刚在当地超市看到SamAltman,他一脸震惊地看着手机。几秒钟后,他真的倒下了,开始剧烈颤抖。经过2分钟的摇晃和尖叫,一群人围绕着他试图帮助他。但令人惊讶的是,他在2分钟后停止了颤抖和尖叫,站起来,拿起手机开始拨打一个号码。“准备释放......”咱也不知道Altman要放的是不是GPT-5。网友表示,Claude确实要比GPT勤奋得多:GPT-4-Turbo非常懒惰。在任何编码任务中,它都会跳过部分代码,并表示“你自己知道要放什么”,而Opus可以毫无遗漏地输出整个代码。就连Claude-2也通过自己的勤奋和耐心感动了这位网友。更有比较务实的网友指出,Haiku的排名更为重要,因为它是第一个可以以极低成本即时运行的LLM,并且具有足够高的智能来提供实时客户服务。盲生你发现了华点!Claude3Haiku不仅与原始版本的GPT-4表现一样好,关键是相当便宜,在一些平台你甚至可以免费使用。大家于是纷纷夸起了Claude3Haiku:智能相当于GPT-4,价格比GPT-3.5便宜,而且据说模型可能只有20B大小。有网友表示,OpenAI不行啦,现在Anthropic才是老大,一时间,平台内外充满了快活的空气。ChatGPT一年零增长回过头来再看ChatGPT这边,从最初的高光、王者,到现在不能说泯然众人吧,反正多少有点寒酸了。最近,有关统计平台曝出:ChatGPT在过去一年中居然零增长!最近一段时间,ChatGPT一直被指责懒惰、系统提示臃肿,而另一方面竞争也愈演愈烈——Claude3和GeminiPro1.5现在都提供了比GPT-4多8倍的上下文长度和更好的recall能力。对于几乎每个ChatGPT用例,现在都有大量垂直化的AI初创公司,致力于满足用户的需求,而不是满足于现有的ChatGPT界面和捆绑工具它们有更好的UI选项(例如IDE和图像/文档编辑器)、更好的原生集成(例如用于cron重复操作)、更好的隐私/企业保护(例如用于医疗保健和金融),更细粒度的控制(GPT的默认RAG是幼稚且不可配置的)。以下是一些网友列举了相关垂直领域的产品,以及公司的融资情况:从某种意义上说,OpenAI的B2B和B2C部分相互竞争,这在某种程度上是良性竞争——OpenAI可以使用来自ChatGPT的RLHF数据进行训练。而新的GPT商店可以看作是,OpenAI为了抓住这些垂直化需求的尝试。——与其离开平台,到处支付20美元/月,为什么不留在ChatGPT内部而只需要支付一次,让OpenAI将理论上的收入分配给GPT创作者?对此,大部分创作者也很明智,一般只向ChatGPT发布精简版的应用,作为自己主要平台的一个渠道。在游戏机业务中,众所周知,购买决策往往是由平台独占游戏驱动的。从某种意义上说,ChatGPT的未来会以平台专属模型为特色。所以,当Sora甚至是GPT-5公开发布时,一定会率先登陆自家的平台,也许那将是下一轮ChatGPT的增长点。...PC版:https://www.cnbeta.com.tw/articles/soft/1425246.htm手机版:https://m.cnbeta.com.tw/view/1425246.htm

封面图片

亚马逊云服务与Anthropic深化合作 Amazon Bedrock新增Claude 3模型

亚马逊云服务与Anthropic深化合作AmazonBedrock新增Claude3模型亚马逊云服务(AWS)宣布,人工智能安全及研究公司Anthropic的领先模型Claude3系列将于AmazonBedrock上提供服务。Claude3系列模型具备行业领先的准确性、效能、速度和成本优势,将强化各规模的企业快速测试、建立和部署生成式AI应用的能力。AmazonBedrock协助客户安全、便捷地使用大语言模型(LLM)和其他基础模型(FM)。客户将可以通过AmazonBedrock存取Claude3系列的三个视觉化模型,即Claude3Opus、Claude3Sonnet和Claude3Haiku。其中Sonnet模型现已正式推出,Opus模型和Haiku模型亦将在未来数周内推出。来源:格隆汇

封面图片

传奇兄妹挑战奥特曼 全球最强AI大模型一夜易主

传奇兄妹挑战奥特曼全球最强AI大模型一夜易主此次Claude3一次性发了三个模型:Claude3Haiku、Claude3Sonnet与Claude3Opus,能力从低到高,能让客户有更多选择。为了更直观地看不同模型的特点,官方贴出了Claude3模型与多个能力基准相当的的同行模型的比较:从这个对比上可以看到Claude在多项AI系统常用评估标准能力中的领先。三个模型中最强的Opus,所有能力皆表现优异,尤其是在研究生级别专家推理(GPQA)、数学、编码等赛道,算得上遥遥领先,完全碾压GPT-4,以及Gemini1.0Ultra。不过,在关注技术领先性之外,此次Claude3的发布还有哪些值得思考的亮点?01出走OpenAI的分歧者Anthropic再次重点强调了Claude大模型的安全性,这也是Anthropic的价值观。提到这一点,就不得不说Anthopic的创立。Anthropic的创始人DarioAmodei和DanielaAmodei兄妹俩,二人原本都是OpenAI的员工。在OpenAI刚刚成立时,原来在Stripe担任CTO的GregBrockman加入OpenAI后,先是从Google将Dario挖了过来负责AI安全,随着OpenAI的发展,Dario一路做到OpenAI研究副总裁的位置。接着Brockman将妹妹Daniela也从Stripe挖到了OpenAI,Daniela同样也是做到了OpenAI安全和政策副总裁的位置。兄妹俩是西方社会非常典型的理想主义者,尤其是妹妹,一直关注穷人、腐败、地球环境等等全球议题。他们加入OpenAI的原因,除了Brockman的原因,最重要的是,当初OpenAI的定位是开源的非营利机构,目标是要为人类构建安全的AGI。不过,随着马斯克的离开和随后微软的加入,OpenAI的定位和价值观都开始发生变化。Dario和Daniela,以及OpenAI的很多员工开始与Altman的理念发生分歧,后来兄妹俩,加上曾在OpenAI负责GPT-3模型的TomBrown一共7个人从OpenAI离开,并在2021年1月成立了Anthropic。Anthropic的意思是“与人类有关的”,从名字就可以看到Anthropic的目标和愿景。Amodei兄妹一直强调,他们的团队有着高度一致的AI安全愿景,创始团队七个人的共同特点是重视AI安全,包括语言模型的可解释性、可控可靠,想让模型更安全,更符合人类价值观,目标是“建立有用、诚实和无害的系统”。这些话术听上去并不陌生,因为这就是OpenAI最初广为人知的愿景的2.0版。但在卖身微软后,商业变成了OpenAI的第一要义,加上对于AI风险不加节制的态度,和宫斗后组织结构上的巨大变化,也让OpenAI和Altman的形象逐渐变得负面。虽然Anthropic的成立时间要比OpenAI晚很多,但Claude的发布时间并不比ChatGPT晚多少,甚至开发完成的时间比ChatGPT更早。根据外媒的报道,Claude之所以没有在第一时间对外发布的最重要原因,是因为Amodei兄妹担心安全问题,认为还需要时日,确保模型安全后,才能真正向世人发布。这也给了ChatGPT和OpenAI率先引发全球关注的机会。不管怎样,目前Claude已经成长为ChatGPT最大的对手,即便是Google,以及作为OpenAI发起人马斯克的大模型,与GPT4和Claude3还是有一段距离的。02安全对策:宪法AI技术从成立之初,Anthropic就有专门的AI安全团队,专门负责降低虚假信息、生物安全滥用、选举干预、隐私等方面的风险,尽可能增强安全性的透明度。Amodei兄妹曾经提到现有的大型语言模型“会说一些可怕、有偏见或不好的话”,比如教用户自杀或杀人,种族主义或性别歧视等等,AI安全研究需要降低甚至排除它们做坏事的可能性。为此,他们在Claude训练中引入了一种叫做“宪法AI(ConstitutionalAI,CAI)”的技术。根据Anthropic的官方解释,在训练过程中,研究人员会定义一些符合人类公序良俗的原则来约束系统的行为,如不得产生威胁人身安全的内容,不得违反隐私或造成伤害等。这些原则包括联合国人权宣言、Apple服务条款的一部分、Anthropic的AI研究实验室原则等等。确保为大模型提供正确的价值观。当然,和世界上任何一种号称要秉持公序良俗的大模型价值观一样,这些原则的选择完全是主观的,并且一定会受到训练它的研究人员的影响。Anthropic也承认这一点,但也表示绝对的公平、正确的价值观肯定是不存在的,只能是尽可能纳入更多元的文化和价值观。该技术的关键在于,研究人员会先训练一个价值观正确的AI,再用它监督训练其他AI,通过AI模型之间的互动与反馈来优化系统,而不是人与模型的互动。该方法被称为基于AI反馈的强化学习(ReinforcementLearningfromAIFeedback,RLAIF),理论上对人类更加可靠与透明。该技术一定程度上牺牲了语言生成的自由度,但理念无疑却是比较受欢迎的,毕竟如今全球对AI的警惕也是越来越高,以马斯克为首的很多人都要求政府严格监管AI,而且这种趋势也正在逐渐形成,各种法规也在陆续出台。值得注意的是,RLAIF在提高大模型安全性的同时,其实还解决了生成式AI互动中的拒绝或回避的问题。在RLAIF之前,行业训练生成式AI的方法都是“基于人类反馈的强化学习”(ReinforcementLearningfromHumanFeedback,RLHF),也就是我们熟知的外包人工给AI做人工筛选、标识、排序等等。但这种人工训练也会产生很多问题,比如人类普遍缺乏积极处理负面要求的能力,这就会导致AI在面对很多负面的问题,和人类的反馈一样,会说,我不知道,我不理解,或者干脆拒绝回答。这也引发一个新问题,不能给出答案意味着没有用,但若是给出答案,又意味着有害,价值观不正确。这也是Anthropic提出RLAIF,并在此基础上训练出“宪法AI”的缘由。在此次Claude3发布时,Anthropic解释说,此前Claude模型经常因为理解不到位,而不必要地拒绝回答。而这一次的Claude3系列,已经在这方面取得了显著改进。在面对可能触及系统安全边界的询问时,大大减少了拒绝回应的情况。如图所示,Claude3模型对请求表现出更细致的理解,能够识别真正的危害,并且因为对上下文理解的增强,拒绝回答无害的提示的频率要要少得多。03OpenAI会收复失地吗作为成立不过两年多的初创公司,眼下无论是规模、估值、收益等等方面,Anthropic都完全无法与OpenAI相提并论。不过,AI安全和人类的利益作为最大的亮点和卖点,这或许会帮Anthropic走出一条与OpenAI不一样的路。虽然短期内难以全面超越OpenAI,但Anthropic的目标并不小,不包括前几轮的投资在内,Anthropic计划在未来筹集50亿美元,以与OpenAI竞争,并进入十几个行业。Anthropic的投资人团队非常强大,包括Skype联合创始人JaanTallinn、Google、Salesforce、Zoom、SK和其他投资方。其中Google用3亿美元换取了该公司10%的股份。这种关系被很多人看作最初微软和OpenAI之间的合作关系,即微软出资,用来支持OpenAI的研究。后来的事情大家也都清楚了,如马斯克的诉状中所说,GPT4本质已经变成微软的产品,OpenAI已经变成了微软的闭源子公司,OpenAI在开发且不断完善AGI以最大化微软的利润,而不是造福人类。不过目前Google与Anthropic的关系,仍仅限于Google是Anthropic的技术支持和资金提供方,而且双方在大模型领域还是竞争对手。至于未来是否会朝微软和OpenAI的方向发生变化,一切都很难料。Claude3发布后,立刻吸引了全球的关注,并被称行业称作“全球最强AI模型”,一夜之间就取代了GPT4的位置。有人在狂欢,为AI技术的飞速进步欢欣鼓舞;也有人为AI领域出现了另一个价值观正确、能制衡OpenAI的巨头而欣慰;当然,更多人将目光投向OpenAI,并且对GPT5寄予了很大的希望,认为GPT5极有可能收复失地,在大语言模型主战场扳回一局。GPT5到底能有多强大?去年Altman在公开的演讲中,提到OpenAI已经开发出了比GPT4更强大、更难以想象的东西,远超人们的期待...PC版:https://www.cnbeta.com.tw/articles/soft/1422484.htm手机版:https://m.cnbeta.com.tw/view/1422484.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人