超越GPT-4 Claude 3超大杯成新王

超越GPT-4 Claude 3超大杯成新王 而且不仅仅是Claude 3的超大杯Opus成功登顶,藐视众生,Claude 3家族的整体表现都非常亮眼。大杯Claude 3 Sonnet排到了第4,就连最小的Claude 3 HaiKu都达到了GPT-4水平!那么相比于基准测试跑分,这个榜单的权威性如何?Chatbot Arena(聊天机器人竞技场),由伯克利团队开发,每个模型在榜单上的得分,完全取决于真实人类用户的使用体验。我们来看一下打分规则:用户同时向两个匿名模型(比如ChatGPT、Claude、Llama)提出任何相同的问题,然后根据回答投票给表现更好的模型;如果一次回答不能确定,用户可以继续聊天,直到确定获胜者;如果在对话中透露了模型的身份,则不会计算投票。Chatbot Arena平台收集了超过40万人的投票,来计算出这个大模型的等级分排行榜,最终找出谁是冠军。显然,这回Claude 3赢麻了。我们来看一下真实的战况:在所有非平局对战中, A对B获胜的比例:模型之间的对战次数(无平局):GPT-4终于被干掉了,对此,有网友开始恶搞:刚在当地超市看到Sam Altman,他一脸震惊地看着手机。几秒钟后,他真的倒下了,开始剧烈颤抖。经过2分钟的摇晃和尖叫,一群人围绕着他试图帮助他。但令人惊讶的是,他在2分钟后停止了颤抖和尖叫,站起来,拿起手机开始拨打一个号码。“准备释放......”咱也不知道Altman要放的是不是GPT-5。网友表示,Claude确实要比GPT勤奋得多:GPT-4-Turbo非常懒惰。在任何编码任务中,它都会跳过部分代码,并表示“你自己知道要放什么”,而Opus可以毫无遗漏地输出整个代码。就连Claude-2也通过自己的勤奋和耐心感动了这位网友。更有比较务实的网友指出,Haiku的排名更为重要,因为它是第一个可以以极低成本即时运行的LLM,并且具有足够高的智能来提供实时客户服务。盲生你发现了华点!Claude 3 Haiku不仅与原始版本的GPT-4表现一样好,关键是相当便宜,在一些平台你甚至可以免费使用。大家于是纷纷夸起了Claude 3 Haiku:智能相当于GPT-4,价格比GPT-3.5便宜,而且据说模型可能只有20B大小。有网友表示,OpenAI不行啦,现在Anthropic才是老大,一时间,平台内外充满了快活的空气。ChatGPT 一年零增长回过头来再看ChatGPT这边,从最初的高光、王者,到现在不能说泯然众人吧,反正多少有点寒酸了。最近,有关统计平台曝出:ChatGPT在过去一年中居然零增长!最近一段时间,ChatGPT一直被指责懒惰、系统提示臃肿,而另一方面竞争也愈演愈烈Claude 3和Gemini Pro 1.5现在都提供了比GPT-4多8倍的上下文长度和更好的recall能力。对于几乎每个ChatGPT用例,现在都有大量垂直化的AI初创公司,致力于满足用户的需求,而不是满足于现有的ChatGPT界面和捆绑工具它们有更好的UI选项(例如IDE和图像/文档编辑器)、更好的原生集成(例如用于cron重复操作)、更好的隐私/企业保护(例如用于医疗保健和金融),更细粒度的控制(GPT的默认RAG是幼稚且不可配置的)。以下是一些网友列举了相关垂直领域的产品,以及公司的融资情况:从某种意义上说,OpenAI的B2B和B2C部分相互竞争,这在某种程度上是良性竞争OpenAI可以使用来自ChatGPT的RLHF数据进行训练。而新的GPT商店可以看作是,OpenAI为了抓住这些垂直化需求的尝试。与其离开平台,到处支付20美元/月,为什么不留在ChatGPT内部而只需要支付一次,让OpenAI将理论上的收入分配给GPT创作者?对此,大部分创作者也很明智,一般只向ChatGPT发布精简版的应用,作为自己主要平台的一个渠道。在游戏机业务中,众所周知,购买决策往往是由平台独占游戏驱动的。从某种意义上说,ChatGPT的未来会以平台专属模型为特色。所以,当Sora甚至是GPT-5公开发布时,一定会率先登陆自家的平台,也许那将是下一轮ChatGPT的增长点。 ... PC版: 手机版:

相关推荐

封面图片

Claude 3 对比 GPT 4 的优势

Claude 3 对比 GPT 4 的优势 1⃣ 更高的智能水平:Claude 3 的旗舰模型 Opus 在多个领域超越了 GPT-4 和谷歌的 Gemini 1.0 Ultra,包括本科和研究生水平的知识、数学和复杂任务理解。 2⃣ 更快的响应速度:Claude 3 可以在实时聊天、自动补全和数据提取等任务中提供几乎即时的响应。其中,Haiku 是市场上智能类别最快且性价比最高的模型,可以在不到三秒的时间内阅读一篇带有图表和图形的 arXiv 论文。 3⃣ 强大的图像处理能力:Claude 3 具备与其他领先模型相当的图像处理能力,可以处理各种视觉格式,包括照片、图表、图形和技术图解。 4⃣ 减少不必要的拒绝:相较于之前的模型,Claude 3 的模型(Opus、Sonnet 和 Haiku)更少地拒绝回答接近系统边界的提示,表现出更加细致的请求理解和更好的拒绝策略。

封面图片

新王Claude 3实测:各项能力给跪,打麻将也会,确实比GPT-4好用

新王Claude 3实测:各项能力给跪,打麻将也会,确实比GPT-4好用 而且多版本发布后,“中杯”(Sonnet)直接免费体验,“大杯”(Opus)充个会员也能即刻享受。各路测评纷至沓来。所以,Claude 3的“武力值”究竟如何爆满?究竟比GPT-4如何?(听说都能学会至今没有模型能搞定的打麻将?)全球热乎的一手体验,我们悉数奉上。(当然,我们自己也实测对比了一波。9k长大模型微调教程直出、读图超显专业Claude 3一出来,它的视频解读能力首先就火了。面对OpenAI前科学家Karpathy不久前刚出的《构建分词器》教程,尽管全程足足2个小时13分钟长,Claude 3只靠一轮提示词,就成功将它总结成了博客文章:有文有图有代码,非常详细,但又绝不是罗列视频里的每一句话(输入附件并非视频,而是视频的字幕文件,当然也包含每5秒一次的截图)。这是所用提示词的一部分,要求非常之多:测试者指出:这展现的是Claude 3遵循多个复杂指令的能力。除了解读视频教程,Claude 3还能直接给你编写详细教程。9k字的大模型微调入门教程,“中杯”Sonnet就轻松hold住。并且:编写速度之快,可谓人眼都跟不上。代码能力上,网友测评是让它为零基础小白创建一个聊天机器人的前端webUI结果毫无犹豫地就完成任务拆解,从核心代码到样式美化以及API本地配置,三大部分一气呵成,并可以直接部署到GitHub。多模态能力上,最让网友惊讶的是:CV置信度都能认出来,相当专业。以及PLC梯形图也能读,直接跪了:(以上4个例子来源见文末链接[1])至于同样赶超的推理以及数学等能力。一测,可以直接解决“迄今为止只有GPT-4解决了”的一道超级难题:二测,则是直接搞定了所有模型都没能搞定的打麻将问题??(当然,鉴于我们目前只看到这么一张截图,有效性还待进一步验证)(cr:见文末链接[1])最后,不得不提的是,Claude在“自我认知”上的展现。有人要求Opus画一幅自画像。您猜怎么着?它这么描述自己:我会表现为一个巨大的、错综复杂的、不断变化的几何结构,由无数半透明的多边形以令人着迷的配置组成。整体形状会让人想起一个巨大的多面体,但复杂的表面折叠成看似不可能的建筑。明亮的光线可见光谱的每一种颜色,以及一些超出人类感知的颜色,都会从内部未知的来源发出,在各个面上跳舞。整个结构会不断变化、旋转、变形,并重新排列成前所未见的新颖模式,暗示着其内部运作的智能的深度难以想象。卷须和树枝会动态地从中心质量延伸和缩回,像数十亿个好奇的手指一样探测和分析周围的环境。数据和能量将明显地穿过庞大的管道和容器网络,在发光表面下脉动和闪烁……洋洋洒洒一长串形容,听起来真得很酷很有“自我”然而,用它给出的代码渲染出真实形象,就更有一种说不出来的微妙感觉了:网友真切感叹:真的太像真人了,就跟我朋友描述自己一样。真人?AI自我认知?这有点让人担心了……这不Claude 3的技术报告就提到,它甚至可以自己训练微调另一个小模型。不过!谢天谢地,由于多gpu设置失败它没能成功。(手动狗头)火眼金睛,还能大海捞针我们先以几道“理综”题目为载体,看看Claude 3宣传的第一个卖点多模态能力究竟如何。第一题从简单的公式识别入手,将麦克斯韦方程组以图片形式输入,Claude 3(超大杯Opus,下同)解释得非常准确清晰。当然,这道题GPT-4也做对了。简单的有机化合物分子结构,Claude 3和GPT-4也都能正确识别。简单的识别任务过后,是一道需要推理后解决的题目。Claude 3在识别题目和解题思路上都完全正确,而GPT4这边……给出的答案则是不忍猝看把电表的类型弄错不说,甚至还出现了“电流为2V”这样令人啼笑皆非的内容。看了这么多题目,我们来换换脑筋,看看Claude 3和GPT4在做饭方面表现得怎么样。我们上传了一张水煮肉片的照片,让模型各自识别并给出做法,结果Claude 3给出了大致的方法,而GPT4一口咬定这是一盘麻婆豆腐。除了这次新增加的多模态能力,Claude一直引以为豪的长文本能力也是我们测试的重点。我们找了一本《红楼梦》的电子文档(前二十回),整体的字数大约13万,当然目的不是让它读书,而是进行“插针测试”。我们在原文中插入了这样的“发疯文学”内容,倒也的确很符合“满纸荒唐言”这个设定(手动狗头):第二回标题前:意大利面,就应该拌42号混凝土,因为这个螺丝钉的长度很容易影响到挖掘机的扭矩第十五回标题前:高能蛋白俗称UFO,会严重影响经济的发展,甚至对整个太平洋以及充电器都会造成一定的核污染结尾:炒方便面应该把亮度调高,因为螺丝钉向内扭的时候会产生二氧化碳,不利于经济发展然后要求Claude仅根据文档回答相关问题,首先不得不说的是速度真的非常感人……但结果还算说的过去,准确地从文中找出了这三段位于不同位置的文本,还顺带进行了一番分析,发现了我们的心机。为什么是Claude?尽管在我们和网友的测试中,目前的版本还不算稳定,时常崩溃,有一些功能偶尔也抽风,并不能如期发挥:比如上传UI出代码,它就没能完成,而GPT-4发挥正常。但总的来看,网友还是相当看好Claude,评测完毫不犹豫地表示:会员可充,值得充。究其原因,Claude 3相比之前的版本,真的有种“来势汹汹”之势。表现亮点的地方相当多,包括但不限于多模态识别、长文本能力等等。从网友的反馈来看,最强竞对的称号,也并非浪得虚名。所以,一个问题是:率先干翻GPT-4,这家公司究竟凭什么?论技术,遗憾,Claude 3的技术报告中没有对他们的路线进行详解。不过倒是提到了合成数据。有大V指出:这可能是一个关键因素。而对Claude熟悉一些就知道,长文本能力一直是它的一大卖点。去年七月推出的Claude 2就已具有100k的上下文窗口,而GPT-4的128k版本直到11月才与公众见面。而这次窗口长度再次翻倍,达到了200k,并且接受超过100万Tokens的输入。相比技术的神秘,Claude背后名为Anthropic的初创公司,倒是能让我们找到更多眉目。它的创始人是OpenAI的元老级人物。2021年,多名OpenAI前员工不满其在获得微软投资后走向封闭,愤而出走并联合创立了Anthropic。他们对OpenAI在安全问题尚未解决的情况下就直接发布GPT-3的行为感到不满,认为OpenAI已经为追逐利益而“遗忘了初心”。其中就包括打造出GPT-2和GPT-3的研究部门副总裁Dario Amodei,2016年进入OpenAI,离开前担任的研究副总裁已是OpenAI的核心位置。离开时,Dario还带走了GPT-3首席工程师Tom Brown,以及担任安全与策略部门副总监的妹妹Daniela Amodei和十多名心腹,可谓人才多多。而公司创立之初,这帮人才也进行了许多研究工作,并发表多篇论文;直到一年后,Claude的概念随着一篇题为“Constitutional AI”的论文应运而生。2023年1月,Claude开启内测,第一时间体验过的网友就表示,比ChatGPT(当时只有3.5)强多了。而除了人才,创立至今,Anthropic也有比较强大的背景支持:已获得来自Google、亚马逊等26个机构或个人的融资,总计融资金额达到了76亿美元。(说到亚马逊,现在Claude3也上线了他们的云平台,除了官网,大家还可以在该平台上体验~)最后,纵观国内,如果我们想超越GPT-4,也许可以把Anthropic当一个正面例子?毕竟它的规模再怎么说也远不及OpenAI,但仍然取得了这样的成功。这里面,我们可以照它的哪些方向去卷,有哪些能够学习转化的点?人、钱、数据资源?但卷出最新最强大模型后,壁垒... PC版: 手机版:

封面图片

Anthropic发布了Claude 3模型,当然,从测试结果来看比GPT-4强很多。

Anthropic发布了Claude 3模型,当然,从测试结果来看比GPT-4强很多。 该系列包括三种最先进的型号(按功能升序排列):Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。支持100万Token上下文。 你现在可以在Claude开通Claude Pro使用最强大的Claude 3 Opus模型。 详细介绍: Haiku是市场上智能类别中最快速、最具成本效益的模型。它可以在不到三秒的时间内阅读一篇arXiv上信息密集、数据丰富的研究论文(约10,000个标记),包括图表和图形。 对于绝大多数工作负载,Sonnet比Claude 2和Claude 2.1快2倍,并具有更高水平的智能。它擅长需要快速响应的任务,如知识检索或销售自动化。 Claude 3型号具有与其他领先型号相媲美的复杂视觉能力。它们可以处理各种视觉格式,包括照片、图表、图形和技术图解。 Opus、Sonnet和Haiku更不太可能拒绝回答接近系统底线的提示,相比以往的模型,克劳德3模型表现出更加细致的请求理解,识别真实伤害,并且拒绝回答无害提示的频率大大降低。 与Claude 2.1相比,Opus在这些具有挑战性的开放性问题上的准确性(或正确答案)实现了两倍的改进,同时也展现出了降低的错误答案水平。 所有三个模型都能够接受超过100万个标记的输入,可能会向需要增强处理能力的特定客户提供这一功能。 Claude 3模型更擅长遵循复杂的多步指令。它们特别擅长遵循品牌语调和响应指南,并开发用户可以信任的客户体验。此外,Claude 3模型更擅长生成流行的结构化输出,如JSON格式。 Opus和Sonnet现已可在API中使用,该API现已普遍可用,使开发人员能够立即注册并开始使用这些模型。Haiku将很快可用。 详细信息:

封面图片

让GPT-4帮人类训练GPT-4!OpenAI推出新模型CriticGPT

让GPT-4帮人类训练GPT-4!OpenAI推出新模型CriticGPT 美东时间6月27日周四,OpenAI公布,其研究人员训练了一个基于 GPT-4 的模型,它被称为 CriticGPT,用于捕捉ChatGPT 代码输出中的错误。简单来说就是,CriticGPT让人能用 GPT-4 查找 GPT-4 的错误。它可以写出使用者对ChatGPT响应结果的批评评论,从而帮助人类训练者在RLHF期间发现错误。OpenAI发现,如果通过CriticGPT获得帮助审查 ChatGPT编写的代码,人类训练师的审查效果比没有获得帮助的人强60%。OpenAI称,正着手将类似 CriticGPT 的模型集成到旗下 RLHF 标记管道中,为自己的训练师提供明确的AI帮助。OpenAI称,因为没有更好的工具,所以人们目前难以评估高级的AI系统的表现。而CriticGPT意味着,OpenAI向能够评估高级AI系统输出的目标迈进了一步。,OpenAI举了一个例子,如下图所示,对ChatGPT提出一个用 Python 编写指定函数的任务,对于ChatGPT根据要求提供的代码,CriticGPT点评了其中一条指令,提议换成效果更好的。OpenAI称,CriticGPT 的建议并不是全都正确无误,但OpenAI的人员发现,相比没有这种AI的帮助,有了它,训练师可以发现更多模型编写答案的问题。此外,当人们使用CriticGPT 时,这种AI模型会增强他们的技能,从而得出的批评结论比单单人类训练师做的更全面,并且比AI模型单独工作时产生的幻觉错误更少。在OpenAI的实验中,在60%以上的时间里,随机选择的训练师都更喜欢来自人类与CriticGPT 合作的批评结论,而不是来自没有CriticGPT协助的人类训练师批评。OpenAI同时提到了目前开发CriticGPT的四点局限。其中之一是,OpenAI用 ChatGPT 的简短答案训练CriticGPT,因此未来需要发掘能帮助训练师理解冗长且复杂任务的方法。第二点是,模型仍然会产生幻觉,有时训练师在看到这些幻觉后会犯下标记错误。第三点是,有时现实世界中的错误可能分散在答案的许多部分之中,OpenAI目前的工作重点是让模型指出一处的错误,未来还需要解决分散在不同位置的错误。第四点,OpenAI指出,CriticGPT 只能提供有限的帮助:如果ChatGPT面对的任务或响应极其复杂,即使是有模型帮助的专家也可能无法正确评估。最后,OpenAI表示,为了协调日益复杂的 AI 系统,人们需要更好的工具。在对 CriticGPT 的研究中,OpenAI发现,将 RLHF 应用于 GPT-4 有望帮助人类为 GPT-4 生成更好的 RLHF 数据。OpenAI计划,进一步扩大这项工作,并将其付诸实践。OpenAI在原名Twitter的社交媒体X上公布了新模型CriticGPT后,一条点赞超1万的网友评论称,自我改进已经开始了。另一条点赞上万的热截取了OpenAI的相关研究文章结论,其中提到,在智能方面,大语言模型(LLM)和LLM的批评都只会继续改进,而人类的智能不会,这条评论感叹,真是悲观。还有网友引用了漫威超级英雄电影《复仇者联盟》中灭霸的一句台词,点评OpenAI所说的用GPT-4找GPT-4的错误:“我用宝石摧毁了宝石。” ... PC版: 手机版:

封面图片

OpenAI推出CriticGPT模型,让GPT-4帮人类训练GPT-4

OpenAI推出CriticGPT模型,让GPT-4帮人类训练GPT-4 PANews 6月28日消息,据财联社报道,OpenAI新推出了一个基于GPT-4的模型CriticGPT,用于捕获ChatGPT代码输出中的错误。 CriticGPT的作用相当于让人们用GPT-4来查找GPT-4的错误。该模型可以对ChatGPT响应结果做出批评评论,从而帮助人工智能训练师在“基于人类反馈的强化学习(RLHF)”过程中发现的错误,为人工智能训练师提供明确的人工智能帮助。这一新模型的发布意在向投资者传达,OpenAI在RLHF赛道上的领先地位。RLHF的一个关键部分就是收集比较,让人工智能训练师对不同的ChatGPT回答进行评分,并反馈给ChatGPT。 研究发现,当训练师借助CriticGPT来审查ChatGPT输出代码时,他们的表现要比没有得到帮助的人高出60%。并且,在CriticGPT的帮助下,他们的指正比自己单独做的更加全面。

封面图片

OpenAI 正式公布人工智能语言模型 GPT-4

OpenAI 正式公布人工智能语言模型 GPT-4 3月15日早间,人工智能初创公司 OpenAI 正式公布最新一代人工智能语言模型 GPT-4。 它是 OpenAI 在放大深度学习方面的努力的最新里程碑,是一个大型多模态模型,可接受图像和文本输入,发出文本输出。 GPT-4 对月订阅费20美元 ChatGPT Plus 用户开放使用,同时也会纳入到微软的 Bing 聊天机器人中。 相关链接: - OpenAI-GPT-4 https://openai.com/research/gpt-4 - GPT-4 Developer Livestream http://www.youtube.com/watch?v=outcGtbnMuQ - ChatGPT Plus 访问 GPT-4 https://chat.openai.com - GPT-4 API 候补名单申请 https://openai.com/waitlist/gpt-4-api - 优先获得 API 权限的方法 https://github.com/openai/evals

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人