为什么会有那么多大模型答错「9.9 和 9.11 哪个大」?

为什么会有那么多大模型答错「9.9 和 9.11 哪个大」? 桔了个仔的回答 我猜可能是tokenizer导致的 虽然ChatGPT是闭源,但OpenAI的Tokenizer是开源的(Github地址),也可以通过这个网址直接测试Tokenizer: https://platform.openai.com/tokenizer,我们对这个问题进行tokenize的话,结果如下 可以看到,9.11被拆成了3个token,结果就导致小数前面的9和9比,小数点后面的9和11比。 同样的,Anthropic Claude的Tokenizer也一样 我一个小时前测试时,GPT4, 4o, Claude3.5 sonnet, kimi都翻车了,而通义千问,豆包,文心一言,glm4等大模型都做出了正确的回答,不知道是打了补丁,还是因为中文大模型的Tokenizer不一样?具体结果大家可以看我一小时前发的想法,图太多就不贴进来影响阅读了。 问题很简单,就是: 9.9和9.11哪个大? 没… 不过换个角度来说,当9.9和9.11代表软件版本号是,确实9.11更大。所以从这个角度来讲,也不一定是错误答案。 其实大模型幻觉的成因是多样的,这里仅仅只是简单的分析,即使打上这个补丁,大模型的幻觉还是防不胜防的,大家使用大模型时不要轻信结果,得自己判断结果是否合理。 via 知乎热榜 (author: 桔了个仔)

相关推荐

封面图片

为什么那么多人都不建议复读?

为什么那么多人都不建议复读? Lemon的回答 因为一年 谁也不知道会发生些什么 我18届毕业生,当时学习成绩不好,去年又考的很简单,但我知道自己考得很不好,高考完一直到出成绩那半个月,每天晚上都梦见自己考的很差,然后半夜被吓醒。后来成绩下来了,果然跟自己的预算差不多,只超了本科线八分,我也跟很多人一样非常纠结,到底要不要复读??但还是想到给自己多留一条后路,还是硬着头皮填了志愿,说不定过几天就不想复读了呢??这个分数我只能选几个为数不多的三本学校。六月底填完志愿后就没多想复读的事情,七月底被一个大学录取了,那时候虽然还是有点不甘心,但玩儿了将近两个月,复读的愿望已经不是那么强烈了,准备上大学,后来八月初的时候跟姐姐去日本玩了半个月,我们去了关西大阪,然后又飞了北海道,开开心心来了个毕业之旅,虽然语言不是很通,但会简单的几句英文就可以了,我们去看过了各种好看的风景,也去过各种好玩的地方,8月10号左右还去看了一下北海道大学,从走进去的那一刻开始,心里面那种自卑感,落差感油然而生,心情变得很低落,那时候心里想了很多,或许再来一年会更好!说不定明年就翻身了。就算这一年辛苦又怎么样??也只有一年而已,熬过去就好了,反正我刚上本科线也没什么好顾虑的了,做最坏的打算,大不了明年还是个三本,我还年轻,我怕什么??只要心里还有一丝不甘心就还不到放弃的时候,别让自己后悔,也别留下遗憾!于是终于鼓足了勇气说服自己回去再来一年,接下来的那几天并没有了心情,也没有了玩儿的心思,总之心情很沉重,8月15号晚上的航班回国,到家已经16号凌晨了,睡了一觉醒来打通了复读学校的电话咨询了一下,跟家里商量了一下,好在大家都很支持我,于是17号一早就去学校报了名,那学校不是很好,控制分以下是要收费的,我重本线下88分交了三千块钱的补习例假费,住宿费,校服费一共4440,,,8月21号去报到开始上学了,这一年,我很感激,但更多的是感动,如果不是高四,我不会看见自己跟原来高三时候的不一样 以前的同学人家九月份开学,开开心心去读大学了,朋友圈里各种晒大学新生活,而我们这群复读生顶着大太阳就坐进了补习班,大家的大学生活似乎很多姿多彩,但我已经没有了回头路,而且我也更坚定了好好学习的信念,开始更加努力,在那个新的环境里,全班六十几个人,都不认识,为了引起老师的更多关注,我自荐当了班主任的学科科代表,这样我不用花很多的精力,时间去认识别人,一下子许多人都认识了我,虽然直到开学三个月我也没能认清班上的人,甚至有许多人我至今都没怎么说过话,每天埋头写作业,刷题,不管上下课,完全埋没在了自己的课桌上,办公室里,学习热情,积极性都变得很高,学起来也轻松了不少,本来很热心开朗贪玩儿又爱打扮的一个女孩子一下子安静了不少,根本不顾什么外貌形象,慢慢的我觉得我突然懂事了,长大了,我也知道自己没有精力去关注其他的任何事情,甚至这一年,我没有朋友,最多只会“唉,你帮我看一下这道题??”“唉这个什么意思啊??”不管周围多嘈杂,都与我无关。本子上写满了励志的话来鼓励自己。 学校寝室为了保证学生睡眠,每天10点下晚自习,规定11:20必须熄灯睡觉,不然第二天就会被全年级广播点名批评,但那时精神紧绷的我根本睡不着,偷偷被窝里开着台灯看书,常常梦见自己高考考得跟去年差不多,半夜吓醒,总之,压力真的很大,每天晚上都会想,时至今日已经没有了退路,只能硬着头皮使劲学,常常被窝里偷着哭,很害怕,那种无助感,那种惶恐不安,一直都记忆深刻,但直到现在,从来都不后悔自己的选择 高四这一年,很快,虽然我没有朋友,完全处于封闭自己的状态,因为我觉得这一年,我只需要读书,不需要跟许多人接触,也没必要,但每个周末有半天的休息时间,会和原来的好朋友联系一下,通通电话,但不知不觉其实早已和原来的朋友拉开了差距,关注点不同,话题不同,大家除了许多鼓励的话,就再也不知道聊什么,但其实他们的鼓励真的很重要,真的给了我许多自信。我总是很主动去找老师,慢慢感觉学习也更轻松,成绩提高了不少,但压力越来越大。 高考又如期而至,19年,第二次高考,复读生的压力自然比应届生大很多,这是最后的赌注,高四的我,一模二模三模都上了重本线,所以再次进考场的那一刻,虽然还是很紧张,但比去年,更多了些胸有成竹,最后结果有些意外,但也有一些惊喜,当再次查成绩的时候,重本线下18分。我哭了,虽然还是没能考上重本,但是跟去年相比,好了太多,这样的结果,我没有辜负自己,也没有辜负家人,更没有留下遗憾。 感恩自己,感动自己,种一棵树最好的时间是十年前,其次是现在。 这是我的故事,我的复读之路。 当然,复读请慎重!我有一个同桌去年只考了三百多分,刚开始是最后一名,交了一万多来复读的,但是她整天心思根本没在学习上,作为同桌,我也不忍心她这样浪费时间,但我发现我根本带不动她,她是一个比较单纯的姑娘,但她的脑子里整天就是吃吃吃,玩玩玩,各种打望 最后还是只考了400分,连本科线都没上 还有一个同学,我们寝室一姑娘,原来高三的时候成绩就不错,去年发挥失常,毅然决然选择复读,高四这一年成绩更是很好,我觉得她什么都懂,很厉害,平时一直考班上第一,超重本线几十分,而我只是刚刚上重本线而已,最后不知怎么的,还是失常了,比我还低十多分。所以,心态很重要 你是哪一种呢??不管怎么样,如果你现在也是在纠结复读,我希望你真的给自己一个承诺,就会有一个满意的结果 如果,你下定了决心这一年一定好好努力,那么你要做好这一年,迎接巨大心理压力的准备,也相信你结果一定能令人满意。如果,你只是抱着无所谓的态度,像许多人一样没有一点改变,不能守住自己的内心,没有强大的毅力,那你也只能是浪费一年的青春。 愿安 看了有许多同学都在评论或者私信我,都在困惑要不要去复读的问题。其实我这篇文章仅仅只代表我自己的经历,我也举了两个身边的例子,不是所有人都适合去复读的,这个也需要家里的支持,读过了高三,大家也知道确实是要花一点钱的,住校生的话生活费加学费我一共花了两万多,然后其实大家也可以想一想,复读确实风险挺大的,明年是文理分科最后一年,难度是不好把握的,但参考今年考得比较难,我觉得明年应该可能会比较简单,还有就是,好的大学只是一个比较好的跳板,只能说以后的机会会稍微多一点,希望大家能有自己的选择,毕竟自己的路是自己走的。加油! via 知乎热榜 (author: Lemon)

封面图片

真不能理解为什么会有那么无聊的人

真不能理解为什么会有那么无聊的人 说要约辛辛苦苦讲解推荐介绍 聊了一个多小时快两个小时 确定好时间 旅馆 妹妹这些的 然后说要去开房间 结果下一秒直接把聊天记录都删除了 我就想问 这是人干出来的事吗 第一次这样我忍了 第二次还是这样 是不是太过分了点? 我是哪里做的不好可以告诉我 为什么要耍我真的很气诶 为什么要打破我对客人的信任呢 真心换真心很难吗? 祝这种垃圾客人做爱硬不起来永远早泄.............

封面图片

一年狂揽73亿美元投资 Anthropic点燃硅谷大模型“战火”

一年狂揽73亿美元投资 Anthropic点燃硅谷大模型“战火” Anthropic发布的跑分显示,Opus在多项基准测试中得分都超过了GPT-4 和Gemini 1.0 Ultra,拥有接近人类本科生水平的知识,“在数学、编程、多语言理解、视觉等多个维度树立了新的行业基准”。自去年3月GPT-4发布后,其一直是行业的最高标准以及追赶目标,此次Claude 3的出现,意味着其Top 1地位可能不保,不少人发出“GPT-4时代已过”的感叹。不过,天使投资人、资深人工智能专家郭涛对第一财经表示,这可能是一种过于过激的说法,GPT-4在许多应用中可能会比 Claude 3 更适合。开源大模型生态社区OpenCSG的创始人陈冉也并不认可“时代已过”,他表示,这是一个层级和另外一个层级比,毕竟GPT-4已经出来很长一段时间了。Claude 3之后,大家自然地将目光投向了OpenAI,GPT-5或许已经不远,这是“暴风雨前的宁静”。全面超越GPT-4?据Anthropic官方发布的跑分结果,Claude 3 Opus在本科级别专业知识(MMLU)、研究生级别专家推理(GPQA)、基础数学(GSM8K)等领域都超过了GPT-4在内的领先模型。事实真的如此吗?在Claude 3发布后,陈冉进行了试用和测评,在用他自己的一套方法测试了Opus的逻辑推理、代码等能力后,他认为,Claude 3的整体性能相比GPT-4平均提升了50%以上,包括“幻觉”、正确率和非正确率方面的表现等。从大模型胡乱回答问题的“幻觉”这一项来看,Claude3相比GPT-4要好很多,另外,在 GPT-4中,有些问题不会被回答,但在Claude 3中其回答的正确率提高了。在代码能力和推理上,陈冉测试了贪吃蛇游戏、扑克游戏等,他对第一财经表示,在这些方面GPT-4都失败了,但Claude 3 Opus做到了。在陈冉看来,此次Anthropic的发布策略很好,一次性推出三个不同性能的大模型,最出色的大模型打分都比GPT-4高,较小的模型打分也不低,而在成本上相对轻量的两个模型会比GPT-4便宜。Anthropic此次发布的Opus、Sonnet和Haiku分别针对不同的性能需求和成本效益。据官方介绍,Opus是最智能的模型,可以处理复杂的分析、具有多个步骤的较长任务以及高阶数学和编码任务;Sonnet是性能和速度的最佳组合,可实现高效、大体量的任务;Haiku是最快且最具成本效益的模型,可以执行轻量级操作,具有行业领先的速度。在成本上,能力最好的Claude 3 Opus比 GPT-4 Turbo 还要贵得多:GPT-4 Turbo 每百万token的输入/输出费用为 10/30 美元 ,而 Claude 3 Opus为 15/75 美元。不过,也有更具性价比的选择,Claude 3系列中,Sonnet的输入/输出定价是3 美元/15 美元,Haiku是0.25 美元/1.25 美元。值得一提的是,此次发布的Claude 3系列模型都支持 200k的上下文窗口, Anthropic还特别表示,在这个基础上,所有三个模型都能够接受超过 100 万tokens的输入,会提供给有特定需要的客户。作为对比,2023年更新的GPT-4窗口文本容量限制是32k,而2023年11月更新的GPT-4 turbo版能够接收128k的输入,相当于10万字的小说长度。对大模型来说,上下文窗口的文本长度越大,意味着其能更好地理解长篇文章或对话。此前,上海人工智能实验室领军科学家林达华对第一财经介绍,有了长语境交互,大模型能够读几百页的财报,将里面一些非常细致的信息精准提取出来形成摘要,或者听一场几个小时的会议转录,并将会议的关键信息摘取出来,对于大模型的落地很有用。基于Claude 3在多项能力上超越了GPT-4,行业这两天也出现了“GPT4时代已过”的声音,不过,郭涛认为,Claude 3 在某些基准测试中超过了 GPT-4,并不意味着 GPT-4 的时代已经过去,一方面基准测试并不能全面反映一个模型的全部能力,例如创造性写作、情感理解或特定领域知识方面的表现;另一方面,GPT-4在许多应用中可能会比 Claude 3 更适合,“而OpenAI也在不断研发新的技术和模型,很难说 GPT-4 的时代已经过去。”能与OpenAI一较高下吗对于Claude3这次的超越,在惊叹其表现之余,业界没有太多的意外,Anthropic过去一直被视为OpenAI最大的竞争对手之一。Anthropic的核心团队来自OpenAI,其创始人达里奥·阿莫迪(Dario Amodei)曾是OpenAI的研究副总裁,也是一位与高效利他主义社区有联系的研究员,因对OpenAI的未来方向有一些分歧而离开,并在2021年成立了Anthropic,计划以可信、安全可控的方式发展AI。Anthropic是目前除OpenAI外最被看好的大模型初创公司之一。在过去一年,Anthropic狂揽约73亿美元的投资,其中,亚马逊、Google作为最主要的投资者,分别投资了40亿美元和20亿美元,韩国电信巨头SK下注约1亿美元。就在过去一个月,Anthropic再次获得7.5亿美元的投资,来自硅谷风投机构Menlo Ventures。在未来与OpenAI的竞争中,陈冉认为Anthropic的胜面不小,一方面,其团队在算法上与OpenAI几乎没有差距,且Anthropic背后有亚马逊、Google这样的靠山,算力方面也并不缺,其次,作为背后投资者亚马逊拥有许多生态和场景,相应也能提供很多高质量的数据。陈冉认为,现在大模型竞争最关键的是数据,数据的质量越高越能训练好模型。“最终Claude有可能会赢。因为特色是合规和安全。”在Claude3发布后次日,陈冉在朋友圈表示。相比GPT-4等模型,Claude对安全的强调尤为明显。在技术文档中,Anthropic表示,Claude在训练过程中重点是有帮助、无害和诚实,Anthropic通过给模型一个想法来做到这一点,即一套伦理和行为原则,模型使用这些原则来指导其输出,以避免性别歧视、种族主义和有害的产出,以及避免帮助人类从事非法或不道德的活动。此外,Anthropic还会有安全评估,信任和安全团队会监控违反原则的有害、恶意用例的提示和输出。对于Anthropic未来是否能和 OpenAI 一较高下,郭涛认为这主要取决于几方面的因素。一方面,持续的研发和创新是保持竞争力的关键。如果 Anthropic 能够持续推出先进的技术和改进,它有可能在市场上与 OpenAI 竞争。另一方面,AI 大模型的成功不仅取决于核心技术,还取决于能够建立广泛的生态系统和合作伙伴关系,他认为,OpenAI 在这方面有着较强的影响力和网络效应。此外,如何在商业模式和市场策略上进行创新和调整,也是决定未来竞争格局的重要因素。“大家有共识目前Claude 3已经在部分能力上超越GPT-4,但具体未来能不能比GPT系列好,拭目以待。”陈冉说。Claude 3出现了,GPT-5还会远吗?在Claude 3发布后不久,英伟达高级科学家Jim Fan就在X上发文调侃,“正在等待几个小时后精心安排的GPT-5的发布”。Jim Fan随后表示,“我喜欢Claude在GPT和Gemini主导的竞技场上掀起热度。但请记住,GPT-4V这个每个人都迫切想要超越的高水位线,是在2022年完成训练的。这是暴风雨前的宁静。” ... PC版: 手机版:

封面图片

是面向图文理解的开源多模态大模型系列。该系列模型接受图像和文本输入,并提供高质量的文本输出。目前发布了两个版本的模型,旨在实现领

是面向图文理解的开源多模态大模型系列。该系列模型接受图像和文本输入,并提供高质量的文本输出。目前发布了两个版本的模型,旨在实现领先的性能和高效的部署: MiniCPM-V 2.8B:可在终端设备上部署的先进多模态大模型。最新发布的 MiniCPM-V 2.0 可以接受 180 万像素的任意长宽比图像输入,实现了和 Gemini Pro 相近的场景文字识别能力以及和 GPT-4V 相匹的低幻觉率。 OmniLMM-12B:相比同规模其他模型在多个基准测试中具有领先性能,实现了相比 GPT-4V 更低的幻觉率。

封面图片

全球最强大模型一夜易主 GPT-4被全面超越

全球最强大模型一夜易主 GPT-4被全面超越 几项数学类评测都是用0-shot超越GPT-4的4-8 shot。除此之外,此前就以长下文窗口见长的Claude,此次全系列大模型可提供 200K 上下文窗口,并且接受超过100万Tokens输入。Gemini 1.5 Pro:嗯?目前可以免费体验第二强Sonnet,Opus最强版供Claude Pro付费用户使用,但大模型竞技场也可以白嫖。于是乎,网友们已经开始疯玩上了。(Doge)另外,Opus和Sonnet也开放API访问,开发者可以立即使用。有人直接艾特奥特曼:好了,你现在可以发布GPT-5了。不过奥特曼可能还在烦马斯克的诉讼……最新最强大模型发布此次Claude 3家族共有三个型号:小杯Haiku、中杯Sonnet以及大杯Opus,成本和性能依次递增。首先,在性能参数上,Claude 3全系多方面全面提升。其中Opus在MMLU、GPQA、GSM8K等评估基准上领先于其他所有模型:还有在视觉能力上,它能可以处理各种视觉格式,包括照片、图表、图形和技术图表。对于这样性能结果,有专业人士表达了自己的看法。比如爱丁堡大学博士生、 中文大模型知识评估基准C – Eval提出者之一符尧就表示,像MMLU / GSM8K / HumanEval这些基准,已经严重饱和:所有模型的表现都相同。他认为,真正区分模型性能基准的是MATH and GPQA。另外,在拒绝回答人类问题方面,Claude 3也前进了一大步,拒绝回答的可能性显著降低在上下文以及记忆能力上,他们用大海捞针(Needle In A Haystack,NIAH)来评估衡量大模型从大量数据中准确召回信息的能力。结果Claude 3 Opus 不仅实现了近乎完美的召回率,超过 99% 的准确率。而且在某些情况下,它甚至能识别出 “针 “句似乎是人为插入原文的,从而识别出评估本身的局限性。还在生物知识、网络相关知识等方面取得了进步,但出于负责任的考虑,仍处于AI安全级别2(ASL-2)。其次,在响应时间上,Claude 3大幅缩短,做到近乎实时。官方介绍,即将发布的小杯Haiku能够在三秒内阅读并理解带有图表的长度约10k token的arXiv论文。而中杯Sonnet能够在智能水平更高的基础上,速度比Claude 2和Claude 2.1快2倍,尤其擅长知识检索或自动化销售等需快速响应的任务。大杯Opus的智能水平最高,但速度不减,与Claude 2和Claude 2.1近似。官方对三款型号的模型也有清晰的定位。大杯Opus:比别家模型更智能。适用于复杂的任务自动化、研发和制定策略;中杯Sonnet:比其他同类模型更实惠。更适合规模化。适用于数据处理、RAG、在中等复杂度工作流程中节省时间;小杯Haiku:比同类模型更快速、实惠。适用于与用户实时互动,以及在简单工作流程中节省成本;在价格方面,最便宜的小杯定价0.25美元/1M tokens输入,最贵的大杯定价75美元/1M tokens输入对比GPT-4 Turbo,大杯价格确实高出不少,也能体现AnthropicAI对这款模型非常有信心。第一手实测反馈既如此,那就先免费来尝尝鲜~目前官方页面已经更新,Claude展现了“理解和处理图像”这一功能,包括推荐风格改进、从图像中提取文本、将UI转换为前端代码、理解复杂的方程、转录手写笔记等。即使是模糊不清的有年代感的手记文档,也能准确OCR识别:底下写着:你正在使用他们第二大智能模型Claude 3 Sonnet。然鹅,可能是人太多的原因,尝试了几次都显示“Failed”不过,网友们也已经po出了一些测试效果,比如让Sonnet解谜题。为其提供一些示例,要求它找出数字之间的关系,比如“1 Dimitris 2 Q 3”,意思是3是1和2相加的结果。结果Sonnet成功解出-1.1加8等于6.9,所以“X”的值应该是6.9:还有网友发现Sonnet现在也可以读取 ASCII 码了,直呼:这是GPT-4 ++的水平了。在编程任务上,谁写的代码好先不说,Claude 3至少不会像GPT-4一样偷懒。还有体验到了Opus的玩家,在线给模型挖坑,可opus硬是完美躲避不上当:初看这效果,感觉还行。这时候应该艾特OpenAI:GPT-5在哪里?好了,感兴趣的朋友,可以戳下方链接体验啦~ ... PC版: 手机版:

封面图片

12个国产大模型大战高考数学 意外炸出个大bug

12个国产大模型大战高考数学 意外炸出个大bug 继国产大模型挑战高考作文之后,是时候再战一下高考数学了。数学高考Ⅰ卷的题目,目前已经陆陆续续在网上有所公布(图片格式)。那么现在,是时候考验国产大模型们的数学能力了。有请“选手们”登场Kimi、通义千问、文心一言、豆包、智谱清言、百小应、讯飞星火、商量、腾讯元宝、天工、海螺AI、万知。国产大模型 vs 高考数学选择题根据数学题目类型的不同,我们先来小试牛刀一下选择题。测评的方式是将题目(图片格式)“喂”给国产大模型们,要求它们给出相应题目的答案:查看题目,给出第1题到第8题的答案。接下来,我们就来一同看下国产大模型们的表现。Kimi通义千问豆包智谱清言百小应讯飞星火商量腾讯元宝海螺AI万知不难看出,很多国产大模型还未做数学题,先败在了AI识图这个步骤,无法生成答案。(PS:有几位选手测试时因为无法识别,未能完成答题,因此没有放出结果。)那么我们最后来看下“踢馆选手”GPT-4o。国产大模型 vs 数学大题鉴于一些国产大模型AI识图有点困难,我们这次直接先把这次高考的大题题目文字给copy出来,再让它们作答:设n为正整数,数列 ( a1, a_2, cdots, a{4m+2} ) 是公差不为0的等差数列。若从中抽去项 ( ai ) 和 ( a_j ) (i < j) 后剩余的 ( 4m ) 项可被平均分为 m 组,且每组的 4 个数都能构成等差数列,则称数列 ( a_1, a_2, cdots, a{4m+2} ) 是 (i, j) - 可分数列。(1) 写出所有的 (i, j) (1 ≤ i < j ≤ 6),使得数列 ( a_1, a_2, a_3, a_4, a_5, a_6 ) 是 (i, j) - 可分数列;(2) 当 ( m = 3 ) 时,证明:数列 ( a1, a_2, cdots, a{13} ) 是 (2, 13) - 可分数列;(3) 设 ( a1, a_2, cdots, a{4m+2} ) 是 (i, j) - 可分数列。记数列 ( a1, a_2, cdots, a{4m+2} ) 中任取两个数和 i (i < j),则数列是 (i, j) - 可分数列的概率为 ( p_n ),证明:( p_n geq frac{1}{8} )。接下来,我们再来看下国产大模型们的表现。Kimi通义千问文心一言豆包智谱清言百小应讯飞星火商量腾讯元宝天工海螺AI万知最后,还是有请“踢馆选手”GPT-4o。那么,你觉得国产大模型们,识图+解数学题,哪家比较好一点呢?最后,关于AI智能助手,这里也有一份最新用户数据分析报告供你参考: ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人