大模型集体“失智”：9.11 和 9.9 哪个大，几乎全翻车了

大模型集体“失智”：9.11和9.9哪个大，几乎全翻车了近日，有博主在使用GPT-4o时偶然发现，当提问：9.11and9.9——whichisbigger?GPT-4o竟毫不犹豫回答前者更大。面对这一常识性“错误”，他不死心地又去问了其他大模型，结果几乎全军覆没。而在国内大模型上，Kimi、ChatGLM、文心一言等也都是回答前者更大。不过由于百度给出了分析过程，让我们得以解惑。原来大模型把9.11拆分为9、小数点和11，11自然是比9要大。不过也有网友认为，像版本号、书籍目录等，9.11比9.9要大，AI可能混淆了这部分数据。关注频道@ZaiHuaPd频道爆料@ZaiHuabot

在Telegram中查看

相关推荐

月之暗面回应大模型称9.11大于9.9：边界案例有助于我们增加对大模型能力边界的了解

月之暗面回应大模型称9.11大于9.9：边界案例有助于我们增加对大模型能力边界的了解针对之前“大模型测不出9.11和9.9哪个大”这一热门议题，月之暗面回应表示：“其实我们人类对大模型的能力探索——无论是大模型能做到什么，还是大模型做不到什么——都还处于非常早期的阶段。我们非常期待用户在使用中能够发现和报告更多的边界案例（CornerCase），不管是最近的‘9.9和9.11哪个大、13.8和13.11哪个大’，还是之前的‘strawberry有几个r’，这些边界案例的发现，有助于我们增加对大模型能力边界的了解。”不过，另有企业内部人员表示，“在一些场景，9.11确实比9.9大，版本号9.11是比9.9大，日期9.11是比9.9大，章节9.11章节也比9.9大……”该人士指出，“大模型学到的更多是上述这样的内容，之前也没人类来这么问他，所以他就没有跟人类的需求对齐，下一步对齐一下就好了。”关注频道@ZaiHuaPd投稿爆料@ZaiHuabot

OpenAI发布最新旗舰生成式AI模型GPT-4o 改进文本、视觉和音频功能

OpenAI发布最新旗舰生成式AI模型GPT-4o改进文本、视觉和音频功能穆拉提在OpenAI办公室举行的主题演讲上说：GPT-4o的理由横跨语音、文本和视觉。OpenAI将发布桌面版ChatGPT和全新的用户界面。穆拉提说："我们知道这些模型越来越复杂，但我们希望交互体验变得更自然、更简单，让你完全不用关注用户界面，而只关注与GPT的协作。这一点非常重要，因为我们正在展望人类与机器之间互动的未来。"GPT-4是OpenAI之前的领先模型，它是图像和文本的结合体，可以分析图像和文本，完成从图像中提取文本甚至描述图像内容等任务。但GPT-4o增加了语音功能。这具体能带来什么？很多方面。GPT-4o极大地改善了ChatGPT的体验--ChatGPT是OpenAI的病毒式人工智能聊天机器人。ChatGPT长期以来一直提供语音模式，使用文本到语音模式转录ChatGPT中的文本。但GPT-4o对此进行了改进，让用户可以更像使用助手一样与ChatGPT互动。例如，用户可以向由GPT-4o支持的ChatGPT提问，并在ChatGPT回答时打断它。OpenAI表示，该模型能提供"实时"响应，甚至能捕捉用户声音中的情感，并生成"一系列不同情感风格"的语音。GPT-4o还改进了ChatGPT的视觉功能。有了照片或桌面屏幕，ChatGPT现在可以快速回答相关问题，从"这个软件代码是怎么回事"到"这个人穿的是什么牌子的衬衫？其他方面，OpenAI将发布桌面版ChatGPT和全新的用户界面。穆拉提说："我们知道这些模型越来越复杂，但我们希望交互体验变得更自然、更简单，让你完全不用关注用户界面，而只关注与[GPT]的协作。"...PC版：https://www.cnbeta.com.tw/articles/soft/1430761.htm手机版：https://m.cnbeta.com.tw/view/1430761.htm

Scale AI发布首个大语言模型排行榜对特定领域的AI模型性能进行排名

ScaleAI发布首个大语言模型排行榜对特定领域的AI模型性能进行排名SEAL排行榜显示，OpenAI的GPT系列LLM在其用于人工智能模型排名的四个初始领域中的三个领域排名第一，AnthropicPBC广受欢迎的Claude3Opus在第四个领域排名第一。GoogleLLC的Gemini模型也表现出色，在其中几个领域与GPT模型并列第一。ScaleAI表示，它之所以创建SEAL排行榜，是因为现在有数以百计的LLM可供公司使用，而人工智能的表现却缺乏透明度。这些排行榜由ScaleAI的安全、评估和对齐实验室（Safety,Evaluations,andAlignmentLab）开发，并声称通过拒绝透露其用于评估LLM的提示的性质来保持中立性和完整性。该公司指出，虽然也有其他对LLM进行排名的努力，如MLCommons的基准和斯坦福HAI的透明度指数，但其在人工智能训练数据方面的专业知识意味着它在克服人工智能研究人员所面临的一些挑战方面具有独特的优势。例如，ScaleAI指出，MLCommon的基准是公开的，因此公司可以对其模型进行专门训练，以准确响应他们使用的提示。SEAL开发了私有的评估数据集，以保持其排名的完整性，据说其测试是由经过验证的领域专家创建的。此外，所使用的提示和给出的排名都经过仔细评估，以确保其可信度，同时通过公布所使用评估方法的明确解释来确保透明度。ScaleAI表示，在ScaleCoding领域，每个模型都要在随机选择的提示上与评估中的其他模型进行至少50次比较，以确保结果的准确性。编码评估试图评估每个模型生成计算机代码的能力，排行榜显示，OpenAI的GPT-4TurboPreview和GPT-4o模型与Google的Gemini1.5Pro（I/O后）并列第一。之所以将它们并列第一，是因为ScaleAI只声称其评估分数的置信度为95%，而且前三名之间的差距很小。尽管如此，GPT-4TurboPreview似乎略胜一筹，获得了1155分，GPT-4o以1144分位居第二，Gemini1.5Pro（PostI/O）获得了1112分。在多语言领域，GPT-4o和Gemini1.5Pro（PostI/O）并列第一，得分分别为1139分和1129分，GPT-4Turbo和GeminiPro1.5（PreI/O）紧随其后，并列第三。GPT-4o在"指令跟踪"领域也名列前茅，获得88.57分，GPT-4TurboPreview以87.64分名列第二。结果表明，Google在这一领域仍需努力，因为OpenAI最接近的竞争对手是MetaPlatforms公司的开源Llama370bInstruct（得分85.55）和Mistral公司的MistralLargeLatestLLM（得分85.34）。最后，ScaleAI测试了LLM的数学能力。事实证明，Anthropic的Claude3Opus以95.19的高分拔得头筹，无可争议地获得了第一名，超过了95.10的GPT-4TurboPreview和94.85的GPT-4o。这些比较很有意思，但似乎还不能说明全部问题，因为有很多备受瞩目的龙8国际娱乐城似乎没有被纳入评估范围。例如，AI21实验室公司的Jurassic和Jamba以及Cohere公司的Aya和CommandLLM在所有四项评估中都明显缺席，埃隆-马斯克（ElonMusk）的生成式人工智能初创公司xAICorp.建立的Grok模型也是如此。好消息是，ScaleAI可能会解决LLM排行榜不完整的问题。该公司表示，它打算每年多次更新排行榜，以确保其与时俱进。它将在"可用时"添加新的前沿模型。此外，它还计划在排行榜上添加新的领域，力争成为最值得信赖的大模型第三方评估机构。...PC版：https://www.cnbeta.com.tw/articles/soft/1432840.htm手机版：https://m.cnbeta.com.tw/view/1432840.htm

近日，由北京智源研究院打造的FlagEval天秤大模型评测平台实现了全面升级，并公布202406期FlagEval模型评测排行榜

近日，由北京智源研究院打造的FlagEval天秤大模型评测平台实现了全面升级，并公布202406期FlagEval模型评测排行榜单。最新一期榜单显示，百度文心大模型4.0以89.72的综合评分在闭源对话模型中排名第一，超过字节云雀、豆包和阿里通义千问等一众国产大模型，以及OpenAI的最新模型GPT-4o。在中文语境下，以文心大模型为代表的国内头部语言模型的综合表现已超过国际一流水平的表现。

上海人工智能实验室旗下司南评测体系OpenCompass选取了7个大模型进行高考“语数外”全卷能力测试。OpenCompass发

上海人工智能实验室旗下司南评测体系OpenCompass选取了7个大模型进行高考“语数外”全卷能力测试。OpenCompass发布了首个大模型高考全卷评测结果。语数外三科加起来的满分为420分，此次高考测试结果显示，阿里通义千问2-72B排名第一，为303分，OpenAI的GPT-4o排名第二，得分296分，上海人工智能实验室的书生・浦语2.0排名第三，三个大模型的得分率均超过70%。来自法国大模型初创公司的Mistral排名末尾。从结果来看，大模型的语文、英语考试水平普遍不错，但数学都不及格，最高分也只有75分。（第一财经）

OpenAI官宣启动“下一代前沿模型”训练或整合“文生视频”模型Sora

OpenAI官宣启动“下一代前沿模型”训练或整合“文生视频”模型SoraOpenAI在该博客文章中表示，“虽然我们为打造和发布在能力和安全性方面都处于业界领先地位的模型而感到自豪，但在这个重要时刻，我们欢迎围绕这一问题展开激烈的讨论。”公司称，其成立的这个新委员会的目的就是来评估这项“新的前沿模型”可能带来的任何风险。虽然目前外界普遍预计OpenAI所谓的“下一代前沿模型”就是GPT-5，但公司迄今未做过任何官方形式的表态。而根据OpenAI开发者体验主管罗曼·韦（RomainHuet）上周在巴黎的一次演讲，OpenAI下一代模型可能将被命名为“GPT-Next”。不过，也有外媒认为这实际上是Omni-2——一个更精致、训练参数更多、更强的GPT-4o增强版。OpenAI称，新成立的“安全与保障委员会”的首要任务“将是在未来90天内评估进一步发展OpenAI的流程和保障措施”。随后，OpenAI将在董事会审查后公开分享“采纳建议”的最新情况。这意味着OpenAI的董事会应该最迟在今年8月26日收到该委员会的建议。如果按照这样的时间表来计算，OpenAI最快可能在今年秋季发布所谓的“下一代前沿模型”。不过，《纽约时报》报道称，AI模型的训练可能需要数月甚至数年时间。训练完成后，AI公司通常还会再花几个月时间来测试该模型，并对其进行微调，之后才能供公众使用。这就意味着，OpenAI的下一代模型可能并不会在90天之后就发布。在最近的国际人工智能首尔峰会期间发布的“安全更新（SecurityUpdate）”中，OpenAI也表示，在（其下一代模型）发布前，公司将花更多时间评估新模型的功能，这可以解释为什么没有具体的发布日期。OpenAI并未明确提及训练中模型的名称，但外界第一时间猜测这一“前沿模型”就是GPT-5。此前，OpenAI的基础模型一直遵循着明确的命名顺序，即GPT后以递增数字的形式变化。不过，需要注意的是，本月OpenAI发布的模型却命名为GPT-4o。在当地时间5月22日巴黎举行的VivaTech会议上演示ChatGPTVoice时，OpenAI开发者体验主管罗曼·韦展示了一张幻灯片，揭示了未来几年人工智能模型的潜在增长趋势和命名，其中并没有GPT-5。罗曼·韦展示了GPT-3时代、GPT-4时代、GPT-Next和“未来的模型”，而“Today（今天）”就处于GPT-4时代和GPT-Next之间。这似乎意味着，OpenAI推出的下一代模型或将命名为GPT-Next，但有外媒认为这实际上是Omni-2——一个更精致、训练参数更多、更强的GPT-4o增强版。而且，罗曼·韦在演讲中也表示，在未来几个月或者说今年，人们将看到更多类型的OpenAI模型，而不仅仅是ChatGPT一种模型。迭代趋势预示下一代模型将整合Sora福布斯报道称，OpenAI所谓的“下一代前沿模型”可能会取代其领先的基础模型GPT-4，以及图像生成器、虚拟助手、搜索引擎和旗舰聊天机器人ChatGPT等强大的生成式AI工具。科技媒体ZDNET报道称，按照过去的趋势，外界可以预期“下一代前沿模型”的反应会更加准确，因为它将接受更多数据的训练。模型训练的数据越多，该模型生成连贯、准确内容的能力就越强，从而也能拥有更好地性能。例如，有研究称GPT-3.5是在1750亿个参数上训练的，而GPT-4的训练参数则已经达到1万亿。报道称，如果OpenAI“下一代前沿模型”发布，我们可能会看到该模型在训练参数上更大的飞跃。而回顾OpenAI过往的基础模型，从GPT-3.5到最新的GPT-4o，可以看到，随着模型的升级，产品的迭代已经让其变得更加智能，包括价格、响应速度、上下文长度等等。要知道，GPT-3.5只能输入和输出文本，而到GPT-4Turbo时，已经可以通过文字和图像的输入以获得文本的输出。GPT-4o更是展示了更强大的能力，不仅能处理文本，还能创建图像内容，并以高度对话化的语音方式回答问题和响应指令。ZDNET报道称，按照OpenAI基础模型这样的迭代趋势，“下一代前沿模型”或将拥有输出视频的能力。今年2月，OpenAI发布了“文生视频”模型Sora，这可能会被整合到“下一代前沿模型”中以输出视频。OpenAI的目标是在超越竞争对手的同时，更快地推进AI技术，同时也安抚那些认为该技术越来越危险、助长虚假信息传播、取代工作岗位甚至威胁人类生存的批评者。虽然OpenAI在周二的博客文章中称，预期其“新前沿模型”将使我们在通往AGI的道路上达到更高的能力水平，这是一种能够理解、学习和执行人类可以执行的任何智力任务的AI形式。不过，专家们对AGI的可行性以及何时可能实现存在分歧。被誉为AI教父的GeoffreyHinton估计，可能需要20年才能发展出AGI。英伟达CEO黄仁勋则预测称，AI会在五年内通过人类测试，AGI将很快到来。...PC版：https://www.cnbeta.com.tw/articles/soft/1432739.htm手机版：https://m.cnbeta.com.tw/view/1432739.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人