豆包大模型披露评测成绩，较上一代 “云雀” 提升 19%

豆包大模型披露评测成绩，较上一代“云雀”提升19%在火山引擎的一份产品资料中，豆包模型团队公布了一期内部测试结果：在MMLU、BBH、GSM8K、HumanEval等11个业界主流的公开评测集上，Doubao-pro-4k的总分为76.8分，相比上一代模型云雀Skylark2的64.5分提升了19%，也优于同期测试的其他国产模型。此次评测在今年5月完成，主要包括豆包通用模型-pro、云雀Skylark2在内的九款国产大语言模型。除了云雀Skylark2以外，其他模型均为各家厂商最新发布的高级版本，通过API调用进行测试。据悉，豆包模型在5月15日刚刚推出，尚未加入到第三方机构测试中。预计未来一到两个月内，很多第三方评测机构将会陆续披露该模型的评测结果。（全天候科技）

在Telegram中查看

相关推荐

全天候科技获悉，在火山引擎的一份产品资料中，豆包模型团队公布了一期内部测试结果：在MMLU、BBH、GSM8K、HumanEva

全天候科技获悉，在火山引擎的一份产品资料中，豆包模型团队公布了一期内部测试结果：在MMLU、BBH、GSM8K、HumanEval等11个业界主流的公开评测集上，Doubao-pro-4k的总分为76.8分，相比上一代模型云雀Skylark2的64.5分提升了19%，也优于同期测试的其他国产模型。此次评测在今年5月完成，主要包括豆包通用模型-pro、云雀Skylark2在内的九款国产大语言模型。除了云雀Skylark2以外，其他模型均为各家厂商最新发布的高级版本，通过API调用进行测试。据悉，豆包模型在5月15日刚刚推出，尚未加入到第三方机构测试中。预计未来一到两个月内，很多第三方评测机构将会陆续披露该模型的评测结果。

华尔街见闻获悉，在火山引擎的一份产品资料中，豆包模型团队公布了一期内部测试结果：在 MMLU、BBH、GSM8K、HumanEv

华尔街见闻获悉，在火山引擎的一份产品资料中，豆包模型团队公布了一期内部测试结果：在MMLU、BBH、GSM8K、HumanEval等11个业界主流的公开评测集上，Doubao-pro-4k的总分为76.8分，相比上一代模型云雀Skylark2的64.5分提升了19%，也优于同期测试的其他国产模型。此次评测在今年5月完成，主要包括豆包通用模型-pro、云雀Skylark2在内的九款国产大语言模型。除了云雀Skylark2以外，其他模型均为各家厂商最新发布的高级版本，通过API调用进行测试。据悉，豆包模型在5月15日刚刚推出，尚未加入到第三方机构测试中。预计未来一到两个月内，很多第三方评测机构将会陆续披露该模型的评测结果。（全天候科技）

近日，由北京智源研究院打造的FlagEval天秤大模型评测平台实现了全面升级，并公布202406期FlagEval模型评测排行榜

近日，由北京智源研究院打造的FlagEval天秤大模型评测平台实现了全面升级，并公布202406期FlagEval模型评测排行榜单。最新一期榜单显示，百度文心大模型4.0以89.72的综合评分在闭源对话模型中排名第一，超过字节云雀、豆包和阿里通义千问等一众国产大模型，以及OpenAI的最新模型GPT-4o。在中文语境下，以文心大模型为代表的国内头部语言模型的综合表现已超过国际一流水平的表现。

字节跳动发布豆包大模型，日均处理千亿级Tokens

字节跳动发布豆包大模型，日均处理千亿级Tokens5月15日，字节跳动旗下云服务平台火山引擎在原动力大会上正式发布豆包大模型，据火山引擎总裁谭待介绍，经过一年时间的迭代和市场验证，豆包大模型正成为国内使用量最大、应用场景最丰富的大模型之一，目前日均处理1200亿Tokens文本，生成3000万张图片。谭待认为，降低成本是推动大模型快进到“价值创造阶段”的一个关键因素。豆包大模型的定价大幅低于行业价格：以豆包通用模型pro-32k版为例，模型推理输入价格仅为0.0008元/千Tokens，而市面上同规格模型的定价一般为0.12元/千Tokens，是豆包模型价格的150倍。标签:#字节跳动#大模型#AI频道:@GodlyNews1投稿:@GodlyNewsBot

OPPO 多款机型接入字节跳动豆包大模型

OPPO多款机型接入字节跳动豆包大模型近期，OPPOFindX7、一加Ace等热门机型的智能语音助手“小布”上线了包括“AI面试官”、“AI英语老师”等在内的四款实用AI智能体应用，通过接入字节跳动豆包大模型，上述AI智能体可通过精准生动的语音交互，为用户提供面试实战演练、一对一英语口语陪练等智能服务。借助豆包通用模型pro、豆包通用模型lite、豆包・角色扮演模型以及大模型实时联网检索能力，OPPO此次上线的智能体在意图识别、语义理解以及输出呈现方面更加精准全面，有效解决了行业普遍面临的语言风格、内容实时性、联想能力以及意图识别等挑战。（新浪科技）

5 月 21 日，华尔街见闻获悉，近期火山引擎官网更新了豆包大模型的定价详情，全面展示豆包通用模型不同版本、不同规格的价格信息。

5月21日，华尔街见闻获悉，近期火山引擎官网更新了豆包大模型的定价详情，全面展示豆包通用模型不同版本、不同规格的价格信息。在模型推理定价大幅低于行业价格的基础上，豆包通用模型的TPM（每分钟Tokens）、RPM（每分钟请求数）均达到国内最高标准。以豆包主力模型pro-32k为例，价格比行业低99%，TPM限额则高达同规格模型的2.7倍到8倍。官方信息显示：在按照Tokens实际使用量计算费用的“后付费”模式下，豆包通用模型-pro、豆包通用模型-lite的32k及以下窗口版本，模型限流为10KRPM和800KTPM（以RPM和TPM其中之一到达上限为准）。国内其他主流模型的TPM限额大多在100K到300K之间，RPM则是在60到120区间，轻量级模型的RPM限额相对较高，但仅仅在300到500之间。（全天候科技）

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人