最新中文大模型测评：百川智能 Baichuan 3 国内第一

最新中文大模型测评：百川智能Baichuan3国内第一今日国内大模型评测机构SuperCLUE发布了《中文大模型基准测评2024年度4月报告》，报告选取国内外具有代表性的32个大模型4月份的版本，通过多维度综合性测评，对国内外大模型发展现状进行观察与思考。报告显示，百川智能的Baichuan3在国内大模型中排名第一，智谱GLM-4、通义千问2.1、文心一言4.0、Moonshot(Kimi)等大模型位列其后。从全球范围来看，国外同行的GPT-4、Claude3得分更胜一筹。测试结果显示，Baichuan3的文科、理科能力均衡。在知识百科能力上Baichuan3以82分的成绩超越了GPT-4-Turbo，在所有32个参与评测的国内外大模型中排名第一。而在代表了大模型智力的“逻辑推理”能力上以68.60的成绩超越Claude3-Opus，也力压一众国内大模型拔得头筹。此外，在计算、代码、工具使用能力上Baichuan3表现同样不俗，均排名国内前三。关注频道@TestFlightCN频道投稿@TNSubmbot

在Telegram中查看

相关推荐

百川智能又发布大模型号称领先LLaMA 2

百川智能又发布大模型号称领先LLaMA2据了解，Baichuan2-7B-Base和Baichuan2-13B-Base，均基于2.6万亿高质量多语言数据进行训练。其中Baichuan2-13B-Base相比上一代13B模型，数学能力提升49%，代码能力提升46%，安全能力提升37%，逻辑推理能力提升25%，语义理解能力提升15%。王小川称，70亿参数的Baichuan2-7B开源大模型中文水平超越了LLaMA2130亿参数模；在英文的评测上，Baichuan2-7B开水平与LLaMA2130亿参数模型持平。（图：7B参数模型的Benchmark成绩）（图：13B参数模型的Benchmark成绩）他表示，“随着国内Baichuan2开源大模型的发布，用LLaMA2作为大家一个开源模型的时代已经过去了。”国内“百模大战”中，各家都在卷参数规模，卷响应速度，卷行业落地。而在国外，AI模型竞争主要聚焦在“生态封闭”和“生态开源”。其中，闭源模型的代表当属目前最强的GPT-4模型，开源最具代表意义的则是Meta的LLaMA2模型。业内普遍认为，开源大模型对于大量开发者是一个福音，能够降低做大模型应用的门槛。美国斯坦福大学基金会模型研究中心主任PercyLiang曾指出，像LLaMA2这样强大的开源模型会对OpenAI构成相当大的威胁。今年6月，王小川飞往美国硅谷与同行交流大模型技术思路。他认为，美国闭源大模型的头部格局已定，OpenAI、Anthropic、Google已经拿到门票，LLaMA2则统一了美国开源模型市场，而国内大模型格局还未定型，创业公司还有较大的机会。在8月举办的一次媒体交流会上，王小川谈及大模型技术路线之争时表示，开源与闭源并不矛盾，未来会像苹果和Android系统一样并行发展。未来可能80%的企业会用到开源模型，因为开源模型小巧，最后靠闭源提供剩下20%的增值服务。从2B（企业）的角度，开源、闭源都需要，百川智能不会只瞄准一个方向。王小川指出了LLaMA开源模型的隐藏限制因素。他表示，LLaMA开源模型适用于以英文为主的环境，开发者使用中文场景是拿不到开源协议，Baichuan2开源大模型更适用于中文大模型。“我们现在可以获得比LLaMA更友好且能力更强的开源模型，能够帮助扶持中国整个生态的发展。除开源模型以外，下一次在闭源方面会有更多的突破，希望在中国的开源闭源里都能给中国的经济社会发展带来我们的贡献。”当前大部分开源模型在开源过程中只是对外公开自身的模型权重，很少提及训练细节，企业、研究机构、开发者们只能在开源模型的基础上做有限的微调，很难进行深入研究。王小川表示，百川智能公开了Baichuan2开源大模型训练过程中的全部参数模型，以及不同大小的tokens、训练切片，使得学术界在进行预训练微调、强化时更容易操作，更容易获得学术经验和成果。他透露，这也是国内首次开放训练过程。百川智能创立于今年4月10日，旨在打造构建中国最好的大模型底座，并在教育、医疗等领域应用落地。截至目前，百川智能已公布首轮5000万美元融资。成立不到半年时间，百川智能平均每28天发布一款大模型，已相继发布了Baichuan-7B、Baichuan-13B两款开源免费可商用的中文大模型，以及一款搜索增强大模型Baichuan-53B。8月31日，百川智能通过《生成式人工智能服务管理暂行办法》备案，旗下大模型可以正式面向公众提供服务。...PC版：https://www.cnbeta.com.tw/articles/soft/1382161.htm手机版：https://m.cnbeta.com.tw/view/1382161.htm

百川智能发布Baichuan2-192K大模型 | 详情

百川智能发布Baichuan2-192K大模型上下文窗口长度高达192K，是目前全球最长的上下文窗口，能够一次处理约35万个汉字。官方宣称：Baichuan2-192K不仅在上下文窗口长度上超越Claude2，在长窗口文本生成质量、长上下文理解以及长文本问答、摘要等方面的表现也全面领先Claude2。10项长文本评测7项取得SOTA，全面领先Claude2Baichuan2-192K在Dureader、NarrativeQA、LSHT、TriviaQA等10项中英文长文本问答、摘要的评测集上表现优异，有7项取得SOTA，显著超过其他长窗口模型。此外，LongEval的评测结果显示，在窗口长度超过100K后Baichuan2-192K依然能够保持非常强劲的性能，而其他开源或者商用模型在窗口长度增长后效果都出现了近乎直线下降的情况。Claude2也不例外，在窗口长度超过80K后整体效果下降非常严重。Baichuan2-192K正式开启内测，已落地法律、媒体等诸多真实场景Baichuan2-192K现已正式开启内测，以API调用的方式开放给百川智能的核心合作伙伴，已经与财经类媒体及律师事务所等机构达成了合作，将Baichuan2-192K全球领先的长上下文能力应用到了传媒、金融、法律等具体场景当中，不久后将全面开放。

百川智能披露 To B 技术路线：看好搜索增强大模型，文本获取规模增至 1 亿汉字

百川智能披露ToB技术路线：看好搜索增强大模型，文本获取规模增至1亿汉字百川智能今日首次对外介绍了公司ToB技术路线，同时宣布开放基于搜索增强的Baichuan2-Turbo系列API，包含Baichuan2-Turbo-192K及Baichuan2-Turbo。在支持192K超长上下文窗口的基础上，还增加了搜索增强知识库的能力。据王小川介绍，通过长窗口+搜索增强的方式，百川智能在192K长上下文窗口的基础上，将大模型能够获取的原本文本规模提升了两个数量级，达到5000万tokens——相当于1亿汉字。通过搜索增强，模型可以先根据用户的Prompt在海量的文档中检索出最相关的内容，再将这些文档与Prompt一起放到长窗口中，有效节省了推理费用和时间成本。（新浪科技）

百川智能宣布推出Baichuan2-192K 上下文窗口长超GPT-4约14倍

百川智能宣布推出Baichuan2-192K上下文窗口长超GPT-4约14倍今年9月25日，百川智能宣布已开放Baichuan2的API接口，进军企业级市场，开启商业化进程。此次Baichuan2-192K将以API调用和私有化部署的方式提供给企业用户，目前百川智能已启动Baichuan2-192K的API内测，开放给法律、媒体、金融等行业的核心合作伙伴。上下文窗口长度是大模型的核心技术之一，通过更大的上下文窗口，模型能够结合更多上下文内容获得更丰富的语义信息，更好的捕捉上下文的相关性、消除歧义，进而更加准确、流畅的生成内容，提升模型能力。...PC版：https://www.cnbeta.com.tw/articles/soft/1393115.htm手机版：https://m.cnbeta.com.tw/view/1393115.htm

阿里通义Qwen2拿下美国最新测评榜单开源大模型全球第一

阿里通义Qwen2拿下美国最新测评榜单开源大模型全球第一图灵奖得主、Meta首席AI科学家杨立昆(YannLeCun)联合Abacus.AI、纽约大学等机构推出全新的大模型测评基准LiveBenchAI，并公布首个测评榜单。阿里云通义千问刚刚开源的大模型Qwen2-72B成为排名最高的开源大模型，是前十榜单中唯一的开源大模型、唯一的中国大模型，成绩超过Meta的Llama3-70B模型。目前，Qwen系列开源模型目前下载量已经突破1600万。来源：格隆汇

云从科技：从容大模型在 SuperCLUE 最新测评中位居第一梯队

云从科技：从容大模型在SuperCLUE最新测评中位居第一梯队权威测评机构SuperCLUE最新发布的《中文大模型基准测评4月报告》显示，云从科技(688327)自主研发的从容大模型凭借在多个领域的出色表现，成功晋升至SuperCLUE模型象限的“领导者象限”，同时以总分70.35分的成绩位居大模型第一梯队行列，超过GPT-3.5，且与当前全球领先的GPT-4的差距仅4.97分。在计算能力方面，从容大模型以75.8分的得分位居国内首位。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人