明星 AI 独角兽 Mistral AI 亮出大模型新王炸,如何评价该大模型?

明星 AI 独角兽 Mistral AI 亮出大模型新王炸,如何评价该大模型? Trisimo崔思莫的回答 Mamba憋屈了很久,受尽委屈和凌辱,这次总算扬眉吐气了。和主流大厂Mistral牵上了手,效果看起来很不错。这是我2024年初的一个预言,Mamba会走向主流。 但我认为是Mistral更需要Mamba,Mamba 2五月最后一天推出,七月份Mistral就给到成品。Mistral: 急! 这个模型目前还没有太大的实战价值,等下一代超大模型诞生。 要做闭源SOTA讲究的是个生态位,ChatGPT吃了大头,其他公司就要找差异化路线,这很难,现在前面又顶着拿着百亿补贴的Claude,Gemini,Grok,对于Mistral来说,生态位其实已经没有了。 Mamba 2现在还在早期阶段,它的价值主要就是价格低,尤其是做长文本,长文本序列越往后,越是费钱。对于开发,文本窗口不足,理解不了大项目逻辑的。 同时,Mamba的推理能力也没有明显降低。 想象一下,ChatGPT 百万Tokens卖你15美金,Mamba在同性能下,卖你1.5美元,文本窗口是你的好几倍,那么买API的开发者会不会动摇? 我觉得谷歌可能会把Gemma开源模型也切换到Mamba或Cobra,拭目以待。 Mamba 2的作者之一 Tri Dao,是Together.AI的首席科学家。(就是你经常白嫖模型的地方) 他不仅参与了Mamba 2开发,还参与了FlashAttention-3的开发,用来加速CUDA。 Tri Dao的兴趣似乎就是降本,增速。 via 知乎热榜 (author: Trisimo崔思莫)

相关推荐

封面图片

Mistral Large 大语言模型发布

Mistral Large 大语言模型发布 Mistral Large 是 Mistral 新的尖端文本生成模型。它达到了顶级的推理能力,可用于复杂的多语言推理任务,包括文本理解、转换和代码生成。Mistral Large 在常用基准测试中取得了优异的成绩,使其成为世界上排名第二的可通过 API 普遍使用的模型(仅次于 GPT-4)。该模型也可以通过 Azure 直接调用。 Mistral Large 具有以下特点 - 支持英语、法语、西班牙语、德语和意大利语。 - 32K 标记上下文窗口。 - 精确的指令遵循使开发人员能够设计他们的审核策略。 - 原生支持函数调用。 Mistral 还发布了一个新的优化模型 Mistral Small,针对延迟和成本进行了优化,其性能优于 Mixtral 8x7B,并且延迟较低,这使其成为开源型号和旗舰型号之间的中间解决方案。

封面图片

微软入股、数值碾压Meta AI新贵Mistral发布旗舰大模型

微软入股、数值碾压Meta AI新贵Mistral发布旗舰大模型 Mistral AI正式成立于2023年5月。在去年这个时候,创办这家公司的三个法国年轻人还分别在谷歌DeepMind、Facebook上班。到去年12月,随着英伟达、赛富时以及一众华尔街资本挥舞支票,赶忙参与公司价值超4.5亿欧元(接近4.9亿美元)的融资,Mistral AI的市值已然超过20亿美元。(Mistral AI的三位创始人Guillaume Lample, Arthur Mensch, Timothée Lacroix都只有30多岁)发布最新大模型&首个聊天机器人Mistral AI周一宣布,正式推出最新旗舰模型Mistral Large。公司声称该模型具有“顶级的推理能力”,能用于处理复杂的多语言推理任务,包括文本理解、转换和代码生成。在AI理解能力测试基准MMLU的对比中,Mistral Large的得分仅次于GPT-4,略好于Anthropic开发的Claude 2。至于谷歌的Gemini Pro以及Meta的LLaMA 2 70B模型,则被甩开了一个身位。(来源:Mistral AI)据悉,这个模型拥有3.2万tokens的上下文窗口。按照一个token约等于0.75个英文单词的惯用算法,Mistral Large能够一次性从接近2.4万个英文单词的文档中精确提取信息。公司介绍称,该模型对英语、法语、西班牙语、德语和意大利语具有母语级流利程度,并对语法和文化背景有细致的理解。不过与一众大模型一样,实测下来中文也是能用的(后面有测试案例)。当然,最重要的是Mistral AI的开源属性除了使用云服务部署外,还能直接下载部署到本地。与封闭AI模型的龙头OpenAI不同,Mistral AI的大模型可以在“抱抱脸”等代码平台上下载,不过目前还没看到Large模型的文档。(来源:公司官网)公司也在周一发布首个聊天机器人LE CHAT,可以选用刚刚发布的Large模型,以及对延迟、成本进行优化的Mistral Small,还有一个名为Next的下一代原型模型。总而言之,提供了一个试用的窗口。从短暂的上手实测来看,这个模型哪怕使用中文,回答简单的推理题完全没有问题。(来源:LE CHAT)对于美国历史和法国历史,这个模型也能答得上来。不过在追加测试中,这个模型对中国文化历史的了解可以说是....惨不忍睹,不过Mistral本身也没说这个模型懂中国历史。这也是国外开源AI模型存在的通病。(来源:LE CHAT、文心一言)微软收购公司部分股权同样在周一,Mistral AI与微软宣布达成了一项新的合作伙伴关系。从公告上来看,双方的合作主要包含三个方面:1、微软向Mistral AI提供开发和运营模型所需的算力;2、Mistral AI的大模型上架微软云服务,供全球用户部署;3、双方将探索合作,为特定客户制作特定模型。除了提供算力和云服务客户外,这份合作协议也使得微软持有Mistral AI“一小部分股权”。值得一提的是,Mistral这个法文单词的原意指的是“法国吹来的强风”,公司创立的愿景是搞AI其实不需要那么多钱,许多公司白白浪费了非常多的资金。创始人兼首席执行官Arthur Mensch直言,公司要做AI世界里资本效率最高的。Mensch透露,周一发布的Large模型,整个开发成本低于2000万欧元。作为对比,奥尔特曼去年提到过GPT-4的开发成本可能要超过1亿美元。对于微软而言,不管是代表封闭生态的OpenAI,还是开源社区的Mistral或Meta跑赢,公司都将是AI赛道的大赢家。这三家的AI模型都已经上架Azure的云服务,现在美股“股王”还持有前两家公司的股权。 ... PC版: 手机版:

封面图片

Mistral AI 开源 Mistral 8x22B Moe 大模型

Mistral AI 开源 Mistral 8x22B Moe 大模型 Mistral AI 公司刚刚再次用磁力链接开源了一款大模型 Mistral 8x22B,模型文件大小为 281.24 GB。从模型的名字来看,Mistral 8x22B 是去年开源的「mixtral-8x7b」的超级大杯版本,参数规模增长三倍不止,由 8 个 220 亿参数规模 (8×22B) 的专家网络组成。 磁力链接地址:magnet:?xt=urn:btih:9238b09245d0d8cd915be09927769d5f7584c1c9&dn=mixtral-8x22b&tr=udp%3A%2F%2Fopen.demonii.com%3A1337%2Fannounce&tr=http%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce 、

封面图片

Mistral AI发布了新的开源模型。该模型以39B活跃参数实现141B参数规模,极大提升了模型规模与成本效率。

Mistral AI发布了新的开源模型。该模型以39B活跃参数实现141B参数规模,极大提升了模型规模与成本效率。 Mixtral 8x22B支持英语、法语、意大利语、德语和西班牙语,并具有强大的数学和编程能力。其支持函数调用,可大规模实现应用开发和技术栈现代化。 Mistral AI坚信开源的力量,Mixtral 8x22B以最宽松的Apache 2.0许可证发布。 Mistral AIModels追求卓越的成本效率。Mixtral 8x22B相较同规模模型,提供最佳的性能价格比。其稀疏激活可提升速度。 Mixtral 8x22B在推理、知识、多语言、编程、数学等多个基准测试上,表现优于其他开源模型。后续会发布指导版本,数学表现更佳。

封面图片

32K上下文,Mistral 7B v0.2基模型突然开源了

32K上下文,Mistral 7B v0.2基模型突然开源了 这次开源的 Mistral 7B v0.2 Base Model ,是 Mistral-7B-Instruct-v0.2 背后的原始预训练模型,后者属于该公司的“Mistral Tiny”系列。此次更新主要包括三个方面:将 8K 上下文提到了 32K;Rope Theta = 1e6;取消滑动窗口。下载链接:…更新之后的性能对比是这样的:场外观众迅速跟进。有人评价说:“Mistral 7B 已经是同尺寸级别中最好的模型,这次改进是一个巨大的进步。 我将尽快在这个模型上重新训练当前的许多微调。”Mistral AI 的第一个 7B 模型发布于 2023 年 9 月,在多个基准测试中实现了优于 Llama 2 13B 的好成绩,让 Mistral AI 一下子就打出了知名度。这也导致目前很多开源大模型都已不再对标 Llama 2,而是将 Mistral AI 旗下的各系列模型作为直接竞争对手。而 Mistral 7B v0.2 Base Model 对应的指令调优版本 Mistral-7B-Instruct-v0.2 在 2023 年 12 月就已开放测试,据官方博客介绍,该模型仅适用于英语,在 MT-Bench 上能够获得 7.6 分的成绩,逊于 GPT-3.5。此次开放基础模型之后,开发者们就可以根据自己的需求对这个“当前最好的 7B 模型”进行微调了。不过,7B 模型只能算是 Mistral AI 众多惊艳成果中的一项。这家公司的长远目标是对标 OpenAI。上个月底,Mistral AI 正式发布了“旗舰级”大模型 Mistral Large。与此前的一系列模型不同,这一版本性能更强,体量更大,直接对标 OpenAI 的 GPT-4。随着 Mistral Large 上线,Mistral AI 推出了名为 Le Chat 的聊天助手,也实现了对标 ChatGPT。而新模型的发布,也伴随着公司大方向的一次转型。人们发现, Mistral Large 并不是一个开源大模型 有跑分、 API 和应用,就是不像往常一样有 GitHub 或是下载链接。与 Mistral Large 发布同时发生的,是 Mistral AI 与微软达成了长期合作的协议,不仅会将 Mistral Large 引入 Azure,还收获了微软 1600 万美元的投资。Mistral AI 对路透社表示,作为交易的一部分,微软将持有该公司少数股权,但未透露细节。未来,二者的合作主要集中在三个核心领域:超算基础设施:微软将通过 Azure AI 超级计算基础设施支持 Mistral AI ,为 Mistral AI 旗舰模型的 AI 训练和推理工作负载提供一流的性能和规模;市场推广:微软和 Mistral AI 将通过 Azure AI Studio 和 Azure 机器学习模型目录中的模型即服务(MaaS)向客户提供 Mistral AI 的高级模型。除 OpenAI 模型外,模型目录还提供了多种开源和商业模型。人工智能研发:微软和 Mistral AI 将探索为特定客户训练特定目的模型的合作。当被问及公司是否正在改变其开源商业模式时,Mistral AI 联合创始人 Arthur Mensch 在采访中表示:“我们从开源模式开始,任何人都可以免费部署,因为这是广泛分发它们并创造需求的一种方式。但从一开始,我们就提供了一种具有优化模型的商业模式,这让使该公司能够为模型开发所需的昂贵研究提供资金。”参考链接: 2024)即将于 2024 年 3 月 30 日至 31 日在上海徐汇西岸美高梅酒店举行。本次大会由中国人工智能学会(CAAI)主办,CAAI 具身智能专委会(筹)、同济大学、中国科学院计算技术研究所、上海交通大学、中国经济信息社上海总部联合承办,全球高校人工智能学术联盟协办,机器之心独家 AI 媒体合作。盛会将为具身智能领域的学术与产业界搭建一个交流合作的顶级平台,以广泛促进学术分享与交流、产业合作与互动,推动产学研联动发展,提升我国具身智能技术的研究与应用水平。 ... PC版: 手机版:

封面图片

AI芯片独角兽已秘密申请IPO

AI芯片独角兽已秘密申请IPO 这家创企正在创建优先股,价格比上一轮私人融资大幅折扣。此举可能会使其股票在首次公开募股前对私人投资者和参与公开上市的人更具吸引力。据此前报道,Cerebras已聘请花旗集团担任其IPO的牵头银行。根据Prime Unicorn Index共享的文件,6月初,Cerebras批准以14.66美元发行约2700万股新股。这远低于其2021年F轮融资时的27.74美元股价,该轮估值超过40亿美元。新的股票授权表明,Cerebras对自己的估值约为25亿美元。尚不清楚Cerebras是否已正式出售这些股票,或者谁将持有这些股票。该公司已累计融资7.2亿美元,估值约为42亿到50亿美元。在AI领域声名赫赫的OpenAI联合创始人兼首席执行官Sam Altman曾参与Cerebras的8000万美元D轮融资。Cerebras在官网将Altman列在其投资人列表的第一位。GPU竞不是最佳引擎?当芯片设计企业都在将晶圆分割成数百颗独立芯片时,Cerebras另辟蹊径,选择将整块晶圆做成一颗芯片。2019年8月,其首颗晶圆级芯片WSE以“世界最大芯片”的名号引爆全球科技圈,它由一整片晶圆制成,采用台积电16nm制程,在46225mm²面积上集成了40万个AI核心和1.2万亿颗晶体管。其2021年推出的二代WSE-2更进一步,采用台积电7nm制程,创下集成85万个AI核心和2.6万亿颗晶体管的新纪录,搭载WSE-2芯片的AI超算系统CS-2也同期发布。今年3月,Cerebras推出了第三代晶圆级芯片WSE-3和AI超级计算机CS-3。WSE-3采用台积电5nm制程,有90万个AI核心和4万亿颗晶体管,AI峰值算力高达每秒125千万亿次。CS-3是15U的服务器,最高功耗为23kW,可在本地或云端使用。CS-3拥有高达1.2PB的巨大存储系统,旨在训练比OpenAI GPT-4和GoogleGemini大10倍的下一代前沿模型。在CS-3上训练1万亿参数模型就像在GPU上训练10亿参数模型一样简单。Cerebras团队认为,GPU不是训练大模型的最佳引擎,因为开发者必须将模型分割成许多部分,将它们分布在数百和数千个GPU上,这意味着他们必须重写模型以跨集群工作,他们的代码将从大约600行增加到20000行。而Cerebras想解决的就是这个问题。其首席执行官Andrew Feldman曾用做西装打比方,有一位裁缝可以在一周内作出一套西装,他雇佣了隔壁也能一周做一套西装的裁缝,现在他们一周可以做出两套西装,但他们无法在三天半内做出一套西装。GPU就像无法协同工作的裁缝,至少在分子动力学的一些问题上是这样,随着连接的GPU越来越多,它们可以同时模拟更多的原子,但却无法更快地模拟相同数量的原子。而WSE以完全不同的方式扩展,芯片不受互连带宽的限,可以快速通信,就像两个裁缝完美协作、在三天半内制作出一套西装一样。与GPU不同,Cerebras晶圆级集群将计算和内存组件分离,支持轻松扩展MemoryX单元的内存容量。Cerebras为超大规模客户提供120TB和1200TB选项,而1200TB的配置能够存储有24万亿个参数的模型。单个CS-3机架可存储比10000节点GPU集群更多的模型参数,使得一台机器上可以开发和调试万亿参数模型。同样训练700亿参数大语言模型Llama 2,GPU集群需要大约1个月,而CS-3集群只用1天。产品侧,CS-3可与英伟达同台竞技今年4月,Cerebras发文比较Cerebras CS-3与英伟达B200,称CS-3和英伟达DGX B200是2024年上市的两款最令人兴奋的AI硬件新品。无论AI训练性能还是能效,CS-3都做到倍杀DGX B200。Cerebras还提供AI模型服务。其平台已经训练了各种各样的模型,从多语言大模型到医疗健康聊天机器人,帮助客户训练基础模型或者微调开源模型,而且大部分工作都是开源的。Andrew Feldman和Gary Lauterbach分别是Cerebras Systems的首席执行官和首席技术官。两人已合作超过12年,曾在2007年联合创办高带宽微服务器先驱SeaMicro,这家公司在2012年被AMD以超过3亿美元的价格收购,两人也一起加入了AMD。Andrew Feldman在AMD做了两年半的副总裁。Andrew Feldman有斯坦福大学MBA学位,多次作为公司高管完成了收购和上市。Gary Lauterbach是计算机架构大牛,曾担任SPARC Ⅲ和UltraSPARC Ⅳ微处理器的首席架构师。最后:AI竞赛升温,算力股正躺赢?AI算力繁荣正带动相关股票的飙涨。本周英伟达以超过3.3万亿美元的市值登顶“全球股王”。此前向云计算公司出售数据中心组件的Astera Labs在今年3月上市时,首日股价暴涨76%。IPO计划显示,Cerebras希望驾驭投资者对AI硬件销售的热情浪潮。这家AI芯片公司需展示它计划如何获得AI计算市场。其财务业绩暂时无法得知,该公司在12月的一篇博客文章中表示,它最近达到了“现金流收支平衡”,但未详细说明。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人