Mistral推出新服务和SDK 允许客户对其模型进行微调

Mistral推出新服务和SDK 允许客户对其模型进行微调 Mistral在SDK的GitHub仓库的自述文件中指出,SDK针对多GPU设置进行了优化,但也可以扩展到单个NVIDIA A100或H100 GPU,用于微调Mistral 7B等较小的模型。Mistral表示,对UltraChat这样的数据集进行微调需要半个小时左右,UltraChat是使用OpenAI的ChatGPT进行的140万次对话的集合,使用Mistral-Finetune在8个H100上进行微调。对于更喜欢管理型解决方案的开发人员和公司来说,Mistral 新推出的微调服务可通过公司的 API 使用。Mistral 表示,微调服务将在未来几周内支持更多型号。最后,Mistral 将首次推出定制培训服务,目前只面向部分客户,利用他们的数据为组织的应用程序微调任何 Mistral 模型。"该公司在其官方博客的一篇文章中解释说:"这种方法可以为特定领域创建高度专业化和优化的模型。我的同事英格丽德-伦登(Ingrid Lunden)最近报道说,Mistral 公司正寻求以 60 亿美元的估值向包括 DST、General Catalyst 和光速创投(Lightspeed Venture Partners)在内的投资者融资约 6 亿美元。自 2023 年 9 月 Mistral 推出首个生成模型以来,它又发布了多个模型,包括代码生成模型,并推出了付费 API。但它还没有透露有多少用户,收入情况如何。 ... PC版: 手机版:

相关推荐

封面图片

:用 PyTorch 轻松微调大语言模型

:用 PyTorch 轻松微调大语言模型 PyTorch发布了torchtune库的alpha版本,用于轻松微调大型语言模型。该库遵循PyTorch的设计原则,提供了组件化和模块化的构建块,以及易于扩展的微调示例,以在各种消费级和专业GPU上微调流行的大型语言模型。 torchtune支持从头到尾的完整微调工作流程,包括数据集和模型检查点的下载和准备、可组合的构建块进行训练自定义、训练过程的日志和指标记录、模型量化、在知名基准上的模型评估以及本地推理。 torchtune致力于易扩展性、让微调大众化、与开源生态系统的互操作性。未来几周将持续为库增加更多模型、特征和微调技术。 torchtune与Hugging Face Hub、PyTorch FSDP、Weights & Biases、EleutherAI的评估工具、ExecuTorch和torchao等开源生态系统的组件深度集成,为用户提供灵活性和控制力。

封面图片

微软入股、数值碾压Meta AI新贵Mistral发布旗舰大模型

微软入股、数值碾压Meta AI新贵Mistral发布旗舰大模型 Mistral AI正式成立于2023年5月。在去年这个时候,创办这家公司的三个法国年轻人还分别在谷歌DeepMind、Facebook上班。到去年12月,随着英伟达、赛富时以及一众华尔街资本挥舞支票,赶忙参与公司价值超4.5亿欧元(接近4.9亿美元)的融资,Mistral AI的市值已然超过20亿美元。(Mistral AI的三位创始人Guillaume Lample, Arthur Mensch, Timothée Lacroix都只有30多岁)发布最新大模型&首个聊天机器人Mistral AI周一宣布,正式推出最新旗舰模型Mistral Large。公司声称该模型具有“顶级的推理能力”,能用于处理复杂的多语言推理任务,包括文本理解、转换和代码生成。在AI理解能力测试基准MMLU的对比中,Mistral Large的得分仅次于GPT-4,略好于Anthropic开发的Claude 2。至于谷歌的Gemini Pro以及Meta的LLaMA 2 70B模型,则被甩开了一个身位。(来源:Mistral AI)据悉,这个模型拥有3.2万tokens的上下文窗口。按照一个token约等于0.75个英文单词的惯用算法,Mistral Large能够一次性从接近2.4万个英文单词的文档中精确提取信息。公司介绍称,该模型对英语、法语、西班牙语、德语和意大利语具有母语级流利程度,并对语法和文化背景有细致的理解。不过与一众大模型一样,实测下来中文也是能用的(后面有测试案例)。当然,最重要的是Mistral AI的开源属性除了使用云服务部署外,还能直接下载部署到本地。与封闭AI模型的龙头OpenAI不同,Mistral AI的大模型可以在“抱抱脸”等代码平台上下载,不过目前还没看到Large模型的文档。(来源:公司官网)公司也在周一发布首个聊天机器人LE CHAT,可以选用刚刚发布的Large模型,以及对延迟、成本进行优化的Mistral Small,还有一个名为Next的下一代原型模型。总而言之,提供了一个试用的窗口。从短暂的上手实测来看,这个模型哪怕使用中文,回答简单的推理题完全没有问题。(来源:LE CHAT)对于美国历史和法国历史,这个模型也能答得上来。不过在追加测试中,这个模型对中国文化历史的了解可以说是....惨不忍睹,不过Mistral本身也没说这个模型懂中国历史。这也是国外开源AI模型存在的通病。(来源:LE CHAT、文心一言)微软收购公司部分股权同样在周一,Mistral AI与微软宣布达成了一项新的合作伙伴关系。从公告上来看,双方的合作主要包含三个方面:1、微软向Mistral AI提供开发和运营模型所需的算力;2、Mistral AI的大模型上架微软云服务,供全球用户部署;3、双方将探索合作,为特定客户制作特定模型。除了提供算力和云服务客户外,这份合作协议也使得微软持有Mistral AI“一小部分股权”。值得一提的是,Mistral这个法文单词的原意指的是“法国吹来的强风”,公司创立的愿景是搞AI其实不需要那么多钱,许多公司白白浪费了非常多的资金。创始人兼首席执行官Arthur Mensch直言,公司要做AI世界里资本效率最高的。Mensch透露,周一发布的Large模型,整个开发成本低于2000万欧元。作为对比,奥尔特曼去年提到过GPT-4的开发成本可能要超过1亿美元。对于微软而言,不管是代表封闭生态的OpenAI,还是开源社区的Mistral或Meta跑赢,公司都将是AI赛道的大赢家。这三家的AI模型都已经上架Azure的云服务,现在美股“股王”还持有前两家公司的股权。 ... PC版: 手机版:

封面图片

32K上下文,Mistral 7B v0.2基模型突然开源了

32K上下文,Mistral 7B v0.2基模型突然开源了 这次开源的 Mistral 7B v0.2 Base Model ,是 Mistral-7B-Instruct-v0.2 背后的原始预训练模型,后者属于该公司的“Mistral Tiny”系列。此次更新主要包括三个方面:将 8K 上下文提到了 32K;Rope Theta = 1e6;取消滑动窗口。下载链接:…更新之后的性能对比是这样的:场外观众迅速跟进。有人评价说:“Mistral 7B 已经是同尺寸级别中最好的模型,这次改进是一个巨大的进步。 我将尽快在这个模型上重新训练当前的许多微调。”Mistral AI 的第一个 7B 模型发布于 2023 年 9 月,在多个基准测试中实现了优于 Llama 2 13B 的好成绩,让 Mistral AI 一下子就打出了知名度。这也导致目前很多开源大模型都已不再对标 Llama 2,而是将 Mistral AI 旗下的各系列模型作为直接竞争对手。而 Mistral 7B v0.2 Base Model 对应的指令调优版本 Mistral-7B-Instruct-v0.2 在 2023 年 12 月就已开放测试,据官方博客介绍,该模型仅适用于英语,在 MT-Bench 上能够获得 7.6 分的成绩,逊于 GPT-3.5。此次开放基础模型之后,开发者们就可以根据自己的需求对这个“当前最好的 7B 模型”进行微调了。不过,7B 模型只能算是 Mistral AI 众多惊艳成果中的一项。这家公司的长远目标是对标 OpenAI。上个月底,Mistral AI 正式发布了“旗舰级”大模型 Mistral Large。与此前的一系列模型不同,这一版本性能更强,体量更大,直接对标 OpenAI 的 GPT-4。随着 Mistral Large 上线,Mistral AI 推出了名为 Le Chat 的聊天助手,也实现了对标 ChatGPT。而新模型的发布,也伴随着公司大方向的一次转型。人们发现, Mistral Large 并不是一个开源大模型 有跑分、 API 和应用,就是不像往常一样有 GitHub 或是下载链接。与 Mistral Large 发布同时发生的,是 Mistral AI 与微软达成了长期合作的协议,不仅会将 Mistral Large 引入 Azure,还收获了微软 1600 万美元的投资。Mistral AI 对路透社表示,作为交易的一部分,微软将持有该公司少数股权,但未透露细节。未来,二者的合作主要集中在三个核心领域:超算基础设施:微软将通过 Azure AI 超级计算基础设施支持 Mistral AI ,为 Mistral AI 旗舰模型的 AI 训练和推理工作负载提供一流的性能和规模;市场推广:微软和 Mistral AI 将通过 Azure AI Studio 和 Azure 机器学习模型目录中的模型即服务(MaaS)向客户提供 Mistral AI 的高级模型。除 OpenAI 模型外,模型目录还提供了多种开源和商业模型。人工智能研发:微软和 Mistral AI 将探索为特定客户训练特定目的模型的合作。当被问及公司是否正在改变其开源商业模式时,Mistral AI 联合创始人 Arthur Mensch 在采访中表示:“我们从开源模式开始,任何人都可以免费部署,因为这是广泛分发它们并创造需求的一种方式。但从一开始,我们就提供了一种具有优化模型的商业模式,这让使该公司能够为模型开发所需的昂贵研究提供资金。”参考链接: 2024)即将于 2024 年 3 月 30 日至 31 日在上海徐汇西岸美高梅酒店举行。本次大会由中国人工智能学会(CAAI)主办,CAAI 具身智能专委会(筹)、同济大学、中国科学院计算技术研究所、上海交通大学、中国经济信息社上海总部联合承办,全球高校人工智能学术联盟协办,机器之心独家 AI 媒体合作。盛会将为具身智能领域的学术与产业界搭建一个交流合作的顶级平台,以广泛促进学术分享与交流、产业合作与互动,推动产学研联动发展,提升我国具身智能技术的研究与应用水平。 ... PC版: 手机版:

封面图片

Perplexity推出,可快速访问开源大型语言模型如Mistral 7B、Llama2 13B等

Perplexity推出,可快速访问开源大型语言模型如Mistral 7B、Llama2 13B等 - pplx-api易于使用,开发者可以在几分钟内通过REST API整合先进的开源模型。 - pplx-api推理速度很快,比其他解决方案的延迟降低了2-3倍。 - pplx-api基础设施经过验证,可以承载产品级流量。 - pplx-api采用NVIDIA TensorRT-LLM和AWS A100 GPU等先进软硬件,实现了优化。 - pplx-api已用于Perplexity的产品中,相比外部API每年节省了62万美元成本。 - pplx-api兼容OpenAI API,可以轻松集成到现有应用中。 - 未来pplx-api将支持更多定制和开源模型。

封面图片

:一个开源引擎,用于微调和提供大型语言模型的服务,是定制和提供LLM的最简单方式

:一个开源引擎,用于微调和提供大型语言模型的服务,是定制和提供LLM的最简单方式 主要特征 适用于你喜爱的模型的即用型 API:部署和服务开源基础模型 - 包括 LLaMA、MPT 和 Falcon。使用 Scale 托管模型或部署到您自己的基础设施。 微调基础模型:根据您自己的数据微调开源基础模型,以优化性能。 优化推理:LLM Engine 提供推理 API,用于流式响应和动态批处理输入,以实现更高的吞吐量和更低的延迟。 开源集成: 使用单个命令部署任何。 即将推出的功能 K8s 安装文档:我们正在努力记录您自己的基础设施上推理和微调功能的安装和维护。目前,我们的文档涵盖了使用我们的客户端库访问 Scale 的托管基础​​设施。 快速冷启动时间:为了防止 GPU 闲置,LLM Engine 在不使用模型时会自动将模型缩放为零,并在几秒钟内扩展,即使对于大型基础模型也是如此。 成本优化:部署人工智能模型比商业模型更便宜,包括冷启动和预热时间。

封面图片

Cloudflare推出新的人工智能工具,帮助客户部署和运行模型

Cloudflare推出新的人工智能工具,帮助客户部署和运行模型 为了从人工智能热潮中获利,云服务提供商 Cloudflare 正在推出一系列新的产品和应用程序,旨在帮助客户在网络边缘构建、部署和运行人工智能模型。 Workers AI 是新产品之一,它允许客户访问由 Cloudflare 合作伙伴托管的 距离用户最近的GPU,以按使用量付费的方式运行 AI 模型。另一个是 Vectorize,它提供了一个矢量数据库来存储由 Workers AI 模型生成的矢量嵌入(数据的数学表示)。第三个是人工智能网关,旨在提供指标,使客户能够更好地管理运行人工智能应用程序的成本。 Cloudflare 首席执行官 Matthew Prince 表示,推出新的以 AI 为中心的产品套件的动机是 Cloudflare 客户对更简单、更易于使用的 AI 管理解决方案的强烈渴望,该解决方案注重节省成本。 Workers AI 试图确保人工智能推理始终发生在靠近用户(从地理角度来看)的 GPU 上,以提供低延迟、人工智能驱动的最终用户体验。利用 ONNX(微软支持的中间机器学习工具包,用于在不同人工智能框架之间进行转换),Workers AI 允许人工智能模型在带宽、延迟、连接、处理和本地化限制方面最有意义的处理过程中运行。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人