苹果开源 OpenELM 系列语言模型

苹果在HuggingFace上最新推出了OpenELM系列语言模型。OpenELM总共有8个模型,包括270M、450M、1.1B和3B这四个参数规模(分为预训练版和指令微调版)。它们使用了总计约1.8万亿个token的多个公共数据集。目前,OpenELM的代码、预训练模型权重以及训练和评估流程全部开放。标签:#Apple#AI频道:@GodlyNews1投稿:@GodlyNewsBot

相关推荐

封面图片

苹果发布 OpenELM 大语言模型,基于开源训练和推理框架的语言模型

苹果发布OpenELM大语言模型,基于开源训练和推理框架的语言模型在WWDC24之前,苹果在HuggingFace平台上发布了一个“具有开源训练和推理框架的高效语言模型”,名为OpenELM。苹果这次发布了完整的框架,包括数据准备、训练、微调和评估程序,以及多个预训练的checkpoint和训练日志,以促进开源研究。其源码及预训练的模型权重和训练配方可在苹果Github库中获取。

封面图片

傻瓜式大语言模型微调训练教程_哔哩哔哩_bilibili

发现一个讲的很细的大语言模型微调教程,详细介绍了整个流程,包括数据准备、参数设置、资源监控等关键步骤。基本没有技术能力也可以完成微调。想要了解LLM原理的可以按这个实践一下。时间轴:0:00概念概览3:02自定义数据的准备8:17微调操作演示(T4版本)16:52微调操作演示(A100版本)19:13在HuggingFace上的保存与使用方法文字版整理:如何使用自己的数据对大语言模型进行微调(fine-tuning):对大语言模型进行微调并不一定非常困难和昂贵。通过使用自己的数据集对预训练模型进行微调,可以让模型更好地适应特定的任务需求。微调过程能够在保留原模型语言理解能力的基础上,进一步提升其在特定领域或任务上的表现。使用HuggingFace模型库和Unslaw工具进行模型微调:HuggingFace提供了丰富的预训练语言模型资源,用户可以根据任务需求选择合适的模型作为基础进行微调。而Unslaw工具则提供了一套简单高效的微调流程,其优点包括出色的内存使用效率以及对扩展上下文窗口的支持。通过Unslaw,用户能够以较低的资源开销完成模型微调。在GoogleColab上使用免费/付费GPU资源进行微调:GoogleColab提供了免费和付费的GPU资源,用户可以根据任务的复杂程度选择使用T4或A100。对于大多数微调任务而言,免费的T4资源已经足够。但如果数据集较大或模型较为复杂,升级到A100可以获得更充裕的算力支持。Colab为用户提供了一个易于上手的模型微调环境。准备自定义的微调数据集:准备微调数据的过程并不复杂。用户可以直接使用纯文本文件作为数据来源,而无需进行额外的预处理。为了获得理想的微调效果,建议至少准备100-200个样本。在示例中,为了快速演示,仅使用了几个样本。通过一个简单的Python脚本,可以方便地将原始文本数据转换为微调所需的JSON格式。修改Colab笔记本中的参数设置:

封面图片

苹果公司发表四款开源新模型 有助于提高未来人工智能的准确性

苹果公司发表四款开源新模型有助于提高未来人工智能的准确性这些指导模型被称为开源高效LLMs或OpenELMs,托管在协作平台HuggingFace上。HuggingFace用于托管人工智能模型,以及对其进行训练和与他人合作改进。OpenELM是指一个开源库,它利用进化算法将多个大型语言模型(LLM)结合在一起。这四个OpenELM模型采用"分层缩放策略",在变压器机器学习模型的各层中分配参数,以提高精确度。这些模型使用CoreNet库进行了预训练。苹果公司提供了使用2.7亿、4.5亿、11亿和30亿个参数的预训练和指令调整模型。预训练数据集由Dolmav1.6子集、RefinedWeb、重复PILE和RedPajama子集组合而成。这样得到的数据集约有1.8万亿个标记。在本周二发布的一篇相关论文中,该项目的研究人员表示,大型语言模型的可重复性和透明度"对于推进开放式研究至关重要"。它还有助于确保结果的可信度,并允许对模型偏差和风险进行调查。至于模型的准确性,据解释,在使用10亿个参数预算的情况下,OpenELM比OLMo的准确性提高了2.36%,而所需的预训练代币数量仅为OLMo的一半。模型和论文的作者包括SachinMehta、MohammadHosseinSekhavat、QingqingCao、MaxwellHorton、YanziJin、ChenfanSun、ImanMirzadeh、MahyarNajibi、DmitryBelenko、PeterZatloukal和MohammadRastegari。发布这些模型的源代码是苹果公司宣传其人工智能和机器学习发展成果的最新尝试。这并不是苹果公司第一次公开发布人工智能程序。今年10月,苹果分享了一个名为Ferret的开源LLM,它改进了模型分析图像的方式。今年4月,Ferret的新版本增加了解析应用程序截图中数据点的功能,并能大致了解应用程序的功能。此外,还发布了关于生成式人工智能动画工具和创建人工智能头像的论文。预计6月份的WWDC将包括苹果产品在人工智能方面的许多进展。...PC版:https://www.cnbeta.com.tw/articles/soft/1428512.htm手机版:https://m.cnbeta.com.tw/view/1428512.htm

封面图片

阿里通义千问 Qwen2 大模型发布并同步开源

阿里通义千问Qwen2大模型发布并同步开源阿里通义千问Qwen2大模型今日发布,并在HuggingFace和ModelScope上同步开源。据悉,Qwen2系列涵盖5个尺寸的预训练和指令微调模型,其中包括Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B和Qwen2-72B,上下文长度支持进一步扩展,最高达128Ktokens。——

封面图片

Databricks开源DBRX高性能大语言模型

开源DBRX高性能大语言模型DBRX是Databricks开发的开源通用语言模型,在多项标准基准测试上达到了当前开源语言模型的最高水平。DBRX在多项综合基准测试中表现最好,尤其在编程和数学推理方面优于其他开源模型。与开源模型相比,DBRX在MMLU数据集上的表现也是最好的。根据测试,DBRX甚至超过了专门用于编程的CodeLLAMA-70B,并且与商业模型GPT-3.5相当甚至略胜。DBRX也与Gemini1.0Pro和MistralMedium等商业模型有竞争力。DBRX使用混合专家(MoE)架构,使其在训练和推理上更加高效。与类似参数量的非MoE模型相比,DBRX的推理吞吐量提高2-3倍。DBRX的整体训练效率比之前提高了近4倍,这得益于更好的数据、MoE架构以及其他改进。DBRX已经在Databricks的GenAI产品中进行了集成,客户可以通过API使用该模型。DBRX的训练代码和模型也在HuggingFace平台上开源。DBRX证明了Databricks可以高效地训练世界级的基础语言模型,也为企业训练自己的基础模型提供了能力。DBRX只是Databricks协助客户训练定制语言模型的一个例子。

封面图片

苹果开源大模型OpenELM来了,可能用在下一代iPhone上

苹果开源大模型OpenELM来了,可能用在下一代iPhone上苹果最近在AI代码社区HuggingFace上发布了OpenELM大模型。该模型是一系列开源大型语言模型,具有不同的参数大小,可在端侧设备上运行。据了解,该系列模型包含4个不同参数版本,分别为2.7亿、4.5亿、11亿和30亿。由于参数较小,这些模型可以在端侧设备上独立运行,而无需连接云端服务器。总体而言,该系列包括4个预训练模型和4个指令调优模型。这些模型可以在笔记本电脑甚至智能手机上运行。苹果举例称,其中一款模型在MacBookPro上运行,配备了M2Max芯片和64GBRAM,操作系统为macOS14.4.1。来源:格隆汇

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人