用 ORPO 将 Llama 3 的性能提升到新高度 |

用 ORPO 将 Llama 3 的性能提升到新高度 | ORPO(Odds Ratio Preference Optimization)是一种新的微调技术,可以将传统的监督微调和偏好对齐阶段合并为一个过程,从而减少计算资源和训练时间。 ORPO通过修改语言建模目标,将负对数似然损失与比值(OR)项相结合,以弱化被拒绝的响应并强化被选择的响应,让模型同时学习目标任务和人类偏好。 文章使用TRL库中的ORPOTrainer在Llama 3 8B模型上进行ORPO微调,数据集包含DPO偏好对,共1000个样本。尽管由于样本量少仅训练了1个epoch,但微调后的模型在Nous的基准测试中表现良好,所有指标上均优于Llama 3原模型。 ORPO展现了作为新的微调范式的潜力,未来在更大规模的偏好数据集上进行充分训练将产生更好的效果。选择高质量的数据集也非常重要。 当前是开源社区的活跃时期,正在发布越来越多高质量的开源模型,开源模型与专有模型的差距正在缩小,微调是获得最佳性能的关键。

相关推荐

封面图片

4050亿参数 Meta或将7月23日发布迄今最强大Llama 3模型

4050亿参数 Meta或将7月23日发布迄今最强大Llama 3模型 Meta公司拒绝对上述消息置评。周五盘中,低开的Meta股价跌幅收窄,盘初曾跌3.6%,午盘跌不足2%,仍将在周四大幅回落超4%后连跌两日,或将刷新6月28日以来收盘低位。去年7月Meta发布的Llama 2有三个版本,最大版本70B的参数规模为700亿。今年4月,Meta发布Llama 3Meta,称它为“迄今为止能力最强的开源LLM”。当时推出的Llama 3有8B和70B两个版本。Meta CEO扎克伯格当时称,大版本的Llama 3将有超过4000亿参数。Meta并未透露会不会将4000亿参数规模的Llama 3开源,当时它还在接受训练。对比前代,Llama 3有了质的飞跃。Llama 2使用2万亿个 token进行训练,而训练Llama 3大版本的token超过15 万亿。Meta称,由于预训练和训练后的改进,其预训练和指令调优的模型是目前8B和70B两个参数规模的最佳模型。在训练后程序得到改进后,模型的错误拒绝率(FRR)大幅下降,一致性提高,模型响应的多样性增加。 在推理、代码生成和指令跟踪等功能方面,Llama 3相比Llama 2有极大改进,使Llama 3更易于操控。4月Meta展示,8B和70B版本的Llama 3指令调优模型在大规模多任务语言理解数据集(MMLU)、研究生水平专家推理(GPQA)、数学评测集(GSM8K)、编程多语言测试(HumanEval)等方面的测评得分都高于Mistral、谷歌的Gemma和Gemini和Anthropic的Claude 3。8B和70B版本的预训练Llama 3多种性能测评优于Mistral、Gemma、Gemini和Mixtral。当时社交媒体的网友评论称,根据基准测试,当前的Llama 3模型不完全是 GPT-4 级别的,但仍在训练中的较大尺寸的模型将达到 GPT-4 级别。英伟达高级科学家Jim Fan认为,Llama 3的推出已经脱离了技术层面的进步,更是开源模型与顶尖闭源模型可分庭抗礼的象征。从Jim Fan分享的基准测试可以看出,Llama 3 400B 的实力几乎媲美 Claude“超大杯”以及新版 GPT-4 Turbo,将成为“分水岭”,相信它将释放巨大的研究潜力,推动整个生态系统的发展,开源社区或将能用上GPT-4级别的模型。此后有消息称,研究人员尚未开始对Llama 3进行微调,还未决定Llama 3是否将是多模态模型;正式版的Llama 3将会在今年7月正式推出。不同于OpenAI等开发商,Meta致力于开源LLM,不过,这个赛道也越来越拥挤。谷歌、特斯拉CEO马斯克旗下的xAI和Mistral 等竞争对手也发布了免费的AI模型。Llama 3问世后,同在4月亮相的4800亿参数模型Arctic击败Llama 3、Mixtra,刷新了全球最大开源模型的纪录。Arctic基于全新的Dense-MoE架构设计,由一个10B的稠密Tranformer模型和128×3.66B的MoE MLP组成,并在3.5万亿个token上进行了训练。相比Llama 3 8B和Llama 2 70B,Arctic所用的训练计算资源不到它们的一半,评估指标却取得了相当的分数。 ... PC版: 手机版:

封面图片

Llama2发布了,这版本可以商用了,国内的大模型有救了,我详细整理了一些信息:

Llama2发布了,这版本可以商用了,国内的大模型有救了,我详细整理了一些信息: - Llama2 的性能和参数 - 如何使用和限制条件 - Llama2 的模型架构 - Llama2 的训练方法论 下面是详细的信息 Llama2 的性能和参数 - Llama2有三个大小的版本分别是7B 13B和70B - Llama 2 的训练数据比 Llama 1 多 40%,上下文长度是 Llama 1 的两倍。 - 预训练的Token为2 万亿,上下文长度为4096 - 据Meta所说,Llama 2 在许多外部基准测试中都优于其他开源语言模型,包括推理、编码、熟练程度和知识测试。 如何使用和限制条件 - 与第一次泄漏的版本不同,这次Meta开放了商业使用的权限。 - 现在可以直接在这个页面申请下载模型: - 日活大于7亿的产品需要单独申请商用权限 - 不得使用 Llama 材料或 Llama 材料的任何输出或结果来改进任何其他大型语言模型。 Llama2 的模型架构 - Llama 2-Chat 的基础是 Llama 2 系列预训练语言模型。Llama 2 使用标准的Transformer架构。 - Llama 2-Chat 通过监督微调和强化学习人类反馈进行了优化。先进行监督微调,然后应用包括拒绝采样和PPO在内的强化学习算法进行迭代改进。 - 采用了一些优化,比如预规范化、SwiGLU激活函数和旋转位置嵌入(RoPE)。 - Llama 2-Chat有70亿、34亿、13亿和7亿参数的版本。训练使用公开可获得的数据,没有使用任何Meta用户数据。 Llama2 的训练方法论 1. 预训练 • 使用公开可获得的在线数据进行预训练,总计2万亿个标记。 • 对数据进行了清洗,移除了一些包含大量个人信息的网站。 • 采用标准的Transformer架构,以及一些优化如RoPE等。 2. 监督微调 • 使用高质量的人工标注数据(约3万示例)进行监督微调。 • 优化回答标记,而不是提示标记。 3. 基于人类反馈的强化学习 • 收集人类偏好数据: letting人类比较并选择更好的回复。 • 训练奖励模型,给回复打分。 • 使用拒绝抽样和PPO算法进行迭代调优。

封面图片

Meta 公司将发布 LLaMA 的商业版本

Meta 公司将发布 LLaMA 的商业版本 LLaMA 是 Meta 开源的大型语言模型(LLM),于今年 2 月公开发布,并提供给研究人员和学者使用,它有 70 亿、130 亿、330 亿和 650 亿等不同参数规模。开源的 LLaMA 中并没有包括其所使用的权重数据,但很快这些权重数据被“意外”泄露,并迅速引爆了一系列基于它的开源创新。尽管开源人工智能模型已经存在,但 Meta 的 LLaMA 商业化仍是重要的一步,因为它比市场上现有的许多开源 LLM 都要大,而且它来自全球最大的科技公司之一。来源 , 来自:雷锋 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

封面图片

掌握Llama 2:Meta推出提示工程交互式指南 || #指南

掌握Llama 2:Meta推出提示工程交互式指南 || #指南 一个交互式指南,涵盖了提示工程和最佳实践,专为与大型语言模型(LLM)工作的开发者、研究人员和爱好者设计。 指南提供了关于如何有效地与Llama 2模型交互的详细信息,包括如何格式化聊天提示、何时使用哪种Llama变体、何时使用ChatGPT而不是Llama、系统提示的工作方式以及一些技巧和窍门。还包括如何使用PEFT进行微调、如何在本地机器上进行微调以及如何部署Llama 2等资源。 Llama 2是Meta发布的一系列最新的开放访问大型语言模型,包括7B、13B和70B参数规模的模型,这些模型在预训练和微调方面都有显著改进。

封面图片

:用 Llama 2 打造个性化教育平台

:用 Llama 2 打造个性化教育平台 韩国教育公司Mathpresso利用开源模型Llama 2打造了数学学习平台QANDA和数学专用语言模型MathGPT。 商业语言模型如ChatGPT缺乏针对复杂教育背景的个性化。Llama 2灵活开源,Mathpresso可以充分利用自己的数据和技术。MathGPT不仅给出答案,还提供步骤详细的解释,帮助学生深入理解。它在国小和国中数学测试中刷新了世界纪录。 韩国AI创业公司Upstage也使用了Llama 2。它的模型在开源语言模型排行榜上首次超过了GPT-3.5。Upstage认为Llama 2作为顶尖开源语言模型,为他们提供了充分的基础去开发定制化模型。 Mathpresso希望通过AI导师,实现个性化教育向所有人开放。Llama 2这样的开源模型给了他们灵活性去创造可负担的教育工具。Llama 2等开源模型为公司大大小小提供了使用尖端技术的公平机会。它们正在开创性地影响教育等领域。

封面图片

最强开源大模型深夜炸场:Llama 3 王者归来 表现直逼 GPT-4

最强开源大模型深夜炸场:Llama 3 王者归来 表现直逼 GPT-4 Llama 3 70B: 第一档 AI 模型,媲美 Gemini 1.5 Pro、全面超越 Claude 大杯以上还只是 Meta 的开胃小菜,真正的大餐还在后头。在未来几个月,Meta 将陆续推出一系列具备多模态、多语言对话、更长上下文窗口等能力的新模型。其中,超 400B 的重量级选手更是有望与 Claude 3 超大杯“掰手腕”。又一 GPT-4 级模型来了,Llama 3 开卷与前代 Llama 2 模型相比,Llama 3 可谓是迈上了一个新的台阶。得益于预训练和后训练的改进,本次发布的预训练和指令微调模型是当今 8B 和 70B 参数规模中的最强大的模型。同时后训练流程的优化显著降低了模型的出错率,增强了模型的一致性,并丰富了响应的多样性。扎克伯格曾在一次公开发言中透露,考虑到用户不会在 WhatsApp 中向 Meta AI 询问编码相关的问题,因此 Llama 2 在这一领域的优化并不突出。而这一次,Llama 3 在推理、代码生成和遵循指令等方面的能力取得了突破性的提升,使其更加灵活和易于使用。基准测试结果显示,Llama 3 8B 在 MMLU、GPQA、HumanEval 等测试的得分远超 Google Gemma 7B 以及 Mistral 7B Instruct。用扎克伯格的话来说,最小的 Llama 3 基本上与最大的 Llama 2 一样强大。Llama 3 70B 则跻身于顶尖 AI 模型的行列,整体表现全面碾压 Claude 3 大杯,与 Gemini 1.5 Pro 相比则是互有胜负。为了准确研究基准测试下的模型性能,Meta 还特意开发了一套新的高质量人类评估数据集。该评估集包含 1800 个提示,涵盖 12 个关键用例:寻求建议、头脑风暴、分类、封闭式问答、编码、创意写作、提取、塑造角色、开放式问答、推理、重写和总结。出于避免 Llama 3 在此评估集上出现过度拟合,Meta 甚至禁止他们的研究团队访问该数据集。在与 Claude Sonnet、Mistral Medium 和 GPT-3.5 的逐一较量中,Meta Llama 70B 都以“压倒性胜利”结束了比赛。据 Meta 官方介绍,Llama 3 在模型架构上选择了相对标准的纯解码器 Transformer 架构。与 Llama 2 相比,Llama 3 进行了几项关键的改进:使用具有 128K token 词汇表的 tokenizer,可以更有效地编码语言,从而显著提升模型性能在 8B 和 70B 模型中都采用分组查询注意力 (GQA),以提高 Llama 3 模型的推理效率在 8192 个 token 的序列上训练模型,使用掩码来确保自注意力不会跨越文档边界。训练数据的数量和质量是推动下一阶段大模型能力涌现的关键因素。从一开始,Meta Llama 3 就致力于成为最强大的模型。Meta 在预训练数据上投入了大量的资金。 据悉,Llama 3 使用从公开来源收集的超过 15T 的 token,是 Llama 2 使用数据集的七倍,其中包含的代码数据则是 Llama 2 的四倍。考虑到多语言的实际应用,超过 5% 的 Llama 3 预训练数据集由涵盖 30 多种语言的高质量非英语数据组成,不过,Meta 官方也坦言,与英语相比,这些语言的性能表现预计是稍逊一筹。为了确保 Llama 3 接受最高质量的数据训练,Meta 研究团队甚至提前使用启发式过滤器、NSFW 筛选器、语义重复数据删除方法和文本分类器来预测数据质量。值得注意的是,研究团队还发现前几代 Llama 模型在识别高质量数据方面出奇地好,于是让 Llama 2 为 Llama 3 提供支持的文本质量分类器生成训练数据,真正实现了“AI 训练 AI”。除了训练的质量,Llama 3 在训练效率方面也取得了质的飞跃。Meta 透露,为了训练最大的 Llama 3 模型,他们结合了数据并行化、模型并行化和管道并行化三种类型的并行化。在 16K GPU 上同时进行训练时,每个 GPU 可实现超过 400 TFLOPS 的计算利用率。研究团队在两个定制的 24K GPU 集群上执行了训练运行。为了最大限度地延长 GPU 的正常运行时间,研究团队开发了一种先进的新训练堆栈,可以自动执行错误检测、处理和维护。此外,Meta 还极大地改进了硬件可靠性和静默数据损坏检测机制,并且开发了新的可扩展存储系统,以减少检查点和回滚的开销。这些改进使得总体有效训练时间超过 95%,也让 Llama 3 的训练效率比前代足足提高了约 3 倍。开源 VS 闭源作为 Meta 的“亲儿子”,Llama 3 也顺理成章地被优先整合到 AI 聊天机器人 Meta AI 之中。追溯至去年的 Meta Connect 2023 大会,扎克伯格在会上正式宣布推出 Meta AI,随后便迅速将其推广至美国、澳大利亚、加拿大、新加坡、南非等地区。在此前的采访中,扎克伯格对搭载 Llama 3 的 Meta AI 更是充满信心,称其将会是人们可以免费使用的最智能的 AI 助手。我认为这将从一个类似聊天机器人的形式转变为你只需提出一个问题,它就能给出答案的形式,你可以给它更复杂的任务,它会去完成这些任务。当然,Meta AI 若是“ 尚未在您所在的国家/地区推出”,你可以采用开源模型最朴素的使用渠道全球最大的 AI 开源社区网站 Hugging Face。Perplexity、Poe 等平台也迅速宣布将 Llama 3 集成到平台服务上。你还可以通过调用开源模型平台 Replicate API 接口来体验 Llama 3,其使用的价格也已经曝光,不妨按需使用。有趣的是,在 Meta 官宣 Llama 3 前,有眼尖的网友发现微软的 Azure 市场偷跑 Llama 3 8B Instruct 版本,但随着消息的进一步扩散,当蜂拥而至的网友再次尝试访问该链接时,得到的只有“404”的页面。Llama 3 的到来,正在社交平台 X 上掀起一股新的讨论风暴。Meta AI 首席科学家、图灵奖得主 Yann LeCun 不仅为 Llama 3 的发布摇旗呐喊,并再次预告未来几个月将推出更多版本。就连马斯克也现身于该评论区,用一句简洁而含蓄的“Not bad 不错”,表达了对 Llama 3 的认可和期待。英伟达高级科学家 JIm Fan 则将注意力投向了即将推出的 Llama 3 400B+,在他看来,Llama 3 的推出已经脱离了技术层面的进步,更像是开源模型与顶尖闭源模型并驾齐驱的象征。从其分享的基准测试可以看出,Llama 3 400B+ 的实力几乎媲美 Claude 超大杯、以及 新版 GPT-4 Turbo,虽然仍有一定的差距,但足以证明其在顶尖大模型中占有一席之地。今天恰逢斯坦福大学教授,AI 顶尖专家吴恩达的生日,Llama 3 的到来无疑是最特别的庆生方式。不得不说,如今的开源模型当真是百花齐放,百家争鸣。今年年初,手握 35 万块 GPU 的扎克伯格在接受 The Verge 的采访时描绘了 Meta 的愿景致力于打造 AGI(通用人工智能)。与不 open 的 OpenAI 形成鲜明对比,Meta 则沿着 open 的开源路线朝 AGI 的圣杯发起了冲锋。正如扎克伯格所说,坚定开源的 Meta 在这条充满挑战的征途中也并非毫无收获:我通常非常倾向于认为开源对社区和我们都有好处,因为我们会从创新中受益。在过去的一年中,整个 AI 圈都在围绕开源或闭源的路线争论不休, 甚至亲自下场的马斯克也通过开源 Grok 1.0 的方式给全世界打了个样。如今 这场辩论,已经超越了技术层面的优劣比较,触及了 AI 未来发展的核心方向。前不久,一些观点称开源模型将会越来越落后,如今 Llama 3 的到来,也给了这种悲观的论调一记响亮的耳光。然而,尽管 Llama 3 为开源模型扳回一局,但这场关于开源与闭源的辩论还远未结束。毕竟暗中蓄势待发的 GPT-4.5/5 也许会在今年夏天,以无可匹敌的性能为这场旷日持久的争论画上一个句号。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人