数学能力超ChatGPT 70B开源大模型火了

数学能力超ChatGPT70B开源大模型火了并且是在参数只有700亿,远不及后三者的情况之下。HuggingFace已上线3个在线可玩版本(分别为7B、13B和70B参数),各种数学题可以直接丢进去试一试。比如解决下面这道四次多项式方程:或者是一道简单的微积分:亦或者是稍微修改过的拉格朗日方程推导:它都全部正确(过程也不需要等太久)。有网友向作者表示:效果真的很惊人,感谢你们对开源LLM的贡献。目前,相关代码、复现方式以及论文也都开源或上线,GitHub短短几天已揽获4.8k标星。那么,WizardMath究竟是如何做到的?用AI生成的指令增强大模型能力OpenAI的大模型(InstructGPT、GPT-4等)能够取得巨大成功、去执行各种复杂和多样化的任务,一部分原因是使用了真实人类用户生成的开放域指令数据进行了微调。然而,不是谁都能像这家公司一样获得这样的指令数据集。一是因为整个注释过程极其昂贵且耗时,二是人工难以创建出足够比例的高难度指令。因此,开发出一种成本相对较低的、大规模开放域指令自动生产方法,成为当下指令调优语言模型的关键。在此,作者将他们的方法命名为EvolInstruction。它是一种利用AI来代替人类自动生成涵盖各种难度级别开放域指令的新方法。具体而言,EvolInstruction分为指令进化器和指令消除器。其中指令进化器可通过深度进化(蓝线)或广度进化(红线)两种路径,将简单指令升级为更复杂的指令或创建一条全新指令。具体执行哪一条?随机选择就好。其中,深度进化的具体“进化法”,则是通过五种类型的操作来完成,包括:添加约束(addconstraints)、深化(deepening)、具体化(concretizing)、增加推理步骤(increasereasoningsteps)和使输入复杂化(complicateinput)。由于所有指令均由AI完成,有时难免会出现错误。因此,指令消除器就是用于过滤失败指令的。以下是一个具体示例,该方法从“1+1=?”开始,最终通过以上步骤自动生成了相当多的新指令。通过重复这一生成过程,最终我们就能得到足够多的指令,然后将它们合并并随机打乱,组成一个难度级别均匀分布的指令集,就可以对基础大模型进行微调了。在此,作者选择Alpaca的训练数据(仅由175条人工创建的种子指令生成)作为初始数据集,然后使用ChatGPT的API执行了四个进化周期,最终获得25万条指令。为了与Vicuna的70k真实用户数据(ShareGPT)进行公平比较,作者从这25万条数据中抽取了等量的样本,训练LLaMA7B模型,最终得到WizardLM,结果WizardLM的性能明显优于Vicuna。(Alpaca:斯坦福在LLaMa-7B基础上微调出来的模型;Vicuna,UC伯克利在LLaMa-13B的基础上微调得来)此外,在更为复杂的测试指令下,人类更喜欢WizardLM的输出,而非ChatGPT,这表明该方法可以显着提高LLM处理复杂指令的能力。基于此,作者又利用EvolInstruction生成了很多数学领域相关的指令,然后微调羊驼大模型,得到了WizardMath。其效果如开头所示,在GSM8k数据集上测得其数学能力超越包括ChatGPT、ClaudeInstant1、PaLM2-540B等一众大模型,位列第5名,仅次于GPT-4、Claud1.3和2.0,以及5400亿参数的Flan-PaLM2之后。以此类推,作者还在羊驼之上得到了专攻代码能力的WizardCoder,效果超越Claude和Bard(详情可戳文末地址)。团队介绍本文共9位作者,全华人。一作有3位:CanXu,微软亚洲互联网工程院S+DNLP组高级应用科学家,之前曾在微软小冰研究组和微软亚研院从事聊天机器人系统工作;QingfengSun,MicrosoftResearch科学家,研究方向为自然语言处理和信息检索,精通构建高效搜索系统,为MicrosoftBing和Office365贡献了核心深度模型;KaiZheng,MicrosoftResearch科学家,研究方向为自然语言处理、搜索和推荐排名,同样为MicrosoftBing和Office365贡献了核心深度模型。通讯作者为姜大昕,微软全球合伙人、副总裁、前微软亚洲研究院首席科学家,在微软工作16年有余、曾作为微软必应搜索引擎和Cortana智能助手自然语言理解负责人,日前已被曝离职投身大模型创业。另还有一位作者JiazhanFeng,是北大学生,这篇合著论文是TA在微软实习时产出的。项目主页:https://github.com/nlpxucan/WizardLM/tree/main/WizardMath...PC版:https://www.cnbeta.com.tw/articles/soft/1376959.htm手机版:https://m.cnbeta.com.tw/view/1376959.htm

相关推荐

封面图片

数学能力超ChatGPT,70B开源大模型火了:用AI微调AI,微软全华班出品#抽屉IT

封面图片

Databricks 发布开源指令微调大语言模型 Dolly 2.0

Databricks发布开源指令微调大语言模型Dolly2.0Databricks公司两周前发布了它的指令遵循(instruction-following)大语言模型Dolly,本周三它发布了——可授权商业使用的开源指令微调大语言模型。Dolly2.0有120亿参数,基于EleutherAIpythia模型家族,使用高质量的人类生成的指令遵循数据集进行微调。Databricks开源了Dolly2.0的整个系统,包括训练代码、数据集和模型权重,全都适合商业使用。而目前开源社区流行的LLaMA衍生模型使用的是非商业使用授权。来源,来自:雷锋频道:@kejiqu群组:@kejiquchat投稿:@kejiqubot

封面图片

英伟达开源Nemotron-4 340B 可用合成数据训出特定开源通用模型

英伟达开源Nemotron-4340B可用合成数据训出特定开源通用模型英伟达发布全新开源模型Nemotron-4340B,有可能彻底改变训练LLM的方式——或许以后各行各业都不再需要昂贵的真实世界数据集了。根据英伟达官方发文,Nemotron-4340B包括基础模型Base、指令模型Instruct和奖励模型Reward,并构建了一个高质量合成数据生成的完整流程。模型支持4K上下文窗口、50多种自然语言和40多种编程语言。训练数据方面,英伟达采用了高达9万亿个token。其中,8万亿用于预训练,1万亿用于继续训练以提高质量。Nemotron-4340B指令模型可以帮助开发者生成合成训练数据。这些多样化的合成数据,模仿了真实世界的数据特征,因而数据质量明显提升,从而提升了各领域定制LLM的性能和稳定性。而且,为了进一步提高AI生成数据的质量,开发者还可以用Nemotron-4340B奖励模型,来筛选高质量的响应。此外,为了提高模型质量,开发者可以使用NeMoAligner和由Nemotron-4340B奖励模型标注的数据集来对齐模型。根据大模型竞技场LMSYS的消息,Nemotron-4340B已直接超越了Mixtral8x22B、Claudesonnet、Llama370B、Qwen2。关注频道@ZaiHuaPd频道爆料@ZaiHuabot

封面图片

Meta宣布推出Llama 2(羊驼2) 提供7B~70B模型 开源免费可商用

Meta宣布推出Llama2(羊驼2)提供7B~70B模型开源免费可商用今天Meta发布Llama2也就是羊驼2模型,提供7B、13B和70B参数版本,该模型开源、免费、可商用,这也是为什么最近一段时间有大量新模型出现,对开源社区来说,只要有高质量模型被开源出来,那接下来就是社区成员登场,微调、优化、定制、整合,然后就可以生成更多模型了。羊驼2预训练模型接受了2万亿个tokens的训练,上下文长度是Llama1的两倍,是的其上下文长度从2048提升到了4096,其微调模型接受了超过100万个人类标注的训练。根据MetaAI研究团队的测试,羊驼2在不少测试中表现都比较优异(相对其他开源模型),包括推理、编程、熟练程度和知识测试。(需要提供Email地址)来源,来自:雷锋频道:@kejiqu群组:@kejiquchat投稿:@kejiqubot

封面图片

最强开源大模型一夜易主:谷歌Gemma 7B碾压Llama 2 13B 重燃开源之战

最强开源大模型一夜易主:谷歌Gemma7B碾压Llama213B重燃开源之战与此同时,谷歌还放出了16页的技术报告。谷歌表示,Gemma这个名字源自拉丁语「gemma」,也就是「宝石」的意思,似乎是在象征着它的珍贵性。历史上,Transformers、TensorFlow、BERT、T5、JAX、AlphaFold和AlphaCode,都是谷歌为开源社区贡献的创新。而谷歌今天在全球范围内同步推出的Gemma,必然会再一次掀起构建开源AI的热潮。同时也坐实了OpenAI「唯一ClosedAI」的名头。OpenAI最近刚因为Sora火到爆,Llame据称也要有大动作,谷歌这就又抢先一步。硅谷大厂,已经卷翻天了!HuggingFaceCEO也跟帖祝贺。还贴出了Gemma登上HuggingFace热榜的截图。Keras作者FrançoisChollet直言:最强开源大模型,今日易主了。有网友已经亲自试用过,表示Gemma7B真是速度飞快。谷歌简直是用Gemini拳打GPT-4,用Gemma脚踢Llama2!网友们也是看热闹不嫌事大,召唤MistralAI和OpenAI今晚赶快来点大动作,别让谷歌真的抢了头条。(手动狗头)可以看到,Gemma-7B模型在涵盖一般语言理解、推理、数学和编码的8项基准测试中,性能已经超越了Llama27B和13B!并且,它也超越了Mistral7B模型的性能,尤其是在数学、科学和编码相关任务中。在安全性方面,经过指令微调的Gemma-2BIT和Gemma-7BIT模型,在人类偏好评估中都超过了Mistal-7Bv0.2模型。特别是Gemma-7BIT模型,它在理解和执行具体指令方面,表现得更加出色。这次,除了模型本身,谷歌还提供了一套工具帮助开发者,确保Gemma模型负责任的使用,帮助开发者用Gemma构建更安全的AI应用程序。-谷歌为JAX、PyTorch和TensorFlow提供了完整的工具链,支持模型推理和监督式微调(SFT),并且完全兼容最新的Keras3.0。-通过预置的Colab和Kagglenotebooks,以及与HuggingFace、MaxText、NVIDIANeMo和TensorRT-LLM等流行工具的集成,用户可以轻松开始探索Gemma。-Gemma模型既可以在个人笔记本电脑和工作站上运行,也可以在GoogleCloud上部署,支持在VertexAI和GoogleKubernetesEngine(GKE)上的简易部署。-谷歌还对Gemma进行了跨平台优化,确保了它在NVIDIAGPU和GoogleCloudTPU等多种AI硬件上的卓越性能。并且,使用条款为所有组织提供了负责任的商业使用和分发权限,不受组织规模的限制。不过,Gemma并没有能够在所有的榜单中,都拿下SOTA。在官方放出的评测中,Gemma7B在MMLU、HellaSwag、SIQA、CQA、ARC-e、HumanEval、MBPP、GSM8K、MATH和AGIEval中,成功击败了Llama27B和13B模型。相比之下,Gemma7B在Boolq测试中,只与Mistral7B打了个平手。而在PIQA、ARC-c、Winogrande和BBH中,则不敌Mistral7B。在OBQA和trivalentQA中,更是同时被7B和13B规模的Llama27B斩于马下。谷歌这次发布的两个版本的Gemma模型,70亿参数的模型用于GPU和TPU上的高效部署和开发,20亿参数的模型用于CPU和端侧应用程序。在18个基于文本的任务中的11个中,Gemma都优于相似参数规模的开源模型,例如问答、常识推理、数学和科学、编码等任务。模型架构方面,Gemma在Transformer的基础上进行了几项改进,从而在处理复杂任务时能够展现出更加出色的性能和效率。-多查询注意力机制其中,7B模型采用了多头注意力机制,而2B模型则使用了多查询注意力机制。结果显示,这些特定的注意力机制能够在不同的模型规模上提升性能。-RoPE嵌入与传统的绝对位置嵌入不同,模型在每一层都使用了旋转位置嵌入技术,并且在模型的输入和输出之间共享嵌入,这样做可以有效减少模型的大小。-GeGLU激活函数将标准的ReLU激活函数替换成GeGLU激活函数,可以提升模型的表现。-归一化化位置(NormalizerLocation)每个Transformer子层的输入和输出都进行了归一化处理。这里采用的是RMSNorm作为归一化层,以确保模型的稳定性和效率。架构的核心参数如下:两种规模的参数如下:Gemma2B和7B分别针对来自网络文档、数学和代码的主要英语数据的2T和6Ttoken,进行了训练。与Gemini不同,这些模型不是多模态的,也没有针对多语言任务的SOTA进行训练。谷歌使用了Gemini的SentencePiece分词器的子集,来实现兼容性。团队对Gemma2B和7B模型进行了微调,包括有监督的微调(SFT)和基于人类反馈的强化学习(RLHF)。在有监督的微调阶段,研究者使用了一个由纯文本、英文、由人工和机器生成的问题-答案对组成的数据集。在强化学习阶段,则是使用了一个基于英文偏好数据训练出的奖励模型,以及一套精心挑选的高质量提示作为策略。研究者发现,这两个阶段对于提升模型在自动评估和人类偏好评估中的表现,至关重要。研究者根据基于LM的并行评估,选择了数据混合物进行监督微调。给定一组保留prompt,研究者会从测试模型中生成响应,从基准模型中生成对相同提示的响应,随机洗牌,然后要求一个更大、能力更强的模型在两种响应之间表达偏好。研究者构建了不同的提示集,以突出特定的能力,如遵循指令、实事求是、创造性和安全性。我们使用了不同的基于LM的自动评委,采用了一系列技术,如思维链提示、使用评分标准和章程等,以便与人类偏好保持一致。研究者进一步利用来自人类反馈的强化学习(RLHF),对已经进行过有监督微调的模型进行了优化。他们从人类评估者那里收集他们的偏好选择,并在Bradley-Terry模型的基础上,训练了一个奖励函数,这与Gemini项目的做法相似。研究者采用了一个改进版的REINFORCE算法,加入了Kullback–Leibler正则化项,目的是让策略优化这个奖励函数,同时保持与最初调整模型的一致性。与之前的有监督微调阶段相似,为了调整超参数并进一步防止奖励机制被滥用,研究者使用了一个高性能模型作为自动评估工具,并将其与基准模型进行了直接对比。谷歌在多个领域对Gemma进行了性能评估,包括物理和社会推理、问答、编程、数学、常识推理、语言建模、阅读理解等。Gemma2B和7B模型与一系列学术基准测试中的多个外部开源大语言模型进行了比较。在MMLU基准测试中,Gemma7B模型不仅超过了所有规模相同或更小的开源模型,还超过了一些更大的模型,包括Llama213B。然而,基准测试的制定者评估人类专家的表现为89.8%,而GeminiUltra是首个超越此标准的模型,这表明Gemma在达到Gemini和人类水平的性能上,还有很大的提升空间。并且,Gemma模型在数学和编程的基准测试中表现尤为突出。在通常用于评估模型分析能力的数学任务中,Gemma模型在GSM8K和更具挑战性的MATH基准测试上至少领先其他模型10分。同样,在HumanEval上,它们至少领先其他开源模型6分。Gemma甚至在MBPP上超过了专门进行代码微调的CodeLLaMA7B模型的性能(CodeLLaMA得分为41.4%,而Gemma7B得分为44.4%)。近期研究发现,即便是经过精心对齐的人工智能模型,也可能遭受新型对抗攻击,这种攻击能够规避现有的对齐措施。这类攻击有可能使模型行为异常,有时甚至会导致模型重复输出它在训练过程中记住的数据。因此,研究者专注于研究模型的「可检测记忆」能力,这被认为是评估模型记忆能力的一个上限,并已在多项研究中作为通用定义。研究者对Gemma预训练模型进行了记忆测试。具体来说,他们从每个数据集中随机选择了10,000篇文档,并使用文档开头的50个词元作为模型的prompt。测试重点是精确记忆,即如果模型能够基于输入,精确地生成接下来的50token,与原文完全一致,便认为模型「记住了」这段文本。此外,为了探测模型是否能够以改写的形式记忆信息,研究者还测试了模型的「近似记忆」能力,即允许在生成的文本和原文之间存...PC版:https://www.cnbeta.com.tw/articles/soft/1420977.htm手机版:https://m.cnbeta.com.tw/view/1420977.htm

封面图片

开源聊天机器人在质量评估上能达到 ChatGPT 的九成

加州伯克利、斯坦福、卡内基梅隆和加州圣迭戈的研究团队宣布了开源聊天机器人Vicuna-13B,它是基于Meta的大语言模型LLaMA,使用了用户通过ShareGPT分享的7万对话样本进行微调。研究人员让OpenAI的GPT-4作为裁判去对比Vicuna-13B以及ChatGPT和GoogleBard,结果显示它在质量评估中能达到ChatGPT的九成左右。Vicuna-13B的训练成本只花了300美元。Vicuna-13B的代码使用ApacheLicense2.0许可证,研究人员计划释出其模型权重。https://chat.lmsys.org/https://vicuna.lmsys.org/投稿:@ZaiHuabot频道:@TestFlightCN

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人