有人发现用2019年 GPT-2 的 1.5B 模型为基础,使用大规模指令集进行微调之后,模型指标竟然超越了2023年的羊驼 7

有人发现用2019年 GPT-2 的 1.5B 模型为基础,使用大规模指令集进行微调之后,模型指标竟然超越了2023年的羊驼 7B 模型。 OpenAI 这是领先了多少。。 恐怖如斯 (同时GPT-2当时国内每家大公司应该都搞了。。 anton: Fine tuned GPT-2 a 1.5B model from 2019 outperforming Alpaca LLaMA a 7B model from 2023...

相关推荐

封面图片

有人发现用2019年 GPT-2 的 1.5B 模型为基础,使用大规模指令集进行微调之后,模型指标竟然超越了2023年的羊驼 7

有人发现用2019年 GPT-2 的 1.5B 模型为基础,使用大规模指令集进行微调之后,模型指标竟然超越了2023年的羊驼 7B 模型。 OpenAI 这是领先了多少。。 恐怖如斯 (同时GPT-2当时国内每家大公司应该都搞了。。

封面图片

Meta宣布推出Llama 2(羊驼2) 提供7B~70B模型 开源免费可商用

Meta宣布推出Llama 2(羊驼2) 提供7B~70B模型 开源免费可商用 今天 Meta 发布 Llama 2 也就是羊驼 2 模型,提供 7B、13B 和 70B 参数版本,该模型开源、免费、可商用,这也是为什么最近一段时间有大量新模型出现,对开源社区来说,只要有高质量模型被开源出来,那接下来就是社区成员登场,微调、优化、定制、整合,然后就可以生成更多模型了。 羊驼 2 预训练模型接受了 2 万亿个 tokens 的训练,上下文长度是 Llama 1 的两倍,是的其上下文长度从 2048 提升到了 4096,其微调模型接受了超过 100 万个人类标注的训练。 根据 Meta AI 研究团队的测试,羊驼 2 在不少测试中表现都比较优异 (相对其他开源模型),包括推理、编程、熟练程度和知识测试。 (需要提供Email地址) 来源 , 来自:雷锋 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

封面图片

全球最强大模型一夜易主 GPT-4被全面超越

全球最强大模型一夜易主 GPT-4被全面超越 几项数学类评测都是用0-shot超越GPT-4的4-8 shot。除此之外,此前就以长下文窗口见长的Claude,此次全系列大模型可提供 200K 上下文窗口,并且接受超过100万Tokens输入。Gemini 1.5 Pro:嗯?目前可以免费体验第二强Sonnet,Opus最强版供Claude Pro付费用户使用,但大模型竞技场也可以白嫖。于是乎,网友们已经开始疯玩上了。(Doge)另外,Opus和Sonnet也开放API访问,开发者可以立即使用。有人直接艾特奥特曼:好了,你现在可以发布GPT-5了。不过奥特曼可能还在烦马斯克的诉讼……最新最强大模型发布此次Claude 3家族共有三个型号:小杯Haiku、中杯Sonnet以及大杯Opus,成本和性能依次递增。首先,在性能参数上,Claude 3全系多方面全面提升。其中Opus在MMLU、GPQA、GSM8K等评估基准上领先于其他所有模型:还有在视觉能力上,它能可以处理各种视觉格式,包括照片、图表、图形和技术图表。对于这样性能结果,有专业人士表达了自己的看法。比如爱丁堡大学博士生、 中文大模型知识评估基准C – Eval提出者之一符尧就表示,像MMLU / GSM8K / HumanEval这些基准,已经严重饱和:所有模型的表现都相同。他认为,真正区分模型性能基准的是MATH and GPQA。另外,在拒绝回答人类问题方面,Claude 3也前进了一大步,拒绝回答的可能性显著降低在上下文以及记忆能力上,他们用大海捞针(Needle In A Haystack,NIAH)来评估衡量大模型从大量数据中准确召回信息的能力。结果Claude 3 Opus 不仅实现了近乎完美的召回率,超过 99% 的准确率。而且在某些情况下,它甚至能识别出 “针 “句似乎是人为插入原文的,从而识别出评估本身的局限性。还在生物知识、网络相关知识等方面取得了进步,但出于负责任的考虑,仍处于AI安全级别2(ASL-2)。其次,在响应时间上,Claude 3大幅缩短,做到近乎实时。官方介绍,即将发布的小杯Haiku能够在三秒内阅读并理解带有图表的长度约10k token的arXiv论文。而中杯Sonnet能够在智能水平更高的基础上,速度比Claude 2和Claude 2.1快2倍,尤其擅长知识检索或自动化销售等需快速响应的任务。大杯Opus的智能水平最高,但速度不减,与Claude 2和Claude 2.1近似。官方对三款型号的模型也有清晰的定位。大杯Opus:比别家模型更智能。适用于复杂的任务自动化、研发和制定策略;中杯Sonnet:比其他同类模型更实惠。更适合规模化。适用于数据处理、RAG、在中等复杂度工作流程中节省时间;小杯Haiku:比同类模型更快速、实惠。适用于与用户实时互动,以及在简单工作流程中节省成本;在价格方面,最便宜的小杯定价0.25美元/1M tokens输入,最贵的大杯定价75美元/1M tokens输入对比GPT-4 Turbo,大杯价格确实高出不少,也能体现AnthropicAI对这款模型非常有信心。第一手实测反馈既如此,那就先免费来尝尝鲜~目前官方页面已经更新,Claude展现了“理解和处理图像”这一功能,包括推荐风格改进、从图像中提取文本、将UI转换为前端代码、理解复杂的方程、转录手写笔记等。即使是模糊不清的有年代感的手记文档,也能准确OCR识别:底下写着:你正在使用他们第二大智能模型Claude 3 Sonnet。然鹅,可能是人太多的原因,尝试了几次都显示“Failed”不过,网友们也已经po出了一些测试效果,比如让Sonnet解谜题。为其提供一些示例,要求它找出数字之间的关系,比如“1 Dimitris 2 Q 3”,意思是3是1和2相加的结果。结果Sonnet成功解出-1.1加8等于6.9,所以“X”的值应该是6.9:还有网友发现Sonnet现在也可以读取 ASCII 码了,直呼:这是GPT-4 ++的水平了。在编程任务上,谁写的代码好先不说,Claude 3至少不会像GPT-4一样偷懒。还有体验到了Opus的玩家,在线给模型挖坑,可opus硬是完美躲避不上当:初看这效果,感觉还行。这时候应该艾特OpenAI:GPT-5在哪里?好了,感兴趣的朋友,可以戳下方链接体验啦~ ... PC版: 手机版:

封面图片

Google加入开源战局 低配版Gemma相当于OpenAI把GPT-3开源了

Google加入开源战局 低配版Gemma相当于OpenAI把GPT-3开源了 怎么理解这个动作的重要性呢?你可以粗暴的理解为:这有点像现在正在训练更强大的GPT-5的OpenAI,把GPT3的低参数版给开源了。(前几天Sam Altman被问过这个问题,你们是否会在未来把GPT3开源,他没有直接回答。现在看来Google针对性很强啊。)(X上一张有意思的图)根据Google官方对Gemma的介绍,它的基本信息如下:Gemma是Google开源的一个大型语言模型,而非像Gemini那样是多模态的,它基于与Gemini相同的技术构建,但完全公开并允许商用授权。Gemma模型有两个主要版本,分别是Gemma 7B(70亿参数)和Gemma 2B(20亿参数)。这些模型在大规模的数据集上进行了训练,数据集包含了以英语为主的网络文档、数学数据以及代码数据,总量达到了6万亿tokens。Gemma模型的特点包括:架构细节:Gemma模型具有不同的参数规模,Gemma-2B有18层,d_model为2048,而Gemma-7B有28层,d_model为3072。这些模型还具有不同的前馈隐藏维度、头数和KV头数,以及词汇量。新技术:Gemma采用了一些新技术,如Multi-Query Attention、RoPE Embeddings、GeGLU激活函数以及Normalizer Location,这些技术有助于提高模型的性能。评测结果:Google官方宣称Gemma模型在70亿参数规模的语言模型中表现最佳,甚至超过了一些参数量更大的模型。开源情况:Gemma模型遵循一个自定义的开源协议,允许商业使用。发布完,Jeff Dean就对这个系列模型划了重点:Gemma-7B模型在涵盖通用语言理解、推理、数学和编程的8项基准测试中,性能超过了广泛使用的Llama-2 7B和13B模型。它在数学/科学和编程相关任务上,通常也超过了Mistral 7B模型的性能。Gemma-2B IT和Gemma-7B IT这两个经过指令调整的模型版本,在基于人类偏好的安全评估中,都优于Mistral-7B v0.2指令模型。特别是Gemma-7B IT模型在遵循指令方面也表现更佳。(有意思的是,在Google晒出的成绩对比中,阿里的千问背后的模型Qwen系列表现也很亮眼)我们也发布了一个负责任的生成性人工智能工具包(Responsible Generative AI Toolkit),它为负责任地使用像Gemma模型这样的开放模型提供了资源,包括:关于设定安全政策、安全调整、安全分类器和模型评估的指导。学习可解释性工具(Learning Interpretability Tool,简称LIT),用于调查Gemma的行为并解决潜在问题。一种构建具有最小样本量的强大安全分类器的方法论。我们发布了两个版本的模型权重:Gemma 2B和Gemma 7B。每个版本都提供了预训练和指令调整的变体。我们为所有主要框架提供了推理和监督式微调(SFT)的工具链:通过原生Keras 3.0支持的JAX、PyTorch和TensorFlow。提供了即用型的Colab和Kaggle笔记本,以及与流行的工具如Hugging Face、MaxText、NVIDIA NeMo和TensorRT-LLM的集成,使得开始使用Gemma变得简单。预训练和指令调整的Gemma模型可以在您的笔记本电脑、工作站或Google Cloud上运行,并且可以轻松部署在Vertex AI和Google Kubernetes Engine(GKE)上。在多个AI硬件平台上的优化确保了行业领先的性能,包括NVIDIA GPU和Google Cloud TPUs。使用条款允许所有规模的组织负责任地进行商业使用和分发。可以看到Jeff Dean和Google这次都十分强调开源模型的安全性和具体的实打实的配套设施和举措。这似乎也直至被诟病Close AI且被外界质疑安全性保障的OpenAI。现在,憋坏了的Google正式四面开战了。未来它将用Gemma对抗Llama,用Gemini对抗GPT。无论是开源还是闭源,竞争越来越焦灼了。相关文章:Google发布了一对开源人工智能模型Gemma 2B和7B 适用于较小的任务 ... PC版: 手机版:

封面图片

超越GPT-4 Claude 3超大杯成新王

超越GPT-4 Claude 3超大杯成新王 而且不仅仅是Claude 3的超大杯Opus成功登顶,藐视众生,Claude 3家族的整体表现都非常亮眼。大杯Claude 3 Sonnet排到了第4,就连最小的Claude 3 HaiKu都达到了GPT-4水平!那么相比于基准测试跑分,这个榜单的权威性如何?Chatbot Arena(聊天机器人竞技场),由伯克利团队开发,每个模型在榜单上的得分,完全取决于真实人类用户的使用体验。我们来看一下打分规则:用户同时向两个匿名模型(比如ChatGPT、Claude、Llama)提出任何相同的问题,然后根据回答投票给表现更好的模型;如果一次回答不能确定,用户可以继续聊天,直到确定获胜者;如果在对话中透露了模型的身份,则不会计算投票。Chatbot Arena平台收集了超过40万人的投票,来计算出这个大模型的等级分排行榜,最终找出谁是冠军。显然,这回Claude 3赢麻了。我们来看一下真实的战况:在所有非平局对战中, A对B获胜的比例:模型之间的对战次数(无平局):GPT-4终于被干掉了,对此,有网友开始恶搞:刚在当地超市看到Sam Altman,他一脸震惊地看着手机。几秒钟后,他真的倒下了,开始剧烈颤抖。经过2分钟的摇晃和尖叫,一群人围绕着他试图帮助他。但令人惊讶的是,他在2分钟后停止了颤抖和尖叫,站起来,拿起手机开始拨打一个号码。“准备释放......”咱也不知道Altman要放的是不是GPT-5。网友表示,Claude确实要比GPT勤奋得多:GPT-4-Turbo非常懒惰。在任何编码任务中,它都会跳过部分代码,并表示“你自己知道要放什么”,而Opus可以毫无遗漏地输出整个代码。就连Claude-2也通过自己的勤奋和耐心感动了这位网友。更有比较务实的网友指出,Haiku的排名更为重要,因为它是第一个可以以极低成本即时运行的LLM,并且具有足够高的智能来提供实时客户服务。盲生你发现了华点!Claude 3 Haiku不仅与原始版本的GPT-4表现一样好,关键是相当便宜,在一些平台你甚至可以免费使用。大家于是纷纷夸起了Claude 3 Haiku:智能相当于GPT-4,价格比GPT-3.5便宜,而且据说模型可能只有20B大小。有网友表示,OpenAI不行啦,现在Anthropic才是老大,一时间,平台内外充满了快活的空气。ChatGPT 一年零增长回过头来再看ChatGPT这边,从最初的高光、王者,到现在不能说泯然众人吧,反正多少有点寒酸了。最近,有关统计平台曝出:ChatGPT在过去一年中居然零增长!最近一段时间,ChatGPT一直被指责懒惰、系统提示臃肿,而另一方面竞争也愈演愈烈Claude 3和Gemini Pro 1.5现在都提供了比GPT-4多8倍的上下文长度和更好的recall能力。对于几乎每个ChatGPT用例,现在都有大量垂直化的AI初创公司,致力于满足用户的需求,而不是满足于现有的ChatGPT界面和捆绑工具它们有更好的UI选项(例如IDE和图像/文档编辑器)、更好的原生集成(例如用于cron重复操作)、更好的隐私/企业保护(例如用于医疗保健和金融),更细粒度的控制(GPT的默认RAG是幼稚且不可配置的)。以下是一些网友列举了相关垂直领域的产品,以及公司的融资情况:从某种意义上说,OpenAI的B2B和B2C部分相互竞争,这在某种程度上是良性竞争OpenAI可以使用来自ChatGPT的RLHF数据进行训练。而新的GPT商店可以看作是,OpenAI为了抓住这些垂直化需求的尝试。与其离开平台,到处支付20美元/月,为什么不留在ChatGPT内部而只需要支付一次,让OpenAI将理论上的收入分配给GPT创作者?对此,大部分创作者也很明智,一般只向ChatGPT发布精简版的应用,作为自己主要平台的一个渠道。在游戏机业务中,众所周知,购买决策往往是由平台独占游戏驱动的。从某种意义上说,ChatGPT的未来会以平台专属模型为特色。所以,当Sora甚至是GPT-5公开发布时,一定会率先登陆自家的平台,也许那将是下一轮ChatGPT的增长点。 ... PC版: 手机版:

封面图片

32K上下文,Mistral 7B v0.2基模型突然开源了

32K上下文,Mistral 7B v0.2基模型突然开源了 这次开源的 Mistral 7B v0.2 Base Model ,是 Mistral-7B-Instruct-v0.2 背后的原始预训练模型,后者属于该公司的“Mistral Tiny”系列。此次更新主要包括三个方面:将 8K 上下文提到了 32K;Rope Theta = 1e6;取消滑动窗口。下载链接:…更新之后的性能对比是这样的:场外观众迅速跟进。有人评价说:“Mistral 7B 已经是同尺寸级别中最好的模型,这次改进是一个巨大的进步。 我将尽快在这个模型上重新训练当前的许多微调。”Mistral AI 的第一个 7B 模型发布于 2023 年 9 月,在多个基准测试中实现了优于 Llama 2 13B 的好成绩,让 Mistral AI 一下子就打出了知名度。这也导致目前很多开源大模型都已不再对标 Llama 2,而是将 Mistral AI 旗下的各系列模型作为直接竞争对手。而 Mistral 7B v0.2 Base Model 对应的指令调优版本 Mistral-7B-Instruct-v0.2 在 2023 年 12 月就已开放测试,据官方博客介绍,该模型仅适用于英语,在 MT-Bench 上能够获得 7.6 分的成绩,逊于 GPT-3.5。此次开放基础模型之后,开发者们就可以根据自己的需求对这个“当前最好的 7B 模型”进行微调了。不过,7B 模型只能算是 Mistral AI 众多惊艳成果中的一项。这家公司的长远目标是对标 OpenAI。上个月底,Mistral AI 正式发布了“旗舰级”大模型 Mistral Large。与此前的一系列模型不同,这一版本性能更强,体量更大,直接对标 OpenAI 的 GPT-4。随着 Mistral Large 上线,Mistral AI 推出了名为 Le Chat 的聊天助手,也实现了对标 ChatGPT。而新模型的发布,也伴随着公司大方向的一次转型。人们发现, Mistral Large 并不是一个开源大模型 有跑分、 API 和应用,就是不像往常一样有 GitHub 或是下载链接。与 Mistral Large 发布同时发生的,是 Mistral AI 与微软达成了长期合作的协议,不仅会将 Mistral Large 引入 Azure,还收获了微软 1600 万美元的投资。Mistral AI 对路透社表示,作为交易的一部分,微软将持有该公司少数股权,但未透露细节。未来,二者的合作主要集中在三个核心领域:超算基础设施:微软将通过 Azure AI 超级计算基础设施支持 Mistral AI ,为 Mistral AI 旗舰模型的 AI 训练和推理工作负载提供一流的性能和规模;市场推广:微软和 Mistral AI 将通过 Azure AI Studio 和 Azure 机器学习模型目录中的模型即服务(MaaS)向客户提供 Mistral AI 的高级模型。除 OpenAI 模型外,模型目录还提供了多种开源和商业模型。人工智能研发:微软和 Mistral AI 将探索为特定客户训练特定目的模型的合作。当被问及公司是否正在改变其开源商业模式时,Mistral AI 联合创始人 Arthur Mensch 在采访中表示:“我们从开源模式开始,任何人都可以免费部署,因为这是广泛分发它们并创造需求的一种方式。但从一开始,我们就提供了一种具有优化模型的商业模式,这让使该公司能够为模型开发所需的昂贵研究提供资金。”参考链接: 2024)即将于 2024 年 3 月 30 日至 31 日在上海徐汇西岸美高梅酒店举行。本次大会由中国人工智能学会(CAAI)主办,CAAI 具身智能专委会(筹)、同济大学、中国科学院计算技术研究所、上海交通大学、中国经济信息社上海总部联合承办,全球高校人工智能学术联盟协办,机器之心独家 AI 媒体合作。盛会将为具身智能领域的学术与产业界搭建一个交流合作的顶级平台,以广泛促进学术分享与交流、产业合作与互动,推动产学研联动发展,提升我国具身智能技术的研究与应用水平。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人