免费还能干翻GPT-4 Meta打了所有闭源大厂的脸

免费还能干翻GPT-4 Meta打了所有闭源大厂的脸 就在今天凌晨, Meta 正式发布了全新的 Llama 3 模型,还一次上新了 8B 和 70B 两个参数版本。它的训练数据集比 Llama 2 整整大了 7 倍,达到了 15T ,容量也是上一代的两倍,支持 8K 上下文长度。目前,它们已经接入了 Meta 最新发布的智能助手 Meta AI 中, 所有人都可以免费使用。这两个模型同样全面开源,开发者可以免费下载,并且用于商用。 ( 不过要注意的是,如果 MAU 超过 7 亿,你得申请特殊商业许可 )小扎这是誓死要在开源这条路上,一条道走到黑了。当然更炸裂的是 Llama 3 的实力除了稳居开源大模型榜首外,甚至还能在一定程度上,薄纱 Gemini Pro 1.5 、 Claude 3 Sonnet 等处于第一梯队的闭源大模型。有网友更新了一份现有大模型的能力和参数对应表,能看到 Llama 3 的两个模型的表现都相当亮眼。这,可以说是给大模型的开源派大涨了一波士气。反正消息一出炉,开源社区立马就沸腾了,各种梗图满天飞, 感谢着小扎又带兄弟们冲了一次。不过,世超觉得既然模型已经上线了,看再多的技术细节和跑分数据,都不如咱们亲自上手试试。稍微有些可惜的是,目前发出的这两个版本,还没有办法支持中文输出。也暂时只有文字对话和画图这两个简单的功能。在各家多模态打磨得出神入化的现在,多少有点 OUT 了。不过好在这次 Meta 的图片输出,有一个挺新奇的功能。我们在聊天框里输入文字,不需要发送, Llama 3 就会实时根据内容生成图像。比如我分几次在对话框输入了【 一只猫在睡觉、跳舞和跳跃 】,就能看到屏幕上生成的图片内容在跟着实时变化。到了文字输出这边,惊喜度就不高了。既然它在测试中,说自己在编程、多选题等等方面,都赶超 Claude 3 的中型版本,咱也着重测了测这方面的虚实。世超测了很多题,这里就只放出两边有差别的地方。比如简单的逻辑推理:我今天有 3 个苹果,昨天吃了一个,今天还剩几个?Llama 3 完全没有压力,轻松驾驭。但同样的题抛给 Claude 3 ,却被完全绕进去了。不过,后面世超后面简单测了几道代码能力,反而 Claude 3 的表现更让人惊艳。世超要求 Llama 3 给我做两个简单的 html 小游戏。结果,做出的贪吃蛇和打砖块游戏,都没有办法正常运行。游戏还没有开始,就显示 Game Over 了。但 Claude 3 这边做的,虽说有点小瑕疵,游戏重新开始之后,分数不会刷新。但除此之外都很完美,游戏能有正常运行。而且生成速度巨快,几秒钟就做出来。上一次见到这个速度的,还是 GPT-4 。而在后面的开放题, Llama 3 则又马上扳回了一城。世超给了一个开放性的问题:类人机器人的未来会是什么样子?几个字的小问题, Llama 3 按照短期、中期和远期,三个阶段来分点构思了一下可能性。由于篇幅限制,这里只截取了短期Claude 3 这边就有些中规中矩了,跟上面分时间、分点罗列的优等生比,逊色不少。整体测试下来,Llama 3 和闭源的 Claude 3 基本打得有来有回,甚至一些方面小胜。但如果只能做到这个程度, Meta 这次更新根本没法在圈子里掀起这么大风浪。这俩模型并不是重头戏,真正牛叉的地方,是官网里提到的一个信息: 400B+ 参数级的 Llama 3 正在训练准备中了。从纸面的各项数据上看,它各方面都强得可怕。Llama 的产品副总裁 Ragavan Srinivasan 在一次采访中说,这个版本可以媲美同类的一流专业模型。不仅做到媲美,很多功能表现,还要强过 Claude 3 的超大杯版本和 GPT-4 。虽说 Meta 认为还要评估一下安全性,再决定开不开源,但消息一出,业内早已经开始狂欢了。因为开源社区的人,或许不用等着 OpenAI 重拾初心,就能到调教、魔改上GPT-4 级别的模型了。英伟达科学家直接就发文说,小扎这个 400B+ 的模型,将会是 行业的一个分水岭,会改变很多公司和研究的未来。刚好今天过生日的前百度首席科学家、Google大脑之父吴恩达,也说 Meta 这次更新,是他 有史以来收到过最好的生日礼物。可想而知, Llama 3 给行业带来的震撼。目前,这个 400B+ 的终极版本预计将会在夏天发布。OpenAI 再不发力, Llama 3 为代表的开源大模型,彻底超车闭源大模型的历史时刻,可能真的就要来临了。而早在 Llama 3 发布之前,大模型是开源牛,还是闭源好的问题,其实早就吵得不可开交了。两边阵营都不缺大佬,李彦宏所说的, “ 开源模型会越来越落后 ” ,世超觉得逻辑上是很自洽的。因为闭源公司有成熟的商业模式,有更多的资金和人力砸进去搞研究,自己辛苦研发的成果,也可以得到保护。简而言之就是能赚钱,能赚钱才能聚集算力、聚集人才。反观很多开源模型,不仅商业模式还在探索中,有的也都是零零散散的小规模产品。月之暗面的杨植麟就曾发表过类似的观点,说是大部分基于开源大模型的应用,没有经过大算力的验证,它们在性能的稳定性、未来的可扩展性都不好说。而支持开源的这一派,世超同样也觉得不无道理。朱啸虎曾经表达过一个看法, 闭源现在确实领先于开源,但开源模型最终会追上。“OpenAI 就一两百个工程师,开源的全世界几百万、几千万工程师在用,怎么可能一直比非开源的落后? ”开源社区用了一年时间,就超过了 GPT-3.5 ,现在已经来到 GPT-4 水平。而现在 Llama 3 等模型的大力赶超,正在不断验证这句话。比尔盖茨早年间,曾经公开吐槽过 Linux 系统。觉得它从商业上来看根本不可行,既不能保护自己的知识产权,又没法赚取收入来搞研发, 最多就是个半吊子。《 乔布斯传 》中也提到过,乔布斯也怒喷过隔壁Android就是 shit ,认为它的开源给它带来各种麻烦。最后这俩超级大佬都被打脸了……甚至比尔盖茨后来公开承认微软在偷学 Linux ,Android也丝毫不比 iOS 差。而世超觉得,很可能大模型的开源闭源之间,根本就不是你死我活、不是谁强谁就一定弱。就比如Google,基本就是两手抓,既有闭源的 Gemini ,也有开源的 Gemma 。曾靠开源出圈的 Mistral 在拿了微软投资之后,它的 Mistral Large 也不再对外开源。所以开源和闭源很可能只是路线之别,哪有啥对错,只是有合适与否。而唯一能确定就是,甭管你是开源还是闭源,烧钱都是逃不开的,无论是 OpenAI 背后的微软,还是 Llama 背后的 Meta ,亦或是国内的 BAT ,大模型的战场还是这帮顶级资本之间的斗争。咱们就搬好小板凳,磕着瓜子继续吃瓜吧。 ... PC版: 手机版:

相关推荐

封面图片

最强开源大模型深夜炸场:Llama 3 王者归来 表现直逼 GPT-4

最强开源大模型深夜炸场:Llama 3 王者归来 表现直逼 GPT-4 Llama 3 70B: 第一档 AI 模型,媲美 Gemini 1.5 Pro、全面超越 Claude 大杯以上还只是 Meta 的开胃小菜,真正的大餐还在后头。在未来几个月,Meta 将陆续推出一系列具备多模态、多语言对话、更长上下文窗口等能力的新模型。其中,超 400B 的重量级选手更是有望与 Claude 3 超大杯“掰手腕”。又一 GPT-4 级模型来了,Llama 3 开卷与前代 Llama 2 模型相比,Llama 3 可谓是迈上了一个新的台阶。得益于预训练和后训练的改进,本次发布的预训练和指令微调模型是当今 8B 和 70B 参数规模中的最强大的模型。同时后训练流程的优化显著降低了模型的出错率,增强了模型的一致性,并丰富了响应的多样性。扎克伯格曾在一次公开发言中透露,考虑到用户不会在 WhatsApp 中向 Meta AI 询问编码相关的问题,因此 Llama 2 在这一领域的优化并不突出。而这一次,Llama 3 在推理、代码生成和遵循指令等方面的能力取得了突破性的提升,使其更加灵活和易于使用。基准测试结果显示,Llama 3 8B 在 MMLU、GPQA、HumanEval 等测试的得分远超 Google Gemma 7B 以及 Mistral 7B Instruct。用扎克伯格的话来说,最小的 Llama 3 基本上与最大的 Llama 2 一样强大。Llama 3 70B 则跻身于顶尖 AI 模型的行列,整体表现全面碾压 Claude 3 大杯,与 Gemini 1.5 Pro 相比则是互有胜负。为了准确研究基准测试下的模型性能,Meta 还特意开发了一套新的高质量人类评估数据集。该评估集包含 1800 个提示,涵盖 12 个关键用例:寻求建议、头脑风暴、分类、封闭式问答、编码、创意写作、提取、塑造角色、开放式问答、推理、重写和总结。出于避免 Llama 3 在此评估集上出现过度拟合,Meta 甚至禁止他们的研究团队访问该数据集。在与 Claude Sonnet、Mistral Medium 和 GPT-3.5 的逐一较量中,Meta Llama 70B 都以“压倒性胜利”结束了比赛。据 Meta 官方介绍,Llama 3 在模型架构上选择了相对标准的纯解码器 Transformer 架构。与 Llama 2 相比,Llama 3 进行了几项关键的改进:使用具有 128K token 词汇表的 tokenizer,可以更有效地编码语言,从而显著提升模型性能在 8B 和 70B 模型中都采用分组查询注意力 (GQA),以提高 Llama 3 模型的推理效率在 8192 个 token 的序列上训练模型,使用掩码来确保自注意力不会跨越文档边界。训练数据的数量和质量是推动下一阶段大模型能力涌现的关键因素。从一开始,Meta Llama 3 就致力于成为最强大的模型。Meta 在预训练数据上投入了大量的资金。 据悉,Llama 3 使用从公开来源收集的超过 15T 的 token,是 Llama 2 使用数据集的七倍,其中包含的代码数据则是 Llama 2 的四倍。考虑到多语言的实际应用,超过 5% 的 Llama 3 预训练数据集由涵盖 30 多种语言的高质量非英语数据组成,不过,Meta 官方也坦言,与英语相比,这些语言的性能表现预计是稍逊一筹。为了确保 Llama 3 接受最高质量的数据训练,Meta 研究团队甚至提前使用启发式过滤器、NSFW 筛选器、语义重复数据删除方法和文本分类器来预测数据质量。值得注意的是,研究团队还发现前几代 Llama 模型在识别高质量数据方面出奇地好,于是让 Llama 2 为 Llama 3 提供支持的文本质量分类器生成训练数据,真正实现了“AI 训练 AI”。除了训练的质量,Llama 3 在训练效率方面也取得了质的飞跃。Meta 透露,为了训练最大的 Llama 3 模型,他们结合了数据并行化、模型并行化和管道并行化三种类型的并行化。在 16K GPU 上同时进行训练时,每个 GPU 可实现超过 400 TFLOPS 的计算利用率。研究团队在两个定制的 24K GPU 集群上执行了训练运行。为了最大限度地延长 GPU 的正常运行时间,研究团队开发了一种先进的新训练堆栈,可以自动执行错误检测、处理和维护。此外,Meta 还极大地改进了硬件可靠性和静默数据损坏检测机制,并且开发了新的可扩展存储系统,以减少检查点和回滚的开销。这些改进使得总体有效训练时间超过 95%,也让 Llama 3 的训练效率比前代足足提高了约 3 倍。开源 VS 闭源作为 Meta 的“亲儿子”,Llama 3 也顺理成章地被优先整合到 AI 聊天机器人 Meta AI 之中。追溯至去年的 Meta Connect 2023 大会,扎克伯格在会上正式宣布推出 Meta AI,随后便迅速将其推广至美国、澳大利亚、加拿大、新加坡、南非等地区。在此前的采访中,扎克伯格对搭载 Llama 3 的 Meta AI 更是充满信心,称其将会是人们可以免费使用的最智能的 AI 助手。我认为这将从一个类似聊天机器人的形式转变为你只需提出一个问题,它就能给出答案的形式,你可以给它更复杂的任务,它会去完成这些任务。当然,Meta AI 若是“ 尚未在您所在的国家/地区推出”,你可以采用开源模型最朴素的使用渠道全球最大的 AI 开源社区网站 Hugging Face。Perplexity、Poe 等平台也迅速宣布将 Llama 3 集成到平台服务上。你还可以通过调用开源模型平台 Replicate API 接口来体验 Llama 3,其使用的价格也已经曝光,不妨按需使用。有趣的是,在 Meta 官宣 Llama 3 前,有眼尖的网友发现微软的 Azure 市场偷跑 Llama 3 8B Instruct 版本,但随着消息的进一步扩散,当蜂拥而至的网友再次尝试访问该链接时,得到的只有“404”的页面。Llama 3 的到来,正在社交平台 X 上掀起一股新的讨论风暴。Meta AI 首席科学家、图灵奖得主 Yann LeCun 不仅为 Llama 3 的发布摇旗呐喊,并再次预告未来几个月将推出更多版本。就连马斯克也现身于该评论区,用一句简洁而含蓄的“Not bad 不错”,表达了对 Llama 3 的认可和期待。英伟达高级科学家 JIm Fan 则将注意力投向了即将推出的 Llama 3 400B+,在他看来,Llama 3 的推出已经脱离了技术层面的进步,更像是开源模型与顶尖闭源模型并驾齐驱的象征。从其分享的基准测试可以看出,Llama 3 400B+ 的实力几乎媲美 Claude 超大杯、以及 新版 GPT-4 Turbo,虽然仍有一定的差距,但足以证明其在顶尖大模型中占有一席之地。今天恰逢斯坦福大学教授,AI 顶尖专家吴恩达的生日,Llama 3 的到来无疑是最特别的庆生方式。不得不说,如今的开源模型当真是百花齐放,百家争鸣。今年年初,手握 35 万块 GPU 的扎克伯格在接受 The Verge 的采访时描绘了 Meta 的愿景致力于打造 AGI(通用人工智能)。与不 open 的 OpenAI 形成鲜明对比,Meta 则沿着 open 的开源路线朝 AGI 的圣杯发起了冲锋。正如扎克伯格所说,坚定开源的 Meta 在这条充满挑战的征途中也并非毫无收获:我通常非常倾向于认为开源对社区和我们都有好处,因为我们会从创新中受益。在过去的一年中,整个 AI 圈都在围绕开源或闭源的路线争论不休, 甚至亲自下场的马斯克也通过开源 Grok 1.0 的方式给全世界打了个样。如今 这场辩论,已经超越了技术层面的优劣比较,触及了 AI 未来发展的核心方向。前不久,一些观点称开源模型将会越来越落后,如今 Llama 3 的到来,也给了这种悲观的论调一记响亮的耳光。然而,尽管 Llama 3 为开源模型扳回一局,但这场关于开源与闭源的辩论还远未结束。毕竟暗中蓄势待发的 GPT-4.5/5 也许会在今年夏天,以无可匹敌的性能为这场旷日持久的争论画上一个句号。 ... PC版: 手机版:

封面图片

周鸿祎:我不是针对李彦宏 开源一定会超过闭源

周鸿祎:我不是针对李彦宏 开源一定会超过闭源 据了解,第二十七届哈佛中国论坛上,周鸿祎发表演讲称:“我是一直相信开源的力量,至于说网上有些名人胡说八道,你们别被忽悠了。他说开源不如闭源好?连说这话的公司自己都是借助了开源的力量才成长到今天。”随后,4月16日举行的Create 2024百度AI开发者大会上,李彦宏在演讲中宣称,“开源模型会越来越落后”。周鸿祎还表示,开源一定会超过闭源,Llama已经给出了最好的答案。“昨天半夜,Meta开源了Llama3一个80亿版本,一个700亿版本,性能都很强,超过了谷歌闭源的Gemini。据说还有一个4000亿参数的版本在路上,性能应该会超越GPT-4。开源到底行不行,Llama已经给了最好的答案。”在周鸿祎看来,开源对整个互联网的发展、对大模型的发展都意义重大。如果没有开源,只靠一两家闭源公司,人工智能的发展不会有今天这么快。特别是对我们国家来说,我们在人工智能的核心算法、核心技术上比美国要落后一些时间,所以我们更要善于参与开源、利用开源,通过开源来学习,快速提高人工智能的核心能力。周鸿祎还强调,其实开源和闭源是两种不同的商业模式,没有必要相互贬低。安卓和iOS,Linux和Windows都是一个开源一个闭源,也都活得很好。 ... PC版: 手机版:

封面图片

马斯克、OpenAI决裂背后,大模型应该开源还是闭源?

马斯克、OpenAI决裂背后,大模型应该开源还是闭源? 此次纠纷的焦点之一是马斯克对OpenAI的开源要求。而这背后所折射出的也是AI浪潮下科学界的长期争论话题到底应该开源还是闭源?纽约大学坦登工程学院计算机科学与工程系副教授Julian Togelius在接受《每日经济新闻》记者采访时表示,开源是大势所趋。“开源对于防止权力集中很重要。到目前为止,每个大型模型都在某种程度上是‘可越狱的’。”马萨诸塞大学洛厄尔分校计算机科学教授Jie Wang则对每经记者表示,“未来各主要参与者都会将其大模型的某些部分开源,但绝对不是最重要的部分,例如用于训练其大语言模型和预训练模型权重的完整数据集。这或多或少类似于Meta开源LLaMA的方式。”AI巨头的决裂2月29日,马斯克在旧金山法院对OpenAI及公司CEO阿尔特曼和总裁布罗克曼提起诉讼,震惊全球科技圈。在马斯克的起诉书中,他斥责OpenAI违背“初心”,要求OpenAI恢复开源并给予赔偿。3月5日,OpenAI曝光了马斯克与他们的大量往来邮件,称马斯克提议 OpenAI 与特斯拉合并或由他完全控制,但双方未能就盈利性实体的条款达成一致。3月6日,马斯克在Twitter上回复,“如何OpenAI改名为ClosedAI,我就撤销诉讼。”图片来源:每经制图9年前,正是在AI上志同道合,马斯克和阿尔特曼等人携手创办了非营利性AI研究实验室“OpenAI”来对抗以Google为代表的科技巨头。而如今,马斯克与阿尔特曼及其所在的OpenAI彻底决裂,双方旧日坚持的“初心”成为矛盾焦点。在OpenAI的官网主页上写着,“我们的使命是确保通用人工智能(AGI)造福全人类。”最初,OpenAI的确作为一个非营利组织坚持着这样的路线。而自GPT-2后,OpenAI采取了闭源策略,公司出售大模型API访问权限,但不再发布有关其训练数据和模型架构的详细信息。2019年,阿尔特曼还组建了一个由OpenAI非营利组织管理的营利性实体,以便从微软等外部投资者那里筹集资金。对此,OpenAI在5日发文时曾解释,这是因为“开发 AGI 所需的资源远超过最初预期”。随着OpenAI核心技术不再开源,且与微软的关系越来越密切时,马斯克的不满可想而知。马斯克在起诉书中批评称:“OpenAI已经变成了全球最大技术公司微软事实上的闭源子公司。在其新董事会的领导下,OpenAI不仅在开发,而且实际上正在完善一种AGI,以最大化微软的利润,而不是造福人类。”背后是开源闭源路线之争在双方的争端中,一个值得关注的点是,马斯克要求OpenAI恢复开源。这折射出的也是AI浪潮下的一个争议性话题到底应该开源还是闭源?在开源闭源之争上,马斯克坚定地选择了前者。《每日经济新闻》记者注意到,马斯克旗下特斯拉的核心技术就已经在全球范围内开源。根据新加坡咨询公司GreyB的统计,截至2023年末,全球范围内特斯拉共拥有专利3304项(不包含审批中专利),其中有2397项仍然有效。据媒体统计,刨除重复的情况,特斯拉共有222项开放专利。从技术类别上看,特斯拉开放的专利属于比较核心的专利。图片来源:GreyB网站马斯克旗下另一家公司SpaceX也曾公开猛禽发动机图纸。在去年12月接受外媒采访时,马斯克曾透露,“SpaceX不使用(独占)专利,完全开放。”而将视角放大到整个科技界,开源还是闭源也是一直争论不休的话题。2023年10月31日,“开源派”曾签署了一份呼吁AI研发更加开放的联名信,截至发稿,1821名专家都签下了名字。图片来源:mozilla官网“开源对于防止权力集中很重要,我们不希望未来只有少数财力雄厚的科技公司才能控制前沿模型。” 纽约大学坦登工程学院计算机科学与工程系副教授Julian Togelius在接受《每日经济新闻》记者采访时表示。“到目前为止,每个大型模型都在某种程度上是‘可越狱的’。(开源让)我们了解其弱点,才能知道如何更好地部署模型。”(注:“越狱”指的是通过提示注入技术修改模型的行为。)马萨诸塞大学洛厄尔分校计算机科学教授Jie Wang也对每经记者称,“开源代码可以提高透明度并有助于推进技术,世界各地的相关方可以帮助识别开发团队未能发现的代码中的潜在陷阱,并提供更正。这有助于降低代码可能执行有害操作的风险。”不过,他也指出,开源并不是解决所有安全问题的灵丹妙药。而反对开源的一派认为,开源AI会被不良行为者操纵。去年10月20日,来自麻省理工学院和剑桥大学的科学家们发表了一篇论文,他们通过实验研究了持续模型权重的扩散是否会帮助恶意者利用更强大的未来模型来造成大规模伤害,结果发现,开源大模型的确可能存在风险。Jie Wang对记者表示,“不同的态度取决于不同的身份。学术研究人员希望AI技术是开源的,以便可以评估和修改代码。另一方面,企业家可能为了保护投资和业务,而不愿意开放源代码。”科技巨头与AI新贵在开源或闭源的问题上也采取了不同的路线。前者最近在互联网上免费提供了其生成式AI的代码,例如,目前开源大模型被Meta的Llama主导,许多开源模型都是基于Llama而开发;后者如OpenAI和Anthropic则出售专有AI模型的API访问权限,但不共享代码。OpenAI和Anthropic高管认为,政府应该监管最强大的AI模型,这样坏人就不能轻易利用它们。今年1月,Anthropic 公司研究人员还发表论文警告称,AI中毒可能导致开源大模型变成潜伏的间谍。图片来源:arxiv.org但在去年9月的美国参议院人工智能洞察论坛上,Meta首席执行官马克·扎克伯格等人却认为,开源模式对美国保持竞争力至关重要,科技行业可以解决对开源模式安全的担忧。若实现AGI,是否需要开源?“开源是大势所趋,我认为Meta正在引领这一趋势,其次是Mistral AI、HuggingFace等规模较小的公司。” Julian Togelius告诉《每日经济新闻》记者。尽管Mistral AI最初推出了开源模型,随着规模的扩大,其作风似乎越来越像OpenAI靠近,采取了闭源路线。对此,Togelius表示,“他们需要以某种方式赚钱,但目前还不清楚如何在这个领域最好地赚钱,但Mistral AI比 OpenAI 几乎不开源的情况要好得多。”而大型科技巨头Google近日的动作似乎也是对Togelius言论的验证。今年2月,Google罕见地改变了去年坚持的大模型闭源策略,推出了“开源”大模型Gemma。有报道认为,Gemma代表Google大模型策略的转变兼顾开源和闭源,开源主打性能最强大的小规模模型,希望战胜Meta和Mistral AI;闭源则主打规模大的效果最好的大模型,希望尽快追上OpenAI。去年5月,一份Google的内部文件曾在网上激起千层浪。文件认为,开源大模型迅猛发展,正在侵蚀OpenAI和Google的阵地。除非改变闭源的立场,否则开源替代品将最终使这两家公司黯然失色。“虽然我们的模型在质量方面仍略占优势,但(闭源和开源模型)的差距正在以惊人的速度缩小。”文件写道。“这(指的是Google的新举措)对研究和开发人员来说的确是个好消息。”Jie Wang对每经记者说道。“不过我怀疑Google是否会将一切开源。我认为未来各个主要参与者都会将其大模型的某些部分开源,以便研究人员和开发人员了解模型的架构和训练过程,但从业务角度来看绝对不是最重要的部分,例如用于训练其 LLM 和预训练模型权重的完整数据集。这或多或少类似于Meta开源LLaMA的方式。”而在对OpenAI的起诉书中,马斯克还提到了对AGI(通用人工智能)的担忧。当被问及若达到AGI,是否需要开源时,Julian Togelius表示,“我不认为AGI是一个定义特别明确或有用的概念。如果你 5 年前向某人展示 Claude 3 或... PC版: 手机版:

封面图片

4050亿参数 Meta或将7月23日发布迄今最强大Llama 3模型

4050亿参数 Meta或将7月23日发布迄今最强大Llama 3模型 Meta公司拒绝对上述消息置评。周五盘中,低开的Meta股价跌幅收窄,盘初曾跌3.6%,午盘跌不足2%,仍将在周四大幅回落超4%后连跌两日,或将刷新6月28日以来收盘低位。去年7月Meta发布的Llama 2有三个版本,最大版本70B的参数规模为700亿。今年4月,Meta发布Llama 3Meta,称它为“迄今为止能力最强的开源LLM”。当时推出的Llama 3有8B和70B两个版本。Meta CEO扎克伯格当时称,大版本的Llama 3将有超过4000亿参数。Meta并未透露会不会将4000亿参数规模的Llama 3开源,当时它还在接受训练。对比前代,Llama 3有了质的飞跃。Llama 2使用2万亿个 token进行训练,而训练Llama 3大版本的token超过15 万亿。Meta称,由于预训练和训练后的改进,其预训练和指令调优的模型是目前8B和70B两个参数规模的最佳模型。在训练后程序得到改进后,模型的错误拒绝率(FRR)大幅下降,一致性提高,模型响应的多样性增加。 在推理、代码生成和指令跟踪等功能方面,Llama 3相比Llama 2有极大改进,使Llama 3更易于操控。4月Meta展示,8B和70B版本的Llama 3指令调优模型在大规模多任务语言理解数据集(MMLU)、研究生水平专家推理(GPQA)、数学评测集(GSM8K)、编程多语言测试(HumanEval)等方面的测评得分都高于Mistral、谷歌的Gemma和Gemini和Anthropic的Claude 3。8B和70B版本的预训练Llama 3多种性能测评优于Mistral、Gemma、Gemini和Mixtral。当时社交媒体的网友评论称,根据基准测试,当前的Llama 3模型不完全是 GPT-4 级别的,但仍在训练中的较大尺寸的模型将达到 GPT-4 级别。英伟达高级科学家Jim Fan认为,Llama 3的推出已经脱离了技术层面的进步,更是开源模型与顶尖闭源模型可分庭抗礼的象征。从Jim Fan分享的基准测试可以看出,Llama 3 400B 的实力几乎媲美 Claude“超大杯”以及新版 GPT-4 Turbo,将成为“分水岭”,相信它将释放巨大的研究潜力,推动整个生态系统的发展,开源社区或将能用上GPT-4级别的模型。此后有消息称,研究人员尚未开始对Llama 3进行微调,还未决定Llama 3是否将是多模态模型;正式版的Llama 3将会在今年7月正式推出。不同于OpenAI等开发商,Meta致力于开源LLM,不过,这个赛道也越来越拥挤。谷歌、特斯拉CEO马斯克旗下的xAI和Mistral 等竞争对手也发布了免费的AI模型。Llama 3问世后,同在4月亮相的4800亿参数模型Arctic击败Llama 3、Mixtra,刷新了全球最大开源模型的纪录。Arctic基于全新的Dense-MoE架构设计,由一个10B的稠密Tranformer模型和128×3.66B的MoE MLP组成,并在3.5万亿个token上进行了训练。相比Llama 3 8B和Llama 2 70B,Arctic所用的训练计算资源不到它们的一半,评估指标却取得了相当的分数。 ... PC版: 手机版:

封面图片

Meta 开源最新的 Llama 3.1 大模型

Meta 开源最新的 Llama 3.1 大模型 其它科技公司都想把 AI 产品买给你们,但扎克伯格(Mark Zuckerberg)选择免费送给你们。Meta 周一宣布了其最新的 Llama 3.1 大模型,其最大规模版本的参数有 4050 亿个,较小规模的版本有 700 亿和 80 亿个参数。Meta 称,Llama 3.1 在基准测试中的表现超过了 OpenAI 的 GPT-4o 和 Anthropic 的 Claude 3.5 Sonnet。Meta 表示,Llama 3.1 使用了逾 16,000 个英伟达 H100 GPU 进行训练,它认为相比私有大模型,部署成本会更低。扎克伯格称他与世界各地的开发者、企业和政府官员交流时,他们都表达了不希望被私有封闭供应商锁定的愿望,希望自己能控制模型,而 Llama 3.1 将能满足他们的要求。 via Solidot

封面图片

ℹMeta 推出全新 Llama 3 模型,Meta.Ai 网页版、AI 聊天本地软体皆能免费玩到了#

ℹMeta 推出全新 Llama 3 模型,Meta.Ai 网页版、AI 聊天本地软体皆能免费玩到了# 稍早 Meta 正式推出新一代 LLM 大型语言模型 Llama 3,号称是目前最强大的开源模型,有 80 忆个参数(8B)和 700 忆...

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人