最强开源大模型亮相:开发2个月 花费约1000万美元

最强开源大模型亮相:开发2个月 花费约1000万美元 虽然DBRX在某些原始功能上还无法与OpenAI的GPT-4相比,但Databricks高管表示,DBRX无疑是一个功能远超GPT-3.5的替代产品,并且成本只是GPT-3.5的一小部分。Databricks的首席执行官阿里·戈德西(Ali Ghodsi)在新闻发布会上表示:“我们非常高兴能向全世界展示DBRX,并带动整个行业向更强大、更高效的开源人工智能方向前进。虽然GPT-4这类基础模型无疑是极其优秀的通用工具,但Databricks专注于为客户量身打造模型,这些模型能深入解析他们的专有数据。DBRX的发布正体现了我们实现该目标的决心。”创新的“专家混合”架构Databricks的研究团队揭示了DBRX模型的关键创新之处“专家混合”架构。这一架构使DBRX与其他竞争模型显著不同,后者往往利用所有参数生成每个单词。相较而言,DBRX巧妙地整合了16个专家子模型,并在实时处理中为每个token准确挑选最相关的四个子模型。这种设计的巧妙之处在于,它使DBRX在任何时刻只需激活360亿个参数,因而实现了更高的性能输出。这不仅显著提高了模型的处理速度,还大幅降低了运行成本,使其更为高效和经济。这一创新策略是基于Mosaic团队在早期Mega-MoE项目上的进一步研究而开发的。Mosaic团队是去年被Databricks收购的一个研究部门。戈德西高度评价了Mosaic团队的贡献,他表示:“多年来,Mosaic团队在更高效训练基础人工智能模型方面取得了显著进步。正是他们的努力让我们能够迅速开发出如DBRX这般卓越的人工智能模型。实际上,开发DBRX只用了约两个月时间,成本大概在1000万美元左右。”推进Databricks的企业AI战略通过将DBRX开源,Databricks的目标不仅是在前沿人工智能研究领域确立其领导者地位,而且还希望促进其创新架构在整个行业中的更广泛采用。此外,DBRX也致力于支持Databricks的核心业务为客户定制和托管基于其专有数据集的人工智能模型。在如今的市场环境中,很多Databricks的客户都依赖于OpenAI及其他供应商提供的GPT-3.5等模型来支撑其业务运作。然而,将敏感的企业数据托管给第三方,常常会激起关于安全性和合规性的一系列担忧。针对这一点,戈德西表示:“我们的客户相信,Databricks能够妥善处理跨国界数据监管的问题。他们已在Databricks平台上存储并管理了庞大数据量。现在,有了DBRX以及Mosaic的定制模型功能,客户们能够在保障数据安全的同时,充分利用先进人工智能技术带来的诸多益处。”在日益激烈的竞争中占据一席之地随着DBRX的推出,Databricks在核心数据和人工智能平台业务领域面临着激烈的竞争。竞争对手诸如数据仓库巨头Snowflake已通过推出自有的人工智能服务Cortex,复制了Databricks的部分功能。同时,亚马逊、微软和谷歌等领先的云计算服务供应商也正纷纷在其技术堆栈中集成生成式人工智能功能。Databricks借助其开创性的开源项目DBRX,自诩具备最前沿的人工智能研究能力,旨在确立自身作为该领域领导者的地位,并吸引顶尖的数据科学人才。这一策略也反映了人们对大型科技公司将人工智能模型商业化的越来越多的抵制,许多人批评这些商业模型像“黑盒子”,缺乏透明度和可解释性。DBRX面临的真正挑战在于市场的接受程度以及它为Databricks客户所创造的具体价值。在企业越来越多寻求利用人工智能推动业务增长和创新的同时,还要保持对自有数据的控制,Databricks赌注于其尖端研究与企业级平台的完美融合能够让它在竞争中脱颖而出。Databricks已经向大型科技公司及开源社区的竞争对手抛出了挑战,要求他们在创新上与其一较高下。人工智能领域的竞争日趋激烈,而Databricks已明确宣布其志在成为这场竞争的关键力量。 ... PC版: 手机版:

相关推荐

封面图片

Meta 开源多感官人工智能模型

Meta 开源多感官人工智能模型 宣布了一个新的开源人工智能模型,该模型将多个数据流链接在一起,包括文本、音频、视觉数据、温度和运动读数。 该模型目前还只是一个研究项目,没有直接的消费者或实际应用,但它指向了生成式人工智能系统的未来,可以创造身临其境的多感官体验,并表明Meta在OpenAI和谷歌等竞争对手变得越来越隐秘的时候,仍在继续分享人工智能研究。 标签: #Meta #AI 频道: @GodlyNews1 投稿: @Godlynewsbot

封面图片

最强开源大模型深夜炸场:Llama 3 王者归来 表现直逼 GPT-4

最强开源大模型深夜炸场:Llama 3 王者归来 表现直逼 GPT-4 Llama 3 70B: 第一档 AI 模型,媲美 Gemini 1.5 Pro、全面超越 Claude 大杯以上还只是 Meta 的开胃小菜,真正的大餐还在后头。在未来几个月,Meta 将陆续推出一系列具备多模态、多语言对话、更长上下文窗口等能力的新模型。其中,超 400B 的重量级选手更是有望与 Claude 3 超大杯“掰手腕”。又一 GPT-4 级模型来了,Llama 3 开卷与前代 Llama 2 模型相比,Llama 3 可谓是迈上了一个新的台阶。得益于预训练和后训练的改进,本次发布的预训练和指令微调模型是当今 8B 和 70B 参数规模中的最强大的模型。同时后训练流程的优化显著降低了模型的出错率,增强了模型的一致性,并丰富了响应的多样性。扎克伯格曾在一次公开发言中透露,考虑到用户不会在 WhatsApp 中向 Meta AI 询问编码相关的问题,因此 Llama 2 在这一领域的优化并不突出。而这一次,Llama 3 在推理、代码生成和遵循指令等方面的能力取得了突破性的提升,使其更加灵活和易于使用。基准测试结果显示,Llama 3 8B 在 MMLU、GPQA、HumanEval 等测试的得分远超 Google Gemma 7B 以及 Mistral 7B Instruct。用扎克伯格的话来说,最小的 Llama 3 基本上与最大的 Llama 2 一样强大。Llama 3 70B 则跻身于顶尖 AI 模型的行列,整体表现全面碾压 Claude 3 大杯,与 Gemini 1.5 Pro 相比则是互有胜负。为了准确研究基准测试下的模型性能,Meta 还特意开发了一套新的高质量人类评估数据集。该评估集包含 1800 个提示,涵盖 12 个关键用例:寻求建议、头脑风暴、分类、封闭式问答、编码、创意写作、提取、塑造角色、开放式问答、推理、重写和总结。出于避免 Llama 3 在此评估集上出现过度拟合,Meta 甚至禁止他们的研究团队访问该数据集。在与 Claude Sonnet、Mistral Medium 和 GPT-3.5 的逐一较量中,Meta Llama 70B 都以“压倒性胜利”结束了比赛。据 Meta 官方介绍,Llama 3 在模型架构上选择了相对标准的纯解码器 Transformer 架构。与 Llama 2 相比,Llama 3 进行了几项关键的改进:使用具有 128K token 词汇表的 tokenizer,可以更有效地编码语言,从而显著提升模型性能在 8B 和 70B 模型中都采用分组查询注意力 (GQA),以提高 Llama 3 模型的推理效率在 8192 个 token 的序列上训练模型,使用掩码来确保自注意力不会跨越文档边界。训练数据的数量和质量是推动下一阶段大模型能力涌现的关键因素。从一开始,Meta Llama 3 就致力于成为最强大的模型。Meta 在预训练数据上投入了大量的资金。 据悉,Llama 3 使用从公开来源收集的超过 15T 的 token,是 Llama 2 使用数据集的七倍,其中包含的代码数据则是 Llama 2 的四倍。考虑到多语言的实际应用,超过 5% 的 Llama 3 预训练数据集由涵盖 30 多种语言的高质量非英语数据组成,不过,Meta 官方也坦言,与英语相比,这些语言的性能表现预计是稍逊一筹。为了确保 Llama 3 接受最高质量的数据训练,Meta 研究团队甚至提前使用启发式过滤器、NSFW 筛选器、语义重复数据删除方法和文本分类器来预测数据质量。值得注意的是,研究团队还发现前几代 Llama 模型在识别高质量数据方面出奇地好,于是让 Llama 2 为 Llama 3 提供支持的文本质量分类器生成训练数据,真正实现了“AI 训练 AI”。除了训练的质量,Llama 3 在训练效率方面也取得了质的飞跃。Meta 透露,为了训练最大的 Llama 3 模型,他们结合了数据并行化、模型并行化和管道并行化三种类型的并行化。在 16K GPU 上同时进行训练时,每个 GPU 可实现超过 400 TFLOPS 的计算利用率。研究团队在两个定制的 24K GPU 集群上执行了训练运行。为了最大限度地延长 GPU 的正常运行时间,研究团队开发了一种先进的新训练堆栈,可以自动执行错误检测、处理和维护。此外,Meta 还极大地改进了硬件可靠性和静默数据损坏检测机制,并且开发了新的可扩展存储系统,以减少检查点和回滚的开销。这些改进使得总体有效训练时间超过 95%,也让 Llama 3 的训练效率比前代足足提高了约 3 倍。开源 VS 闭源作为 Meta 的“亲儿子”,Llama 3 也顺理成章地被优先整合到 AI 聊天机器人 Meta AI 之中。追溯至去年的 Meta Connect 2023 大会,扎克伯格在会上正式宣布推出 Meta AI,随后便迅速将其推广至美国、澳大利亚、加拿大、新加坡、南非等地区。在此前的采访中,扎克伯格对搭载 Llama 3 的 Meta AI 更是充满信心,称其将会是人们可以免费使用的最智能的 AI 助手。我认为这将从一个类似聊天机器人的形式转变为你只需提出一个问题,它就能给出答案的形式,你可以给它更复杂的任务,它会去完成这些任务。当然,Meta AI 若是“ 尚未在您所在的国家/地区推出”,你可以采用开源模型最朴素的使用渠道全球最大的 AI 开源社区网站 Hugging Face。Perplexity、Poe 等平台也迅速宣布将 Llama 3 集成到平台服务上。你还可以通过调用开源模型平台 Replicate API 接口来体验 Llama 3,其使用的价格也已经曝光,不妨按需使用。有趣的是,在 Meta 官宣 Llama 3 前,有眼尖的网友发现微软的 Azure 市场偷跑 Llama 3 8B Instruct 版本,但随着消息的进一步扩散,当蜂拥而至的网友再次尝试访问该链接时,得到的只有“404”的页面。Llama 3 的到来,正在社交平台 X 上掀起一股新的讨论风暴。Meta AI 首席科学家、图灵奖得主 Yann LeCun 不仅为 Llama 3 的发布摇旗呐喊,并再次预告未来几个月将推出更多版本。就连马斯克也现身于该评论区,用一句简洁而含蓄的“Not bad 不错”,表达了对 Llama 3 的认可和期待。英伟达高级科学家 JIm Fan 则将注意力投向了即将推出的 Llama 3 400B+,在他看来,Llama 3 的推出已经脱离了技术层面的进步,更像是开源模型与顶尖闭源模型并驾齐驱的象征。从其分享的基准测试可以看出,Llama 3 400B+ 的实力几乎媲美 Claude 超大杯、以及 新版 GPT-4 Turbo,虽然仍有一定的差距,但足以证明其在顶尖大模型中占有一席之地。今天恰逢斯坦福大学教授,AI 顶尖专家吴恩达的生日,Llama 3 的到来无疑是最特别的庆生方式。不得不说,如今的开源模型当真是百花齐放,百家争鸣。今年年初,手握 35 万块 GPU 的扎克伯格在接受 The Verge 的采访时描绘了 Meta 的愿景致力于打造 AGI(通用人工智能)。与不 open 的 OpenAI 形成鲜明对比,Meta 则沿着 open 的开源路线朝 AGI 的圣杯发起了冲锋。正如扎克伯格所说,坚定开源的 Meta 在这条充满挑战的征途中也并非毫无收获:我通常非常倾向于认为开源对社区和我们都有好处,因为我们会从创新中受益。在过去的一年中,整个 AI 圈都在围绕开源或闭源的路线争论不休, 甚至亲自下场的马斯克也通过开源 Grok 1.0 的方式给全世界打了个样。如今 这场辩论,已经超越了技术层面的优劣比较,触及了 AI 未来发展的核心方向。前不久,一些观点称开源模型将会越来越落后,如今 Llama 3 的到来,也给了这种悲观的论调一记响亮的耳光。然而,尽管 Llama 3 为开源模型扳回一局,但这场关于开源与闭源的辩论还远未结束。毕竟暗中蓄势待发的 GPT-4.5/5 也许会在今年夏天,以无可匹敌的性能为这场旷日持久的争论画上一个句号。 ... PC版: 手机版:

封面图片

IBM宣布在watsonx上提供开源Mistral AI模型

IBM宣布在watsonx上提供开源Mistral AI模型 这有可能将延迟时间缩短 35-75%,具体取决于批量大小加快洞察时间。这是通过一个称为量化的过程实现的,该过程减少了 LLM 的模型大小和内存需求,反过来又能加快处理速度,有助于降低成本和能耗。Mixtral-8x7B 的加入扩展了 IBM 的开放式多模型战略,以满足客户的需求,为他们提供选择和灵活性,从而在其业务中扩展企业人工智能解决方案。通过数十年的人工智能研发、与 Meta 和 Hugging Face 的开放合作以及与模型领导者的合作,IBM 正在扩展其模型目录,并引入新的功能、语言和模式。IBM 的企业就绪基础模型选择及其 watsonx 人工智能和数据平台可以帮助客户利用生成式人工智能获得新的洞察力和效率,并基于信任原则创建新的业务模式。IBM 可帮助客户为金融等目标业务领域的正确用例和性价比目标选择正确的模型。Mixtral-8x7B 采用了稀疏建模(一种创新技术,只查找和使用数据中最重要的部分,以创建更高效的模型)和专家混合技术(Mixture-of-Experts)的组合,后者将擅长并解决不同部分问题的不同模型("专家")结合在一起。Mixtral-8x7B 模型因其能够快速处理和分析海量数据,提供与背景相关的见解而广为人知。IBM 软件公司产品管理与增长高级副总裁 Kareem Yusuf 博士说:"客户要求有选择性和灵活性,以便部署最适合其独特用例和业务要求的模型。通过在watsonx上提供Mixtral-8x7B和其他模型,我们不仅为他们提供了部署人工智能的可选性,还为人工智能构建者和业务领导者提供了一个强大的生态系统,使他们能够利用工具和技术推动不同行业和领域的创新。"本周,IBM还宣布在watsonx上提供由ELYZA公司开源的日本LLM模型ELYZA-japanese-Llama-2-7b。IBM还在watsonx上提供Meta的开源模型Llama-2-13B-chat和Llama-2-70B-chat以及其他第三方模型,未来几个月还将提供更多。 ... PC版: 手机版:

封面图片

开源DBRX高性能大语言模型

开源DBRX高性能大语言模型 DBRX是Databricks开发的开源通用语言模型,在多项标准基准测试上达到了当前开源语言模型的最高水平。DBRX在多项综合基准测试中表现最好,尤其在编程和数学推理方面优于其他开源模型。与开源模型相比,DBRX在MMLU数据集上的表现也是最好的。 根据测试,DBRX甚至超过了专门用于编程的CodeLLAMA-70B,并且与商业模型GPT-3.5相当甚至略胜。DBRX也与Gemini 1.0 Pro和Mistral Medium等商业模型有竞争力。 DBRX使用混合专家(MoE)架构,使其在训练和推理上更加高效。与类似参数量的非MoE模型相比,DBRX的推理吞吐量提高2-3倍。DBRX的整体训练效率比之前提高了近4倍,这得益于更好的数据、MoE架构以及其他改进。 DBRX已经在Databricks的GenAI产品中进行了集成,客户可以通过API使用该模型。DBRX的训练代码和模型也在Hugging Face平台上开源。DBRX证明了Databricks可以高效地训练世界级的基础语言模型,也为企业训练自己的基础模型提供了能力。DBRX只是Databricks协助客户训练定制语言模型的一个例子。

封面图片

昆仑万维开源了自己的Skywork大模型 | 本次开源的模型有Skywork-13B-Base模型、Skywork-13B-Ch

昆仑万维开源了自己的Skywork大模型 | 本次开源的模型有Skywork-13B-Base模型、Skywork-13B-Chat模型、Skywork-13B-Math模型和Skywork-13B-MM模型,以及每个模型的量化版模型,以支持用户在消费级显卡进行部署和推理。 Skywork开源项目的特点有: Skywork-13B-Base模型在高质量清洗过滤的3.2万亿个多语言(主要是中文和英文)和代码数据上进行预训练,它在多种评测和各种基准测试上都展现了同等规模模型的最佳效果。 Skywork-13B-Chat模型具备强大的对话能力,我们在文创领域进行了进一步的针对性增强。我们通过构建一万多条高质量指令数据集,在10个文创任务上进行了针对性微调,使我们的模型在文创任务中能够接近ChatGPT的效果。此外,我们开源了针对这10个文创任务上的大约500条样本组成的benchmark。 Skywork-13B-Math模型经过专门的数学能力强化训练。在13B参数规模下,我们的模型在GSM8K评测上得分第一,同时在MATH数据集以及CMATH上也表现优异,处于13B模型顶尖水平。 Skywork-13B-MM多模态模型支持用户输入图片信息进行问答,对话等任务。 Skywork/Skypile-150B数据集是根据我们经过精心过滤的数据处理流程从中文网页中筛选出的高质量数据。本次开源的数据集大小约为600GB,总的token数量约为150B,是目前开源最大中文数据集。 除此之外,我们还公开了训练Skywork-13B模型中使用的评估方法、数据配比研究和训练基础设施调优方案等信息。我们希望这些开源内容能够进一步启发社区对于大型模型预训练的认知,并推动人工智能通用智能(AGI)的实现。

封面图片

【阿里巴巴发布两款开源人工智能模型】

【阿里巴巴发布两款开源人工智能模型】 科技巨头阿里巴巴集团于8月3日宣布,其云计算部门发布了两个开源人工智能(AI)模型。它的两个大型语言模型(LLM)被称为Qwen-7B和Qwen-7B-Chat,每个模型都有70亿个参数。 新模型旨在帮助将人工智能引入中小型企业的运营中。该公司表示,Qwen-7B和Qwen-7B-Chat具有对企业有吸引力的各种功能,例如能够“全世界的学者、研究人员和商业机构可以免费访问代码、模型权重和文档”。 8月1日,该公司还宣布对其AnalyticDB数据仓库服务进行矢量引擎更新,这将允许其企业客户快速创建定制的生成式AI应用程序。 快讯/广告 联系 @xingkong888885

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人