最强开源大模型亮相:开发2个月 花费约1000万美元

最强开源大模型亮相:开发2个月花费约1000万美元虽然DBRX在某些原始功能上还无法与OpenAI的GPT-4相比,但Databricks高管表示,DBRX无疑是一个功能远超GPT-3.5的替代产品,并且成本只是GPT-3.5的一小部分。Databricks的首席执行官阿里·戈德西(AliGhodsi)在新闻发布会上表示:“我们非常高兴能向全世界展示DBRX,并带动整个行业向更强大、更高效的开源人工智能方向前进。虽然GPT-4这类基础模型无疑是极其优秀的通用工具,但Databricks专注于为客户量身打造模型,这些模型能深入解析他们的专有数据。DBRX的发布正体现了我们实现该目标的决心。”创新的“专家混合”架构Databricks的研究团队揭示了DBRX模型的关键创新之处——“专家混合”架构。这一架构使DBRX与其他竞争模型显著不同,后者往往利用所有参数生成每个单词。相较而言,DBRX巧妙地整合了16个专家子模型,并在实时处理中为每个token准确挑选最相关的四个子模型。这种设计的巧妙之处在于,它使DBRX在任何时刻只需激活360亿个参数,因而实现了更高的性能输出。这不仅显著提高了模型的处理速度,还大幅降低了运行成本,使其更为高效和经济。这一创新策略是基于Mosaic团队在早期Mega-MoE项目上的进一步研究而开发的。Mosaic团队是去年被Databricks收购的一个研究部门。戈德西高度评价了Mosaic团队的贡献,他表示:“多年来,Mosaic团队在更高效训练基础人工智能模型方面取得了显著进步。正是他们的努力让我们能够迅速开发出如DBRX这般卓越的人工智能模型。实际上,开发DBRX只用了约两个月时间,成本大概在1000万美元左右。”推进Databricks的企业AI战略通过将DBRX开源,Databricks的目标不仅是在前沿人工智能研究领域确立其领导者地位,而且还希望促进其创新架构在整个行业中的更广泛采用。此外,DBRX也致力于支持Databricks的核心业务——为客户定制和托管基于其专有数据集的人工智能模型。在如今的市场环境中,很多Databricks的客户都依赖于OpenAI及其他供应商提供的GPT-3.5等模型来支撑其业务运作。然而,将敏感的企业数据托管给第三方,常常会激起关于安全性和合规性的一系列担忧。针对这一点,戈德西表示:“我们的客户相信,Databricks能够妥善处理跨国界数据监管的问题。他们已在Databricks平台上存储并管理了庞大数据量。现在,有了DBRX以及Mosaic的定制模型功能,客户们能够在保障数据安全的同时,充分利用先进人工智能技术带来的诸多益处。”在日益激烈的竞争中占据一席之地随着DBRX的推出,Databricks在核心数据和人工智能平台业务领域面临着激烈的竞争。竞争对手诸如数据仓库巨头Snowflake已通过推出自有的人工智能服务Cortex,复制了Databricks的部分功能。同时,亚马逊、微软和谷歌等领先的云计算服务供应商也正纷纷在其技术堆栈中集成生成式人工智能功能。Databricks借助其开创性的开源项目DBRX,自诩具备最前沿的人工智能研究能力,旨在确立自身作为该领域领导者的地位,并吸引顶尖的数据科学人才。这一策略也反映了人们对大型科技公司将人工智能模型商业化的越来越多的抵制,许多人批评这些商业模型像“黑盒子”,缺乏透明度和可解释性。DBRX面临的真正挑战在于市场的接受程度以及它为Databricks客户所创造的具体价值。在企业越来越多寻求利用人工智能推动业务增长和创新的同时,还要保持对自有数据的控制,Databricks赌注于其尖端研究与企业级平台的完美融合能够让它在竞争中脱颖而出。Databricks已经向大型科技公司及开源社区的竞争对手抛出了挑战,要求他们在创新上与其一较高下。人工智能领域的竞争日趋激烈,而Databricks已明确宣布其志在成为这场竞争的关键力量。...PC版:https://www.cnbeta.com.tw/articles/soft/1425321.htm手机版:https://m.cnbeta.com.tw/view/1425321.htm

相关推荐

封面图片

Databricks开源DBRX高性能大语言模型

开源DBRX高性能大语言模型DBRX是Databricks开发的开源通用语言模型,在多项标准基准测试上达到了当前开源语言模型的最高水平。DBRX在多项综合基准测试中表现最好,尤其在编程和数学推理方面优于其他开源模型。与开源模型相比,DBRX在MMLU数据集上的表现也是最好的。根据测试,DBRX甚至超过了专门用于编程的CodeLLAMA-70B,并且与商业模型GPT-3.5相当甚至略胜。DBRX也与Gemini1.0Pro和MistralMedium等商业模型有竞争力。DBRX使用混合专家(MoE)架构,使其在训练和推理上更加高效。与类似参数量的非MoE模型相比,DBRX的推理吞吐量提高2-3倍。DBRX的整体训练效率比之前提高了近4倍,这得益于更好的数据、MoE架构以及其他改进。DBRX已经在Databricks的GenAI产品中进行了集成,客户可以通过API使用该模型。DBRX的训练代码和模型也在HuggingFace平台上开源。DBRX证明了Databricks可以高效地训练世界级的基础语言模型,也为企业训练自己的基础模型提供了能力。DBRX只是Databricks协助客户训练定制语言模型的一个例子。

封面图片

Databricks 发布最大开源大语言模型 DBRX

Databricks发布最大开源大语言模型DBRX美国AI初创公司Databricks周三公布,该公司开发的通用大语言模型DBRX将开源。DBRX在语言理解、编程、数学和逻辑方面轻松击败了Meta的Llama2-70B、法国MixtralAI公司的Mixtral和马斯克旗下xAI开发的Grok-1这类当前流行的开源模型。DBRX在30多种不同的最先进模型(SOTA)基准指标测试中,均优于前述三种大模型。DBRX使用混合专家架构(MoE),拥有16个专家模型,共1320亿参数。该模型使用3072英伟达H100GPU在12万亿个token的数据集上进行训练,最大支持32k的上下文窗口。同时,Databrick也开源了该模型经过指令微调(instructfinetune)的版本。——,

封面图片

IBM宣布在watsonx上提供开源Mistral AI模型

IBM宣布在watsonx上提供开源MistralAI模型这有可能将延迟时间缩短35-75%,具体取决于批量大小--加快洞察时间。这是通过一个称为量化的过程实现的,该过程减少了LLM的模型大小和内存需求,反过来又能加快处理速度,有助于降低成本和能耗。Mixtral-8x7B的加入扩展了IBM的开放式多模型战略,以满足客户的需求,为他们提供选择和灵活性,从而在其业务中扩展企业人工智能解决方案。通过数十年的人工智能研发、与Meta和HuggingFace的开放合作以及与模型领导者的合作,IBM正在扩展其watsonx.ai模型目录,并引入新的功能、语言和模式。IBM的企业就绪基础模型选择及其watsonx人工智能和数据平台可以帮助客户利用生成式人工智能获得新的洞察力和效率,并基于信任原则创建新的业务模式。IBM可帮助客户为金融等目标业务领域的正确用例和性价比目标选择正确的模型。Mixtral-8x7B采用了稀疏建模(一种创新技术,只查找和使用数据中最重要的部分,以创建更高效的模型)和专家混合技术(Mixture-of-Experts)的组合,后者将擅长并解决不同部分问题的不同模型("专家")结合在一起。Mixtral-8x7B模型因其能够快速处理和分析海量数据,提供与背景相关的见解而广为人知。IBM软件公司产品管理与增长高级副总裁KareemYusuf博士说:"客户要求有选择性和灵活性,以便部署最适合其独特用例和业务要求的模型。通过在watsonx上提供Mixtral-8x7B和其他模型,我们不仅为他们提供了部署人工智能的可选性,还为人工智能构建者和业务领导者提供了一个强大的生态系统,使他们能够利用工具和技术推动不同行业和领域的创新。"本周,IBM还宣布在watsonx上提供由ELYZA公司开源的日本LLM模型ELYZA-japanese-Llama-2-7b。IBM还在watsonx上提供Meta的开源模型Llama-2-13B-chat和Llama-2-70B-chat以及其他第三方模型,未来几个月还将提供更多。...PC版:https://www.cnbeta.com.tw/articles/soft/1422447.htm手机版:https://m.cnbeta.com.tw/view/1422447.htm

封面图片

最强开源大模型!Llama 3下周“小试牛刀”?

最强开源大模型!Llama3下周“小试牛刀”?当地时间周一,科技媒体TheInformation援引一位Meta员工消息报道称,该公司计划在下周推出两个小型的Llama3大语言模型(LLM),作为夏季推出正式版Llama3的先行版本。这两个小模型的发布,预计将为Llama3的正式亮相进行铺垫。Meta在去年7月份发布了Llama2,此后,包括谷歌、马斯克旗下的xAI与Mistral等在内的数家公司发布了开源的大语言模型,竞争十分激烈。Llama3直接对标OpenAI的GPT-4,后者已经成为一个强大的多模态模型,不仅能够处理更长的文本,还支持图像输入。报道称,正式版Llama3也将支持多模态处理,即同时理解和生成文本及图片;而先行推出的两个小版本则不具备这一能力。标签:#Meta#Llama#AI频道:@GodlyNews1投稿:@GodlyNewsBot

封面图片

【阿里巴巴发布两款开源人工智能模型】

【阿里巴巴发布两款开源人工智能模型】2023年08月03日09点33分老不正经报道,科技巨头阿里巴巴集团于8月3日宣布,其云计算部门发布了两个开源人工智能(AI)模型。它的两个大型语言模型(LLM)被称为Qwen-7B和Qwen-7B-Chat,每个模型都有70亿个参数。新模型旨在帮助将人工智能引入中小型企业的运营中。该公司表示,Qwen-7B和Qwen-7B-Chat具有对企业有吸引力的各种功能,例如能够“全世界的学者、研究人员和商业机构可以免费访问代码、模型权重和文档”。8月1日,该公司还宣布对其AnalyticDB数据仓库服务进行矢量引擎更新,这将允许其企业客户快速创建定制的生成式AI应用程序。

封面图片

傅盛评阿里云 “最强开源模型”:长远看来,开源大模型能力会超越闭源

傅盛评阿里云“最强开源模型”:长远看来,开源大模型能力会超越闭源近日,阿里云发布开源模型Qwen2-72B。据介绍,该模型性能超过美国最强的开源模型Llama3-70B,也超过众多国内闭源大模型。对此,猎豹移动董事长兼CEO、猎户星空董事长傅盛发视频表示,正当国内某大厂CEO说闭源模型的能力将持续超越开源模型时,阿里巴巴刚发布的Qwen2-72B开源模型能力已经超越了国内绝大多数闭源模型。“我们之前一直认为开源大模型和闭源大模型会并驾齐驱,而且长远看来,我认为开源社区的大模型能力会超越闭源,这背后的原因就是开源并不是简单的做雷锋,而是结合自己的商业模式,结合能够形成社区的反馈能力的一套战略部署。”(新浪科技)

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人