最强开源大模型亮相:开发2个月 花费约1000万美元

最强开源大模型亮相:开发2个月 花费约1000万美元 虽然DBRX在某些原始功能上还无法与OpenAI的GPT-4相比,但Databricks高管表示,DBRX无疑是一个功能远超GPT-3.5的替代产品,并且成本只是GPT-3.5的一小部分。Databricks的首席执行官阿里·戈德西(Ali Ghodsi)在新闻发布会上表示:“我们非常高兴能向全世界展示DBRX,并带动整个行业向更强大、更高效的开源人工智能方向前进。虽然GPT-4这类基础模型无疑是极其优秀的通用工具,但Databricks专注于为客户量身打造模型,这些模型能深入解析他们的专有数据。DBRX的发布正体现了我们实现该目标的决心。”创新的“专家混合”架构Databricks的研究团队揭示了DBRX模型的关键创新之处“专家混合”架构。这一架构使DBRX与其他竞争模型显著不同,后者往往利用所有参数生成每个单词。相较而言,DBRX巧妙地整合了16个专家子模型,并在实时处理中为每个token准确挑选最相关的四个子模型。这种设计的巧妙之处在于,它使DBRX在任何时刻只需激活360亿个参数,因而实现了更高的性能输出。这不仅显著提高了模型的处理速度,还大幅降低了运行成本,使其更为高效和经济。这一创新策略是基于Mosaic团队在早期Mega-MoE项目上的进一步研究而开发的。Mosaic团队是去年被Databricks收购的一个研究部门。戈德西高度评价了Mosaic团队的贡献,他表示:“多年来,Mosaic团队在更高效训练基础人工智能模型方面取得了显著进步。正是他们的努力让我们能够迅速开发出如DBRX这般卓越的人工智能模型。实际上,开发DBRX只用了约两个月时间,成本大概在1000万美元左右。”推进Databricks的企业AI战略通过将DBRX开源,Databricks的目标不仅是在前沿人工智能研究领域确立其领导者地位,而且还希望促进其创新架构在整个行业中的更广泛采用。此外,DBRX也致力于支持Databricks的核心业务为客户定制和托管基于其专有数据集的人工智能模型。在如今的市场环境中,很多Databricks的客户都依赖于OpenAI及其他供应商提供的GPT-3.5等模型来支撑其业务运作。然而,将敏感的企业数据托管给第三方,常常会激起关于安全性和合规性的一系列担忧。针对这一点,戈德西表示:“我们的客户相信,Databricks能够妥善处理跨国界数据监管的问题。他们已在Databricks平台上存储并管理了庞大数据量。现在,有了DBRX以及Mosaic的定制模型功能,客户们能够在保障数据安全的同时,充分利用先进人工智能技术带来的诸多益处。”在日益激烈的竞争中占据一席之地随着DBRX的推出,Databricks在核心数据和人工智能平台业务领域面临着激烈的竞争。竞争对手诸如数据仓库巨头Snowflake已通过推出自有的人工智能服务Cortex,复制了Databricks的部分功能。同时,亚马逊、微软和谷歌等领先的云计算服务供应商也正纷纷在其技术堆栈中集成生成式人工智能功能。Databricks借助其开创性的开源项目DBRX,自诩具备最前沿的人工智能研究能力,旨在确立自身作为该领域领导者的地位,并吸引顶尖的数据科学人才。这一策略也反映了人们对大型科技公司将人工智能模型商业化的越来越多的抵制,许多人批评这些商业模型像“黑盒子”,缺乏透明度和可解释性。DBRX面临的真正挑战在于市场的接受程度以及它为Databricks客户所创造的具体价值。在企业越来越多寻求利用人工智能推动业务增长和创新的同时,还要保持对自有数据的控制,Databricks赌注于其尖端研究与企业级平台的完美融合能够让它在竞争中脱颖而出。Databricks已经向大型科技公司及开源社区的竞争对手抛出了挑战,要求他们在创新上与其一较高下。人工智能领域的竞争日趋激烈,而Databricks已明确宣布其志在成为这场竞争的关键力量。 ... PC版: 手机版:

相关推荐

封面图片

Meta 开源多感官人工智能模型

Meta 开源多感官人工智能模型 宣布了一个新的开源人工智能模型,该模型将多个数据流链接在一起,包括文本、音频、视觉数据、温度和运动读数。 该模型目前还只是一个研究项目,没有直接的消费者或实际应用,但它指向了生成式人工智能系统的未来,可以创造身临其境的多感官体验,并表明Meta在OpenAI和谷歌等竞争对手变得越来越隐秘的时候,仍在继续分享人工智能研究。 标签: #Meta #AI 频道: @GodlyNews1 投稿: @Godlynewsbot

封面图片

IBM宣布在watsonx上提供开源Mistral AI模型

IBM宣布在watsonx上提供开源Mistral AI模型 这有可能将延迟时间缩短 35-75%,具体取决于批量大小加快洞察时间。这是通过一个称为量化的过程实现的,该过程减少了 LLM 的模型大小和内存需求,反过来又能加快处理速度,有助于降低成本和能耗。Mixtral-8x7B 的加入扩展了 IBM 的开放式多模型战略,以满足客户的需求,为他们提供选择和灵活性,从而在其业务中扩展企业人工智能解决方案。通过数十年的人工智能研发、与 Meta 和 Hugging Face 的开放合作以及与模型领导者的合作,IBM 正在扩展其模型目录,并引入新的功能、语言和模式。IBM 的企业就绪基础模型选择及其 watsonx 人工智能和数据平台可以帮助客户利用生成式人工智能获得新的洞察力和效率,并基于信任原则创建新的业务模式。IBM 可帮助客户为金融等目标业务领域的正确用例和性价比目标选择正确的模型。Mixtral-8x7B 采用了稀疏建模(一种创新技术,只查找和使用数据中最重要的部分,以创建更高效的模型)和专家混合技术(Mixture-of-Experts)的组合,后者将擅长并解决不同部分问题的不同模型("专家")结合在一起。Mixtral-8x7B 模型因其能够快速处理和分析海量数据,提供与背景相关的见解而广为人知。IBM 软件公司产品管理与增长高级副总裁 Kareem Yusuf 博士说:"客户要求有选择性和灵活性,以便部署最适合其独特用例和业务要求的模型。通过在watsonx上提供Mixtral-8x7B和其他模型,我们不仅为他们提供了部署人工智能的可选性,还为人工智能构建者和业务领导者提供了一个强大的生态系统,使他们能够利用工具和技术推动不同行业和领域的创新。"本周,IBM还宣布在watsonx上提供由ELYZA公司开源的日本LLM模型ELYZA-japanese-Llama-2-7b。IBM还在watsonx上提供Meta的开源模型Llama-2-13B-chat和Llama-2-70B-chat以及其他第三方模型,未来几个月还将提供更多。 ... PC版: 手机版:

封面图片

昆仑万维开源了自己的Skywork大模型 | 本次开源的模型有Skywork-13B-Base模型、Skywork-13B-Ch

昆仑万维开源了自己的Skywork大模型 | 本次开源的模型有Skywork-13B-Base模型、Skywork-13B-Chat模型、Skywork-13B-Math模型和Skywork-13B-MM模型,以及每个模型的量化版模型,以支持用户在消费级显卡进行部署和推理。 Skywork开源项目的特点有: Skywork-13B-Base模型在高质量清洗过滤的3.2万亿个多语言(主要是中文和英文)和代码数据上进行预训练,它在多种评测和各种基准测试上都展现了同等规模模型的最佳效果。 Skywork-13B-Chat模型具备强大的对话能力,我们在文创领域进行了进一步的针对性增强。我们通过构建一万多条高质量指令数据集,在10个文创任务上进行了针对性微调,使我们的模型在文创任务中能够接近ChatGPT的效果。此外,我们开源了针对这10个文创任务上的大约500条样本组成的benchmark。 Skywork-13B-Math模型经过专门的数学能力强化训练。在13B参数规模下,我们的模型在GSM8K评测上得分第一,同时在MATH数据集以及CMATH上也表现优异,处于13B模型顶尖水平。 Skywork-13B-MM多模态模型支持用户输入图片信息进行问答,对话等任务。 Skywork/Skypile-150B数据集是根据我们经过精心过滤的数据处理流程从中文网页中筛选出的高质量数据。本次开源的数据集大小约为600GB,总的token数量约为150B,是目前开源最大中文数据集。 除此之外,我们还公开了训练Skywork-13B模型中使用的评估方法、数据配比研究和训练基础设施调优方案等信息。我们希望这些开源内容能够进一步启发社区对于大型模型预训练的认知,并推动人工智能通用智能(AGI)的实现。

封面图片

开源DBRX高性能大语言模型

开源DBRX高性能大语言模型 DBRX是Databricks开发的开源通用语言模型,在多项标准基准测试上达到了当前开源语言模型的最高水平。DBRX在多项综合基准测试中表现最好,尤其在编程和数学推理方面优于其他开源模型。与开源模型相比,DBRX在MMLU数据集上的表现也是最好的。 根据测试,DBRX甚至超过了专门用于编程的CodeLLAMA-70B,并且与商业模型GPT-3.5相当甚至略胜。DBRX也与Gemini 1.0 Pro和Mistral Medium等商业模型有竞争力。 DBRX使用混合专家(MoE)架构,使其在训练和推理上更加高效。与类似参数量的非MoE模型相比,DBRX的推理吞吐量提高2-3倍。DBRX的整体训练效率比之前提高了近4倍,这得益于更好的数据、MoE架构以及其他改进。 DBRX已经在Databricks的GenAI产品中进行了集成,客户可以通过API使用该模型。DBRX的训练代码和模型也在Hugging Face平台上开源。DBRX证明了Databricks可以高效地训练世界级的基础语言模型,也为企业训练自己的基础模型提供了能力。DBRX只是Databricks协助客户训练定制语言模型的一个例子。

封面图片

报道微软正在自行开发比OpenAI更小更便宜的人工智能模型

报道微软正在自行开发比OpenAI更小更便宜的人工智能模型 这些 SLM 旨在提供与 OpenAI 的 GPT 等大型语言模型(LLM)类似的对话和生成能力,但对硬件的需求大大降低。与外部开发的替代产品相比,这将使微软的人工智能产品和服务具有更低的相关成本和碳足迹。GenAI 团队预计将并入微软的 Azure 云计算部门,将专注于创建更小的语言模型。为了支持 GenAI 团队,微软还从其研究小组调来了几位顶尖开发人员。微软公司副总裁米沙-比连科(Misha Bilenko)将领导该团队的工作。GenAI 团队的目标是创造出与 OpenAI 等公司提供的模型功能相匹配甚至更强的人工智能,同时针对较小的规模进行优化。迄今为止,微软已将 OpenAI 的多项人工智能功能纳入其产品中。例如,必应在Copilot中使用了GPT-4,必应图像创建器在图像生成中使用了Dall-E。最近几周,该公司还推出了Copilot Pro一项针对个人消费者的订阅服务,为他们提供更先进的人工智能功能。该报告是在 OpenAI 最近推出 GPT 商店之后发布的,用户可以在该商店创建、分享和销售基于 OpenAI 语言模型的定制人工智能模型。同样,微软也宣布了自己的计划,即为Copilot提供针对特定需求和主题定制的人工智能聊天机器人。然而,依赖外部开发的人工智能会产生一些费用,而且缺乏对技术本身的控制。微软致力于开发更小巧、更经济实惠的人工智能技术,这有可能为公司提供自己的解决方案开辟新的途径,减少对第三方供应商的依赖。据说美国司法部(DOJ)和联邦贸易委员会(FTC)希望调查 OpenAI 与微软的关系,以防您错过。上周,我们曾报道,这两个机构都急于调查这笔交易,特别是微软的参与及其对人工智能行业竞争的影响。 ... PC版: 手机版:

封面图片

Meta确认其Llama 3开源大语言模型将于下个月推出

Meta确认其Llama 3开源大语言模型将于下个月推出 Meta 公司全球事务总裁尼克-克莱格(Nick Clegg)说:"我们希望在下个月内,甚至更短的时间内,开始推出我们新的下一代基础模型套件 Llama 3。"他的描述听起来像是要发布该产品的几个不同迭代或版本。"今年内,我们将发布一系列具有不同功能、不同通用性的模型,很快就会开始发布。"Meta 首席产品官 Chris Cox 补充说,计划用 Llama 3 支持 Meta 的多个产品。一年多前,OpenAI 推出了 ChatGPT,并将人工智能生成式问答变成了日常的主流体验,这让 Meta 和Google等其他大型科技公司措手不及。Meta 公司在人工智能方面基本上采取了非常谨慎的态度,但这并没有得到公众的认可,以前版本的 Llama 被批评为能力过于有限。(Llama 2于 2023 年 7 月公开发布)。第一版 Llama 并未对外发布,但仍在网上泄露)。与前几代产品相比,Llama 3 的功能更强大,不仅能更准确地回答问题,还能回答更广泛的问题,其中可能包括更具争议性的话题。该公司希望这将使产品受到用户的欢迎。"随着时间的推移,我们的目标是让由 Llama 驱动的 Meta AI 成为世界上最有用的助手,"人工智能研究副总裁 Joelle Pineau 说。"要达到这个目标,还有相当多的工作要做。"该公司没有谈及《Llama 3》中使用的参数的大小,也没有提供它将如何工作的任何演示。预计它将拥有约 1400 亿个参数,而最大的 Llama 2 型号只有 700 亿个参数。最值得注意的是,Meta 的 Llama 系列是作为开源产品构建的,代表了一种不同的哲学方法,即人工智能作为一种更广泛的技术应如何发展。与专有模式相比,Meta 希望通过这种方式获得更多开发者的青睐。但 Meta 似乎也在谨慎行事,尤其是在文本生成之外的其他生成式人工智能方面。皮诺说,公司尚未发布图像生成工具 Emu。考克斯说:"延迟、安全性和易用性都非常重要,只有这样才能生成令你自豪的图像,并代表你的创意背景。"具有讽刺意味的是,或者可以说是意料之中的,即使在 Meta 公司努力推出 Llama 3 的同时,公司内部也有一些对生成式人工智能持怀疑态度的重要人士。兼任 Meta 首席人工智能科学家的著名人工智能学者 Yann LeCun 对生成式人工智能的整体局限性进行了抨击,并表示他将赌注押在生成式人工智能之后。他预测这将是联合嵌入式预测架构(JEPA),这是一种训练模型和产生结果的不同方法,Meta 公司一直在使用这种方法在图像生成领域构建更准确的预测性人工智能。"人工智能的未来是 JEPA。它不是生成式人工智能,"他说。"我们得给克里斯的产品部门改个名字"。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人