谷歌Transformer模型论文合著作者离职创业 准备给AI产业探一条新路

谷歌Transformer模型论文合著作者离职创业准备给AI产业探一条新路(LlionJones在论文署名中排第5,来源:arvix)谷歌的论文也为五年后席卷全球的科技热潮奠定了基础,包括ChatGPT、文心一言、Bard、讯飞星火、StabilityAI、Midjourney、Dall-E等几乎所有市面上的知名产品背后都是Transformer架构。选在这个时候在AI领域自立门户,与挥金如土的各大巨头展开竞争,是因为Jones对AI领域产生了一些不同的想法。Jones与前谷歌AI日本地区的负责人、曾领导StabilityAI开发的DavidHa一拍即合,周四宣布在日本东京创办了一个名为SakanaAI的新公司,追求将“大自然系统的集体智慧”引入AI领域。Sakana在日语中是“鱼”的意思,代表着“一群鱼聚在一起,根据简单的规则行程连贯实体”的愿景。(两人官宣创业,来源:X)在Transformer架构的创新问世后,业界的发展重心一度聚焦在将各种“GPT”越做越大,而SakanaAI将聚焦在创造一个新的架构。他们认为,当前人工智能模型的局限性在于它们被设计为脆弱的、难以改变的结构,就像桥梁或建筑物那样。相比之下,在集体智慧的作用下,自然系统对周遭发生的变化非常敏感。自然系统会适应并成为周遭环境的一部分。SakanaAI希望使用这些进化计算的原理构建人工智能,来解决AI系统成本和安全性等问题。DavidHa对此概括称,相较于建造一个吸收所有数据的庞大模型,SakanaAI的做法可能是使用数量巨大的小模型,每一个模型所包含的数据集都不大但有独特的专长,然后让这些模型进行协作来解决问题。至于为什么要跑到东京去创业,两位创始人表示,除了在东京呆过很多年外,他们也认为训练在非西方社会和文化中也能表现良好的模型,能够成为下一次技术突破的催化剂。...PC版:https://www.cnbeta.com.tw/articles/soft/1377763.htm手机版:https://m.cnbeta.com.tw/view/1377763.htm

相关推荐

封面图片

Transformer 论文共同作者将离职 Google

Transformer论文共同作者将离职Google参与撰写了开创性人工智能论文《注意力就是你所需要的一切》(AttentionIsAllYouNeed)的利昂·琼斯(LlionJones)证实,他将于本月晚些时候离开Google,并计划在休假后创办一家公司。该论文于2017年发表,介绍了Transformer的概念,该系统可以帮助AI模型在它们正在分析的数据中锁定最重要的信息。Transformer现在是大型语言模型的关键构建模块。这几年间,该论文的作者们创办了一些知名初创公司,其中包括为企业客户提供大型语言模型的Cohere和聊天机器人公司Character.AI。来源:https://www.jiemian.com/article/9725020.html投稿:@ZaiHuaBot频道:@TestFlightCN

封面图片

AI21 Labs 推出 Jamba:首个基于 Mamba 架构的生产级大模型

AI21Labs推出Jamba:首个基于Mamba架构的生产级大模型以色列人工智能初创公司AI21Labs在近日宣布推出开源大语言模型Jamba,这是世界上首个基于Mamba架构的生产级人工智能模型。而目前大多数模型都基于Transformer架构。Jamba将Mamba的结构化状态空间模型(SSM)和传统Transformer架构的优势相结合,提供了令人印象深刻的性能和效率提升。Jamba拥有高达256k上下文窗口,同时在单个80GBGPU上可容纳最多140K个tokens。其混合结构使Jamba的MoE层允许它在推理时仅使用52B可用参数中的12B参数。——、

封面图片

Meta 发布 AI 音乐模型 MusicGen

Meta发布AI音乐模型MusicGen近日,Meta以开源方式发布了AI音乐生成模型MusicGen的代码,该AI模型利用Transformer架构,可以根据文本和旋律提示创作音乐。与Riffusion、Mousai、MusicLM和Noise2Music等其他音乐模型相比,MusicGen在音乐与文本之间的匹配度以及作曲的可信度等客观和主观指标上表现得更加优异。频道:@TestFlightCN

封面图片

Stability AI 发布了他们最强的图片生成模型 Stable Diffusion 3 的技术报告,披露了 SD3 的更多

StabilityAI发布了他们最强的图片生成模型StableDiffusion3的技术报告,披露了SD3的更多细节。据他们所说,SD3在排版质量、美学质量和提示词理解上超过了目前所有的开源模型和商业模型,是目前最强的图片生成模型。技术报告要点如下:◆根据人类偏好评估,SD3在排版质量和对提示的理解程度上,均优于目前最先进的文本生成图像系统,例如DALL·E3、Midjourneyv6和Ideogramv1。◆提出了新的多模态扩散Transformer(MultimodalDiffusionTransformer,简称MMDiT)架构,其使用独立的权重集分别表示图像和语言。与SD3的先前版本相比,该架构改善了系统对文本的理解能力和拼写能力。◆SD38B大小的模型可以在GTX409024G显存上运行。◆SD3将发布多个参数规模不等的模型方便在消费级硬件上运行,参数规模从800M到8B。◆SD3架构以DiffusionTransformer(简称"DiT",参见Peebles&Xie,2023)为基础。鉴于文本嵌入和图像嵌入在概念上存在较大差异,我们为这两种模态使用了独立的权重集。◆通过这种方法,信息得以在图像Token和文本Token之间流动,从而提高了模型生成结果的整体理解力和排版质量。我们在论文中还讨论了如何轻松地将这一架构扩展至视频等多模态场景。◆SD3采用了矫正流(RectifiedFlow,简称RF)的公式(Liuetal.,2022;Albergo&Vanden-Eijnden,2022;Lipmanetal.,2023),在训练过程中,数据和噪声被连接在一条线性轨迹上。这导致了更直的推理路径,从而可以使用更少的步骤进行采样。◆扩展矫正流Transformer模型:使用重新加权的RF公式和MMDiT主干网络,对文本到图像的合成任务开展了模型扩展研究。我们训练了一系列模型,其规模从15个。Transformer块(4.5亿参数)到38个块(80亿参数)不等。

封面图片

Apple发布大模型论文:多模式LLM预培训的方法、分析和见解

Apple发布大模型论文:多模式LLM预培训的方法、分析和见解2024年3月14日,苹果公司发布了自家的大型多模态基础模型MM1,该模型拥有高达300亿参数,并采用混合专家(MoE)架构。超过半数的论文作者是华人。MM1模型在多模态任务上显示出强大的性能,尤其是在少样本学习和上下文预测方面。研究团队通过对不同架构组件和数据选择的深入分析,提出了几条关键的设计准则。他们发现,图像分辨率、视觉编码器损失和容量,以及预训练数据的类型对模型性能有显著影响。MM1模型的开发,标志着苹果在生成式人工智能领域的重要进展。线索:@ZaiHuabot投稿:@TNSubmbot频道:@TestFlightCN

封面图片

AI iPhone 可行了?苹果发表论文,将大模型装进手机

AIiPhone可行了?苹果发表论文,将大模型装进手机苹果日前在arxiv发表论文,介绍了一种可以再超出可用DRAM容量的设备上运行LLM(大语言模型)的方法。论文称,LLM密集的计算量和内存要求对于DRAM容量来说是一大挑战,该论文构建了一个以闪存为基础的推理成本模型,将在两个关键领域进行优化:减少从闪存中传输的数据量、更多更流畅地读取数据块。这意味着,该项突破性研究扩大了LLM适用性和可及性,苹果将生成式AI集成到iOS18的计划或将加快推进。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人