【Stable Diffusion团队开撕】事实上,Stable Diffusion是基于发表在CVPR 2022上的一篇论文实

【Stable Diffusion团队开撕】事实上,Stable Diffusion是基于发表在CVPR 2022上的一篇论文实现的。论文作者分别来自慕尼黑大学、海德堡大学和另一家AI创业公司Runway,而Stability AI其实是他们的“金主”:为该项目捐赠了计算资源。 #抽屉IT

相关推荐

封面图片

Stable Diffusion核心研发已集体辞职 老板也跑了

Stable Diffusion核心研发已集体辞职 老板也跑了 据悉,首席运营官Shan Shan Wong和首席技术官Christian Laforte将担任临时CEO。更早之前,Stable的核心研发团队,集体辞职了。ps.现在的CTO也刚上来不久,前CTO Tom Mason的领英都还没来得及更新呢这家最当红的AI独角兽,究竟发生了什么?CEO要去搞AI开放了公告除了宣布CEO辞任的事情,还表示将要招聘一位可长期任职的CEO,以带领公司进入下一个增长阶段。原CEO的下一站没有明确,他表示要去投身AI开放和去中心化工作中去了。在公告中他说,很骄傲从引入第一位开发者至今,Stability已经获得了数亿次下载量,并创造了跨模态的最佳模型。我坚信Stability AI的使命,并认为公司要掌握在有能力者的手中。Stability AI董事会主席也肯定了Emad的工作:非常感谢Emad对Stability AI和开源工作的领导和承诺。不过,“和平分手”背后,Stability AI高层的动荡远不止此。据统计从去年3月至今,已有至少19名高管或关键人物出走。CTO也也刚刚换新,据称随着新CTO的上任,公司战略可能向语言模型偏转。有消息显示Emad的辞职与核心团队辞职、和投资人产生矛盾有关。彭博社消息称,由于投资者就公司财务状况向管理层施压,Stability AI考虑出售公司。去年秋天公司曾与多家公司就收购进行早期谈判。而且去年公司高层也非常动荡。值得一提的是,Emad在任职期间,被曝出过不少黑料,包括:学历/工作经验造假、拖欠员工工资、诓骗投资人、挪用公款等。且爆料人正是前员工们,如果包含投资人在内,一共30多人进行了指控。Stability AI的联创Cyrus Hodes甚至还就“欺诈和挪用公款”一事专门起诉过Emad。但我们无法得知,Emad的辞职和这些是否有关。不过可以确定的是,在这段“和平分手”背后,Stability AI的动荡已经昭然若揭。就在两天前,前CEO Emad Mostaque亲自在内部全体会议上宣布:Stable Diffusion核心研究团队集体辞职。包括研究团队领导、论文一作Robin Rombach,共同一作Andreas Blattmann,以及另一位作者Dominik Lorenz。Stability AI怎么了?Stability AI的成功很大程度上可以直接归因于Stable Diffusion。正如前文所述,Stable Diffusion最初是一个学术研究项目。由Björn Ommer教授领衔,Robin Rombach、Andreas Blattmann、Dominik Lorenz这三位慕尼黑大学机器视觉与学习研究小组成员,以及Runway的研究人员完成。研究论文发表七个月后,Stability AI开始介入,提供计算资源,以进一步开发文本到图像生成模型。Stable Diffusion刚正式发布一个月就火爆圈内外,促使Stability AI在2022年A轮融资中,筹集到1.01亿美元,估值迅速攀升到10亿美元。值得一提的是,Stable Diffusion的爆火不仅仅是因为效果,更是因为其免费开源。不过,也正是由于Stable Diffusion足够开放,所以Stability AI的商业模式并不明了。换句话说,就是不能稳定地挣钱。而根据彭博社此前的爆料,该公司每个月至少要花费800万美元(人民币约5700万元)来支持业务运营。《福布斯》则直接指出:内部文件显示,StabilityAI的支出大大超过了收入。去年年底,Stability AI还一度传出因财务状况压力而寻求出售的消息。据《商业内幕》爆料,CEO Emad Mostaque还曾经警告Stability AI员工行业竞争激烈:你们都会在2023年死去。几天前的核心团队突然辞职,《福布斯》也爆料了原因:Stability Al正因入不敷出且融不到新资金而陷入困境。网友也因此担心,尚未全面开放的Stable Diffusion 3,还能开源吗?值得一提的是,目前不只Stability AI一家AI初创公司面临商业化的困境。估值40亿美元的Inflection AI也面临着分崩离析的状况。其CEO(DeepMind联创穆斯塔法-苏莱曼)和首席科学家均已前往微软赴任,在微软领导新成立的AI部门,并且带走了Inflection AI大批员工。要知道,微软可是Inflection AI的投资方,只要人不要公司,很大一部分原因应该来自Inflection AI目前遭遇的窘境。成立至今,Inflection AI旗下大模型已迭代到2.5代,推出了主打私人陪伴的AI产品PI。但是过去三个月,Pi网站每月平均访问量只有不到400万左右。这意味着Pi在全球AI产品流量排名至少在50位开外了。而且在商业化方面,Inflection AI也没有明显进展。如今图像生成的头部玩家Stability AI也面临窘境……大模型浪潮下,商业化该如何推进?正在考验着所有初创公司。大逃杀已经开始了。 ... PC版: 手机版:

封面图片

RT 归藏Stable Diffusion最新的模型 Stable Diffusion XL正式开放使用了。我也对其做了详细的测

RT 归藏 Stable Diffusion最新的模型 Stable Diffusion XL正式开放使用了。我也对其做了详细的测试。 这次没有在Stability AI自己的平台上而是在他们收购的clipdrop平台上,可能也觉得自己没有做产品的基因把,之前的体验真是一言难尽。这个模型的参数是SD2.1的2.5倍,完整模型是几乎不能在消费级设备上跑的。…

封面图片

Stable Diffusion 是人工智能公司 Stability AI 背后的文本到图像模型,于 2022 年 8 月发布。

Stable Diffusion 是人工智能公司 Stability AI 背后的文本到图像模型,于 2022 年 8 月发布。Stability AI 首席执行官 Emad Mostaque 表示,Stable Diffusion 在所有渠道拥有超过 1000 万用户。如果我们推断一下《Midjourney》的数据和趋势,就会发现,通过官方的 Stable Diffusion 渠道,用户每天会生成 200 万张图片,而在发布一年多的时间里,这个数字已经达到了 6.9 亿张图像。 如果加上其他流行模型(例如 Runway,我们单独统计)和 Stability AI 的官方渠道,使用 Stable Diffusion 创建的图像数量将增加到 125.9 亿张,占所有使用文本转文字创建的 AI 图像的 80%。 Adobe Firefly Adobe Adobe 推出了 Firefly,于 2023 年 3 月发布。上线 6 周内,用户创建了超过 1 亿资产。随着 Firefly 于 2023 年 5 月集成到 Adobe Photoshop,考虑到全球使用 Photoshop 的人数,图像数量呈指数级增长。 Adobe 在最新的新闻稿中分享了其 AI 图像统计数据:推出仅 3 个月,使用 Adobe Firefly 创建的图像数量就已达到 10 亿张。 使用 Stable Diffusion、Adobe Firefly、Midjourney 和 DALLE-2 总共生成了超过 150 亿张人工智能创建的图像。这比 Shutterstock 的整个照片、矢量图和插图库还要多,而且是 Instagram 上传的图片数量的三分之一。

封面图片

【AI换图】 Stable Diffusion 背后团队之一的 Runway 公司发布了一个由该模型驱动的图像擦除和替换工具,该

【AI换图】 Stable Diffusion 背后团队之一的 Runway 公司发布了一个由该模型驱动的图像擦除和替换工具,该工具可以修改图像任何部分。用户需要做的就是擦除该区域并编写自然语言描述,剩下的交给程序就可以了。 #抽屉IT

封面图片

Stability AI推出Stable Diffusion 3 提示文本理解更好、图像质量更强

Stability AI推出Stable Diffusion 3 提示文本理解更好、图像质量更强 Stable Diffusion 3的参数在8亿80亿之间,也就是说Stable Diffusion 3可能是专为移动设备开发的,AI算力消耗将更低,推理速度却更快。目前,Stable Diffusion 3支持申请使用,未来会扩大测试范围。申请地址: Diffusion 3的技术内容,但指出其核心架构使用了Transformer和Flow FMatching(简称“FM”)。Transformer大家都很熟悉了,ChatGPT、T5 、BERT等很多著名模型都是基于该架构开发的。而FM是Meta AI和魏茨曼科学研究所在2022年10月发布的,一种全新高效建模、训练技术概念。Flow Matching论文地址: Matching简单介绍目前,很多文生图模型使用的是CNF(连续正规化流动)训练方法,主要使用常微分方程对流动进行建模,实现从一种已知分布到目标分布的平滑映射。但由于训练过程需要进行大量的微分方程模拟,会导致算力成本高、模型设计复杂、可解释性差等缺点。FM则是放弃微分方程的直接模拟,而是通过回归固定条件概率轨迹来实现无模拟训练。研究人员设计了条件概率分布与向量场的概念,利用边缘分布的结合可以建立总体目标概率轨迹与向量场,从而消除了模拟过程对梯度计算的影响。1)条件概率路径构建:FM需要给出一个目标概率路径,该路径从简单分布演变到逼近数据分布。然后利用条件概率路径构建了目标路径,这样每个样本有一个对应的条件路径。2)变换层:构成FM的基本单元,每个变换层都是可逆的。这意味着从输入到输出的每一步映射都可以精确地反转,从而允许从目标分布反推到原始分布。3)耦合层:将输入分成两部分,对其中一部分应用变换,而变换函数可以是任意的神经网络,其参数由另一部分决定,保证了变换的可逆性。目前,FM技术已在图像生成与超分辨率、图像理解、图像修复与填充、条件图像生成、图像风格迁移与合成、视频处理等领域得到广泛应用。Stable Diffusion 3案例展示本次的发布页面也是由Stable Diffusion 3生成的,提示词:史诗般的动漫艺术风格,一位巫师站在夜间的山顶上,向黑暗的天空施放咒语,上面写着由彩色能量生成的“Stable Diffusion 3”文字教室桌子上有一个红苹果,电影风格,背景的黑板上用粉笔写着“要么做大,要么回家”一名宇航员骑着一只穿着蓬蓬裙的猪,撑着一把粉色的伞,猪旁边的地上有一只戴着高帽的知更鸟,角落里写着"Stable Diffusion"的字样。一只变色龙,黑色背景,摄影风格。一辆跑车的夜间照片,侧面写有“SD3”字样,汽车在赛道上高速行驶,巨大的路标上写着“更快”的文字。波浪冲击苏格兰灯塔的鱼眼镜头照片,黑色波浪。 ... PC版: 手机版:

封面图片

这五天,我作为论文作者参加了世界上最大的AI顶级学术会议,采访了20+优质论文作者,参加了大厂、顶级创业公司、VC的内部聚会,平

这五天,我作为论文作者参加了世界上最大的AI顶级学术会议,采访了20+优质论文作者,参加了大厂、顶级创业公司、VC的内部聚会,平均每天睡眠5hr + 800ml 冰美式。takeaways: LLM验证了大模型范式,而这个新范式的潜力远不限于文字生成。在计算机视觉,大模型范式带来的变量正在被释放:大语言模型可以提升物体定位算法的效果、微调后的Stable Diffusion能够找到人体关节的坐标、新模型生成可交互的2.5D场景...我正在整理一份视觉领域的最新变量,如果你感兴趣,欢迎关注点赞转发,我会发给你。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人