RMBG v1.4一个新的背景分割开源模型,效果非常好,感觉跟现在顶尖的产品 remove bg 的效果不相上下了。

RMBG v1.4一个新的背景分割开源模型,效果非常好,感觉跟现在顶尖的产品 remove bg 的效果不相上下了。 该模型在精心挑选的数据集上进行了训练,其中包括:普通图片库、电子商务、游戏和广告内容,使其适用于商业用例,为大规模的企业内容创建提供动力。 模型使用超过 12,000 张高质量、高分辨率、手动标记(像素精度)、完全许可的图像进行训练。 其准确性、效率和多功能性目前可与领先的开源模型相媲美。 模型下载:

相关推荐

封面图片

RMBG v1.4 上线 一键去除背景 效果很不错 跟remove.bg不相上下 可惜不能商用HF Demo:

封面图片

实现同样水平的 Code 效果,开源模型需要生成100次,ChatGPT只需要生成1次。

实现同样水平的 Code 效果,开源模型需要生成100次,ChatGPT只需要生成1次。 Aman Sanger: There are times and places for training your own models... With the release OpenAI's chatGPT API - coding is looking less like one of them. The human-eval pass@1 rate of ChatGPT is as good as the best Open Source model's pass@100 rate. And this is still just GPT 3.5...

封面图片

阿里巴巴开源能理解图像的 AI 模型 Qwen-VL

阿里巴巴开源能理解图像的 AI 模型 Qwen-VL 阿里巴巴周五开源了能理解图像和完成更复杂对话的 AI 模型和 Qwen-VL-Chat。阿里巴巴称,Qwen-VL 基于 Qwen-7B,可以以图像、文本、检测框作为输入,并以文本和检测框作为输出,它使用了约 1.5B 的图文数据训练。在四大类多模态任务的标准英文测评中上,Qwen-VL 均取得同等通用模型大小下最好效果;支持英文、中文等多语言对话,端到端支持图片里中英双语的长文本识别;支持多图输入和比较,指定图片问答,多图文学创作等;相比于目前其它开源 LVLM使用的 224 分辨率,Qwen-VL 是首个开源的 448 分辨率的 LVLM 模型。更高分辨率可以提升细粒度的文字识别、文档问答和检测框标注。Qwen-VL 和 Qwen-VL-Chat 使用名为 Tongyi Qianwen LICENSE AGREEMENT 的许可证,有限制条件,如果商业使用,则需要从阿里巴巴获得授权。来源 , 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

封面图片

全球首个类Sora开源复现方案来了 全面公开所有训练细节和模型权重

全球首个类Sora开源复现方案来了 全面公开所有训练细节和模型权重 还能用航拍视角,展现悬崖海岸边,海水拍打着岩石的画面。亦或是延时摄影下的浩瀚星空。自Sora发布以来,由于效果惊艳但技术细节寥寥,揭秘、复现Sora成为了开发社区最热议话题之一。比如Colossal-AI团队推出成本直降46%的Sora训练推理复现流程。短短两周时间后,该团队再次发布最新进展,复现类Sora方案,并将技术方案及详细上手教程在GitHub上免费开源。那么问题来了,复现Sora如何实现?Open-Sora 开源地址: Transformer (DiT) 。它以采用DiT架构的高质量开源文生图模型PixArt-α为基座,在此基础上引入时间注意力层,将其扩展到视频数据上。具体来看,整个架构包括一个预训练好的VAE,一个文本编码器和一个利用空间-时间注意力机制的STDiT (Spatial Temporal Diffusion Transformer)模型。其中,STDiT 每层的结构如下图所示。它采用串行的方式在二维的空间注意力模块上叠加一维的时间注意力模块,用于建模时序关系。在时间注意力模块之后,交叉注意力模块用于对齐文本的语意。与全注意力机制相比,这样的结构大大降低了训练和推理开销。与同样使用空间-时间注意力机制的 Latte模型相比,STDiT 可以更好的利用已经预训练好的图像 DiT 的权重,从而在视频数据上继续训练。STDiT结构示意图整个模型的训练和推理流程如下。据了解,在训练阶段首先采用预训练好的Variational Autoencoder (VAE)的编码器将视频数据进行压缩,然后在压缩之后的潜在空间中与文本嵌入(text embedding)一起训练STDiT扩散模型。在推理阶段,从VAE的潜在空间中随机采样出一个高斯噪声,与提示词嵌入(prompt embedding)一起输入到STDiT中,得到去噪之后的特征,最后输入到VAE的解码器,解码得到视频。模型训练流程训练复现方案在训练复现部分,Open-Sora参考了Stable Video Diffusion (SVD)。一共分为3个阶段:大规模图像预训练;大规模视频预训练;高质量视频数据微调。每个阶段都会基于前一个阶段的权重继续训练。相比于从零开始单阶段训练,多阶段训练通过逐步扩展数据,更高效地达成高质量视频生成的目标。训练方案三阶段第一阶段是大规模图像预训练。团队利用互联网上丰富的图像数据和文生图技术,先训练出一个高质量的文生图模型,将该模型作为下一阶段视频预训练的初始化权重。同时,由于目前没有高质量的时空VAE,他们采用Stable Diffusion预训练好的图像VAE。这样不仅能保障初始模型的优越性能,还能显著降低视频预训练的整体成本。第二阶段是大规模视频预训练。这一阶段主要增加模型的泛化能力,有效掌握视频的时间序列关联。它需要使用大量视频数据训练,并且保障视频素材的多样性。同时,第二阶段的模型在第一阶段文生图模型的基础上加入了时序注意力模块,用于学习视频中的时序关系。其余模块与第一阶段保持一致,并加载第一阶段权重作为初始化,同时初始化时序注意力模块输出为零,以达到更高效更快速的收敛。Colossal-AI团队使用了PixArt-alpha的开源权重作为第二阶段STDiT模型的初始化,以及采用了T5模型作为文本编码器。他们采用了256x256的小分辨率进行预训练,进一步增加了收敛速度,降低训练成本。Open-Sora生成效果(提示词:水中世界的镜头,镜头中一只海龟在珊瑚礁间悠然游弋)第三阶段是高质量视频数据微调。据介绍,这一阶段能显著提升模型的生成质量。使用的数据规模比上一阶段降低一个量级,但是视频的时长、分辨率和质量都更高。通过这种方式进行微调,能实现视频生成从短到长、从低分辨率到高分辨率、从低保真度到高保真度的高效扩展。值得一提的是,Colossal-AI还详细透露了每阶段的资源使用情况。在Open-Sora的复现流程中,他们使用了64块H800进行训练。第二阶段的训练量一共是 2808 GPU hours,约合7000美元,第三阶段的训练量是1920 GPU hours,大约4500美元。经过初步估算,整个训练方案成功把Open-Sora复现流程控制在了1万美元左右。数据预处理为了进一步降低Sora复现的门槛和复杂度,Colossal-AI团队在代码仓库中还提供了便捷的视频数据预处理脚本,让大家可以轻松启动Sora复现预训练。包括公开视频数据集下载、长视频根据镜头连续性分割为短视频片段、使用开源大语言模型LLaVA生成精细的提示词。他们提供的批量视频标题生成代码可以用两卡 3 秒标注一个视频,并且质量接近于 GPT-4V。最终得到的视频/文本对可直接用于训练。借助他们在GitHub上提供的开源代码,可以轻松地在自己的数据集上快速生成训练所需的视频/文本对,显著降低了启动Sora复现项目的技术门槛和前期准备。高效训练加持除此之外,Colossal-AI团队还提供了训练加速方案。通过算子优化和混合并行等高效训练策略,在处理64帧、512x512分辨率视频的训练中,实现了1.55倍的加速效果。同时,得益于Colossal-AI的异构内存管理系统,在单台服务器上(8H800)可以无阻碍地进行1分钟的1080p高清视频训练任务。而且团队还发现STDiT模型架构在训练时也展现出卓越的高效性。和采用全注意力机制的DiT相比,随着帧数的增加,STDiT实现了高达5倍的加速效果,这在处理长视频序列等现实任务中尤为关键。最后,团队还放出了更多Open-Sora的生成效果。团队和量子位透露,他们将长期更新优化Open-Sora的相关解决方案和动态。未来将使用更多视频训练数据,以生成更高质量、更长时长的视频内容,并支持多分辨率特性。实际应用方面,团队透露将推进在电影、游戏、广告等领域落地。感兴趣的开发者们,可访问GitHub项目了解更多~Open-Sora 开源地址: Scalable Diffusion Models with Transformers[2] PixArt-α: Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis[3] Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets[4] Latte: Latent Diffusion Transformer for Video Generation[5] ... PC版: 手机版:

封面图片

大模型开不开源,硅谷大佬激辩: 一方谈科学进步 另一方提国家安全

大模型开不开源,硅谷大佬激辩: 一方谈科学进步 另一方提国家安全 安德森等人强烈支持开源人工智能,他们认为共享知识是科学进步的关键,提高透明度能够防止大公司垄断这项革命性技术。而科斯拉等闭源人工智能的支持者认为,让私营部门掌握人工智能技术,是防止滥用和潜在风险的有效方法。开源人工智能意味着技术将对公众免费开放,以促进共同的建设和分享。而闭源或专有人工智能则被其创作者控制,不对外公开。尽管二者看似对立,实则可以和谐共存。例如,许多公司在开源代码的基础上发展出自有的专有系统。此场辩论起因于特斯拉CEO埃隆·马斯克(Elon Musk)对OpenAI及其CEO萨姆·奥特曼(Sam Altman)的起诉,凸显了人工智能的部署和安全问题的复杂性,特别是在监管机构、大型科技公司和科学家等对人工智能的发展边界和速度仍在探索时,想要找到明确的答案何其艰难。在人工智能是否应该开源的争论中,身处漩涡中心的科技巨头们已经明确了各自的立场。Meta坚定支持开源人工智能,发布了Llama 2模型供全球开发者使用和改进。紧随其后的是法国Mistral AI,发布了具有开放“权重”的模型,即模型运作的核心参数。然而,行业领头羊OpenAI和Anthropic采取了完全不同的策略,他们提供的是闭源人工智能模型,并坚持把技术牢牢控制在自己手中。在这场辩论中,安德森于上周六通过社交媒体X发帖。他指责科斯拉正在“游说禁止开源”。这发生在科斯拉公开支持OpenAI及其CEO奥特曼之后。而他的支持是在马斯克对OpenAI提起诉讼之后表达的;马斯克指责奥特曼和OpenAI违背了公司创立时的原则,把追求利润放在了开源人工智能之前。作为科斯拉风投公司(Khosla Ventures)的创始人,科斯拉不仅支持OpenAI的盈利性业务,还声称,人工智能就如同核武器一旦开源将可能威胁到国家安全。他甚至引用了OpenAI首席科学家伊利亚·苏茨凯弗(Ilya Sutskever)的话说,“不分享科学也是完全可以的。”科斯拉风投公司的一位发言人进行了解释。他说,科斯拉确实曾支持开源技术。然而,科斯拉现在认为,大型人工智能模型“关乎国家安全和技术”优势,这些模型需要得到严密保护,不应轻易开源。安德森所在的安德森-霍洛维茨(Andreessen Horowitz)风投公司对此次开源与闭源的辩论保持缄默,对评论请求没有给出回应。双方虽立场对立,但均认同一个观点:驱动ChatGPT等AI工具的大语言模型仍处于成长阶段。ChatGPT与其他人工智能工具面临的问题众多,包括产生幻觉性输出、偏见性结果,甚至有潜力输出有害或攻击性内容。此外,这些模型的应用和训练成本高昂,还会消耗大量能源。开源支持者认为,正是这些技术的未成熟,更加凸显了开源的重要性。他们认为,只有在科学家和学者组成的开放的科研社区内,才能排除商业利益的干扰,共同推进通用人工智能的发展,最终实现机器能够如同人类一样学习和思考。艾伦人工智能研究所(Allen Institute for AI)的首席执行官阿里·法哈迪(Ali Farhadi)表示:“我们现在正处在一个关键节点,大规模部署了一项我们尚未完全理解的技术,也不知道如何有效控制这些系统。”该研究所由已故微软联合创始人保罗·艾伦(Paul Allen)于2014年创立,是一个致力于人工智能研究的非营利机构。法哈迪及其他支持开源的人士强调,共享研究成果是科学界的长久传统。人工智能的发展不是从2017年谷歌分享的“转换器”(Transformer,GPT中的T)模型开始的,其背后有更深远的历史。同时,一些美国议员则支持科斯拉的观点,他们担心自由分享的人工智能技术可能落入国外竞争对手手中,因此认为应该加以保护。许多主张闭源的人工智能公司也持有相似立场,认为这种技术可能对人类生存构成威胁,可能带来灾难性后果。奥特曼也强调,OpenAI高度重视其在开发人工智能方面的安全责任,坚信应该小心谨慎。他同时承认,人工智能为企业带来了巨大商业机会。回顾历史,软件行业的开源运动,自Linux等项目兴起后蓬勃发展,为当前开放与封闭的辩论提供了丰富的历史借鉴。开源软件已成为包括云计算在内的众多技术领域的基石,其商业化甚至促成了亚马逊等科技巨头的诞生。然而,开源软件也面临着网络安全挑战,因为任何人都能轻易下载和修改代码。专家们指出,封闭和开源技术并不是相互排斥的,两者可以并行发展。Meta负责生成人工智能的副总裁艾哈迈德·达勒(Ahmad Al-Dahle)就认为,把开源和封闭视为二选一的对立选择是误导,实际上两者各有其发展空间。人工智能初创公司AI21的联合创始人兼联席CEO奥里·戈申(Ori Goshen)也分享了相似观点,他认为,“开源在人工智能领域扮演着至关重要的角色。即便是像AI21这样的专有供应商,其基础模型最终也可能开源,商业价值将来源于独特的知识产权。” ... PC版: 手机版:

封面图片

要把开源管起来 还要“一举两得”限制中国 加州SB-1047法案被LeCun骂惨了

要把开源管起来 还要“一举两得”限制中国 加州SB-1047法案被LeCun骂惨了 这位Dan Hendrycks是美国AI政策领域的后起之星,2023年被《时代周刊》评选为全球百大AI人物之一。博士毕业于UC Berkeley计算机科学系,曾发明GELU激活函数和神经网络鲁棒性基准。目前担任旧金山非营利组织AI安全中心(CAIS)主任和xAI的安全顾问。图:The Boston Globe作为SB-1047的重要参与者和推动者之一,Hendrycks一直在多个平台大力宣传该法案,提醒公众警惕先进AI带来的社会风险。他在Yann LeCun转发的这则采访中指出:人工智能将“从执行日常任务到摧毁整个宇宙”,它虽不懂人类是什么,但会寻求权力并表现得”自私”,而美国加大AI监管也会“一举两得”地扼制中国人工智能发展。此番言论马上被一大批科技人士痛批“bullshit”,对这个SB-1047法案也是深恶痛绝。因为它表面看似为增强AI模型安全性、透明度、促进公平竞争做出的立法努力,实则会让开发者背负沉重负担,很可能扼杀创新,给AI初创公司和开源社区带来巨大的负面影响。a16z合伙人Martin Casado称SB-1047“是一场灾难,会攻击AI创新,伤害研究人员、学者和创业公司。”什么是加州SB-1047法案?SB-1047 法案,全称为“前沿人工智能安全创新法案(Safe and Secure Innovation for Frontier Artificial Intelligence Act)”,由加州参议员Scott Wiener在今年2月首次提出。目的是“为大规模人工智能系统的开发和部署设立严格安全标准,以确保其安全性并防止潜在重大危害。”该法案针对超过10^26次浮点运算能力(FLOPs)和1亿美元训练成本,以及任何基于以上AI模型微调的、运算能力不少于3 倍10^25 FLOPs的智能系统。几乎把现在市面所有主流大模型囊括在内。主要内容包括要求开发者进行部署前的安全评估,实施强有力的网络安全保护,具备紧急关停模型的能力,提交年度合规认证,72小时内上报安全事件等。另外还要求开发者对其模型的下游使用或修改承担法律责任。换言之,但凡有人用你的模型做了“坏事”,你就要“连坐受罚”,跟古代皇宫里“株连九族”差不多意思。在开始训练之前,开发者需要保证他们的模型不会被用来或提供"危险能力",并实施一系列保障措施来防止未经授权的访问或滥用,还必须要立下“书面字据”。一个新成立的“前沿模型司(Frontier Model Division)”将负责监督新法规的执行。它将隶属于加州技术部,由向开发者收取的费用和罚款来资助。向该机构虚假陈述模型能力可能会因伪证罪而入狱。同时条款明文写着“鼓励告密”,呼吁AI公司内部员工报告雇主的不合规行为,且不会因此而遭到报复不知为什么,总觉得这机构满满的反派感。目前该法案的进度是,已于5月21日在加州参议院获得两党支持通过,正在众议院审议中。6月20日刚进行了最新阅读和修订,计划7月2日举行听证会,并最终在8月进行议会投票。一旦投票通过,只需州长盖文纽森一个签名,SB-1047就将正式确立为加州法律,成为悬在所有硅谷AI从业者头顶的一把大刀。极限高压严管, SB-1047将怎样影响AI开发者?只通篇略读,就已经觉得这个法案槽点太多,群起反抗迫在眉睫。加州是全球人工智能的创新热土:坐拥学术重镇斯坦福大学、加州理工、伯克利、南加大、UCLA,是Meta、Google、微软等科技巨头和OpenAI、Anthropic这些业内领军企业的总部所在地,更别提遍地涌现的AI独角兽、技术实验室和开源社区。颁布这样一条法案弊远大于利,当然引来Yann LeCun等许多权威人士的严辞抵制。首先是“受管制模型” CEO、fastai库作者Jeremy Howard指出其定义方法过于宽泛,很可能把大量风险极小的开源模型包括在内,进而误将从事有益AI项目的善意开发者活动归为犯罪。a16z普通合伙人Anjney Midha认为,随着算法效率的提升和计算成本的下降, 10^26 FLOPs的阈值将很快覆盖比科技巨头开发的最大、最尖端模型多得多的模型,这将真正伤害到大批AI初创公司。而关于“1亿美元训练成本”的界定也十分模糊。它应该包括研究人员薪资吗?是包含历代模型还是只计算最终版本,模型对齐的人类反馈费用怎么算?若是从别人的模型微调而来,那基础模型的成本又是否涵盖在内?这些都是没有明确答案的开放性问题,给小型开发者带来巨大的应对负担。接下来是批判声浪最大也最荒谬,对模型开发者施加民事甚至刑事责任的22603条款。该细则要求开发人员在训练模型之前,必须采取一系列措施防止滥用,包括实施网络安全保护、关键时刻能不考虑用户紧急关停模型等。此外,存在潜在风险的模型不得用于商业或公共用途。开发人员每年要重新评估安全措施,提交合规证明。2028年开始必须获得第三方审计员的合规证书。还要评估模型是否可能导致“严重危害”,确保能够准确追踪其衍生行为及后果。由于上述疏忽而出现AI安全事故的话,第一开发者将负连带责任。也就是前面说过的,当素不相识的下游用户做出一些不法行为时,基础模型开发者将成为共同受罚的冤大头。好比让汽车制造商对每一起驾驶员造成的事故负责,简直离大谱。Jeremy Howard在评论中写道,“AI模型是计算机上运行的通用软件,就像计算器或网络浏览器。模型的创建者无法确保模型未来不会被用于有害用途,就像网络浏览器不能决定打开什么网页一样。”这也是SB-1047法案的根本缺陷 它不是专注于滥用和恶意用户,反而试图监管模型和基础设施,把如此繁重的负担放在了初创公司、创始人和工程师身上。DeepLearning.AI创始人吴恩达在X撰写长文,称“安全性是应用程序的属性,而不是技术或模型的属性….如果有机会,我希望您能加入发声,共同反对这一法案。”接着来到22604条款,对运营计算集群的人员来说,当客户使用其算力资源训练“前沿模型”时,要收集客户的身份信息、支付方式和联系方式,包括相关金融机构、信用卡号码、账户号码、交易标识符或虚拟货币钱包地址等。而且,还要保留客户的IP地址和访问记录长达七年,每年对用户行为和意图进行评估,也要在海关、边境总署备案。诸如这样不合理的责任条款还有很多,那它们带来的实际效果会是什么呢?a16z合伙人Anjney Midha认为,它将把先进AI开发推向地下或海外,“创始人将把公司业务转移到一个监管环境更明智的辖区,而加州甚至美国将失去这些机会,就这么简单。”并且由于合规成本的增加,企业或个人开发者在开源大模型权重上会非常谨慎。而开源一直是软件技术进步的关键推动力,提供了许多现代人工智能基本构建块。事实上,生成式 AI浪潮正是源自Google实验室的Transformer架构,然后由OpenAI 去开创和继续。Mistral和Meta们的开源模型对下由贡献不可估量,今天的一切都是开源合作的结果,而这项法案会大大减缓其发展。Yann LeCun解释说,“SB-1047 的级联责任制将使开源 AI 平台面临极大风险。没有开源 AI,就没有 AI 初创公司生态系统,也没有大模型的学术研究。Meta 会没事,但 AI 初创公司将会死亡。在我看来,这才是末日景象。”Y Combinator掌门人Gary Tan表示,“SB-1047将对加州的 AI 发展产生强烈的寒蝉效应。”Kentauros AI CEO 、前Red Hat高级架构师Daniel Jeffries认为这根本不是一项AI安全法案,而是一匹“特洛伊木马”。真正目的是让一小撮反AI极端分子拥有关闭先进AI的权力,同时给加州的科技产业制造麻烦。“不要让模型对别人的犯罪负责。没人因为安然公司有人用Excel诈骗投资者就惩罚微软,该惩罚的是安... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人