【讨厌马赛克?Google 表示你可以修复它了】Google的 AI 团队提到了一个新的图片算法,并展现了其最新的研究成果,从效

【讨厌马赛克?Google 表示你可以修复它了】Google的 AI 团队提到了一个新的图片算法,并展现了其最新的研究成果,从效果来看十分震撼通过两种不同的算法,能将 64 X 64 像素的照片还原成 1024 X 1024 像素分辨率,并且细节效果非常逼真。 #抽屉IT

相关推荐

封面图片

破解ChatGPT惊人耗电 DeepMind新算法训练提效13倍,能耗暴降10倍

破解ChatGPT惊人耗电 DeepMind新算法训练提效13倍,能耗暴降10倍 随着AI计算需求的膨胀,还需要用水来冷却计算系统。研究称,微软用水量从2021年到22年飙升了34%,ChatGPT每处理5-50个提示就会消耗接近半升水。针对这种现状,我们有更好的解决策略吗?最近,GoogleDeepMind研究团队提出了一种加快AI训练的新方法多模态对比学习与联合示例选择(JEST),大大减少了所需的计算资源和时间。JEST以13倍更少的迭代次数,以及10倍更少的计算量,超越了最先进的模型!预训练的参考模型,已经学习了什么样的数据是有“优质的”或“有用的”。然后通过模型,来引导数据选择那些精心筛选过的小型数据集。这一发现揭示了,数据筛选水平可以作为评判Scaling Law的一个新维度。网友激动表示,“我没想到这么快就会发生。模型能够自主选择训练数据的能力是巨大的,因为它使训练变得显著更容易,你不再需要猜测什么是高质量的训练数据,你有一个能够『理解』什么样的数据对自身学习最有价值的模型”。前Google、苹果软件工程师称赞道,这项研究非常令人印象深刻。从“超级batch”中筛选数据无论是语言、视觉还是多模态模型,数据质量是预训练性能的重要驱动因素。比如Phi-3、Gemma 2等模型的成功让我们看到了,更少、更高质量的数据有可能实现更强大的性能。要筛选出高质量的数据,数据管道的建立就成为重要的工作。现有的方法大体可以分为两种:1)手动管理 2)基于模型的数据管理,用正在训练模型的特征选择高质量数据。前者成本高昂且难以扩展,后者则有望为多模态LLM实现Scaling Law。然而,现有方法忽略了一个事实。如果仅在单个数据点的层面进行筛选,就没有考虑到数据集以及batch的总体组成。毕竟,训练数据是以batch为单位,数据点之间的依赖性不可忽视。许多计算机视觉的研究都曾表明,hard negatives(表达空间中相近但标签不同的样本)相比可被平凡解的数据簇,能提供更有效的学习信号。那么如何让模型以batch为单位筛选数据呢?论文提出的JEST算法正是要解决这个问题,原理很好理解:就是直接从“超级batch”中筛选出“子batch”。技术介绍用数学语言来描述这个问题,就是从大小为B的“超级batch”中提取出与学习最相关的子batch ℬ={,∈[1,…,]}⊂,过滤比率可以写作=1−/。之前的优先采样(prioritized sampling)会使用基于模型的评分函数对每个数据点打分,再按比例采样。JEST则直接对整个子batch评分,再按照batch级别的分数采样。一种最直观的启发式方法就是在现有模型参数 : hard⁢(ℬ|)=ℓ⁢(ℬ|) 中,直接选择损失值最高的batch,这种方法可被称之为“硬学习”(hard learner)。这种方法具有丢弃琐碎数据的理想属性,已被证明适用于小型、干净的数据集;然而对于较大、较少管理的数据集往往弊大于利,因为它依旧会采样到噪声数据。另一种方法常用于多模态,使用具有参数 ∗:^easy⁢(ℬ|∗)=−ℓ⁢(ℬ|∗) 的参考模型为预训练模型采样数据。但作者依旧否定了这个方案,因为它无法直接反映模型当前的状态,可能过度依赖参考模型的选择,而且不易于扩展。最后,论文选择借鉴ICML 2022年的一篇论文中提到的方法,将上述两方面的评分结合起来:^learn⁢(ℬ|,∗)=hard⁢(ℬ|)+^easy⁢(ℬ|∗)=ℓ⁢(ℬ|)−ℓ⁢(ℬ|∗),并将这种启发式方法称为“可学习性评分”(learnability score)。其中,batch上的损失值ℓ⁢(ℬ|)是各数据点之和,使用sigmoid对比损失函数计算(sigmoid-contrastive loss),因为相比softmax对比损失而言,它的扩展性更强。由于batch上的对比损失可以分解为每个样本的条件损失之和,因此可学习性评分可被分解为单个样本可学习性评分⁢(|,∗,ℬ)之和,写作:使用的顺序采样方法则受到了block Gibbs采样的启发。在第n次迭代、对第B_n个batch进行采样时,依据如下概率公式对块{X_k}进行无替换采样:将X_k块添加到B_n中来更新当前采样的batch,直至迭代数n=N时终止。算法的总体流程如下图所示:实验中发现,使用迭代数N=16且每次迭代时独立采样b/N=2048个样本时,就足以恢复出学习性非常高的batch。可学习性评分中涉及到使用参考模型为数据点打分,之前的方法惯常使用额外的小型模型,但这会增加每次迭代的计算成本,降低总体FLOP效率增益。因此论文使用了在线模型近似的方法以及效率较高的FlexiViT架构,只使用降低分辨率的32×32的patch来评估“超级batch”,与全分辨率、patch大小为16×16的方法相比减少了72%的FLOP,以及67%的挂钟时间(wall-clock time)。此外,论文还提出了进行多分辨率训练的技巧。将每个batch随机分成两半,使用不同分辨率编码后再拼接起来,提升了评分过程和训练的效率。下图详细描述了全分辨率JEST和多分辨率Flexi-JEST方法的伪代码实现。所有JEST实验都在WebLI数据集上运行,包含经过宽松过滤的十亿规模的英语图像-文本对,参考模型的训练则使用其中经过高质量过滤100M大小的子集(被称为WebLI-curated)。在WebLI的基础上,作者还额外从网络上抓取了6亿个文本-图像对并经过同样强度的过滤,组成WebLI-curated++数据集训练参考模型,拓展出JEST++/FlexiJEST++方法,来探索对数据管理的扩展。论文所报告的平均性能包括4个多模态规范基准:ImageNet 0-Shot和10-Shot 分类以及COCO图像到文本和文本到图像的top-1检索。实验结果图1中可以看到,使用JEST或FlexiJEST方法的最明显优势就是效率提升。左图中,相比原有的SigLIP基线模型,JEST++可以在训练数据量减少13.1×的情况下达到相同准确率。即使考虑到额外引入的打分成本,也有近10×的FLOP效率提升(中图)。右图展现了JEST++/FlexiJEST++(绿色)与先前方法(灰色)的比较,相比CLIP、EVA-CLIP经典模型实现了计算成本和性能的双重提升。左图和中图的平均准确率由8个下游任务得出,右图性能由ImageNet和COCO基准测试得出产生可学习batch研究人员首先评估了JEST在选择可学习batch方面的效果。为了直观地理解这一方法,作者们先将可学习性矩阵进行可视化,即学习模型和参考模型之间,对batch中所有示例对的损失差异。JEST就是按照示例子矩阵的可学习性总和比例进行采样。由于矩阵明显非对角关系(图2,左),独立选择显然是次优的。经过少量迭代(对应于用N=16个块填充batch),作者发现子batch的可学习性快速增加,达到了需要数千次迭代的暴力吉布斯采样(Gibbs sampling )所提取batch的可学习性(图2,中)。对于0.5、0.8和0.9的过滤比例,他们从大小分别为65,536、163,840和327,680的超级batch中选择32,768个示例的子batch。在图2右侧,研究者还发现子batch的可学习性随着更大的过滤比例而增加。总之,JEST算法是在训练过程中选择高度可学习batch的有效,且高效的方法。加速多模态学习接下来,研究人员使用JEST算法选择的可学习batch,检验训练模型的效果。所有实验都使用在WebLI-curated上训练的参考模型,这是一个ViT-B/16和Bert-B图像-文本双编码器,30亿训练样本,采用sigmoid对比损失函数。图3(左)显示了在训练过程中多个下游任务(ImageNet 0-Shot/10-Shot准确率和COCO图像到文本/文本到图像检索)的平均性能。结果还发现,JEST显著加速了学习过程。在使用50%、80%和90%的过滤比例时,分别只需20亿、10亿和6.7亿训练样本就达到了30亿均匀基准的最终性能。在更大的过滤比例下,坐着观察到类似于更大batch size时的训练不稳定性,需要修改Adam优化器(β2 = 0.95)以稳定训练,这表明JEST的数据筛选可以被视为增加了有效batch ... PC版: 手机版:

封面图片

比赛开始了!Sora对手直呼奥特曼是魔术师 创意行业最先受冲击?

比赛开始了!Sora对手直呼奥特曼是魔术师 创意行业最先受冲击? 根据OpenAI的介绍,通过“一次性为模型提供多帧的预测”,Sora可以生成长达一分钟的视频,并能实现单视频的多角度镜头切换,还能通过“将视频和图像表现为较小数据单位的集合”来获得更广泛的数据,搭建模拟现实世界的逼真模型。虽然还没有向公众开放,由于在AI生成视频时长上成功突破到一分钟,再加上公开演示视频的高度逼真和高质量,Sora立刻引起了轰动。特斯拉CEO埃隆·马斯克(Elon Musk)在X(原推特)平台上感叹“人类愿赌服输(gg humans)”,360集团创始人、董事长兼CEO周鸿祎则预言“AGI(通用人工智能)实现将从10年缩短到1年”。AI视频生成赛道竞争日渐激烈毫无疑问,Sora的出现至少让竞争对手感到了压力。在Sora发布后,AI视频初创公司Runway的CEO克里斯托瓦尔·巴伦苏埃拉(Cristóbal Valenzuela)便在X平台上发布了两个词:“Game On(比赛开始了)。”AI视频公司Stability AI的CEO埃马德·莫斯塔克(Emad Mostaque)则在X平台上感慨“奥特曼(OpenAI的创始人兼CEO)真是一个魔术师”,并称Sora可以被视为AI视频的GPT3,将在未来几年内得到扩展、细化、调整和优化。自2022年以来,最早的一批文生视频模型都是由Stability AI、Runway和Pika等小型初创公司开发的,而近几个月来,科技巨头们也纷纷宣布将带着自己的模型进入该领域,例如字节跳动的MagicVideo-V2和谷歌的Lumiere。谷歌的Lumiere演示片段。来源:Google Research虽然谷歌和字节跳动发布的演示视频都展现出了质量的飞跃,但它们都没能脱离现有文生视频的一般模式,即输出单一的、通常是静止视角的短视频片段。相比之下,Sora的宣传视频包括变换摄像机角度、电影式剪辑和场景变换,而这一切,都是通过单一提示词生成的。Sora生成的视频能够达到更加逼真的效果。来源:Sora针对Sora如何达成如此惊人的效果,研究者们也展开了分析。在Sora技术报告所引述的32篇论文中,纽约大学助理教授谢赛宁和现任OpenAI工程师的William Peebles在2023年合著的扩散Transformer论文吸引了大家的目光,被视为Sora的研究基础。谢赛宁也连发多条推文推测,Sora或建立在扩散Transformer模型之上,整个Sora模型可能有30亿个参数,数据很可能是Sora成功的最关键因素。虽然OpenAI指出Sora仍存在缺陷,例如难以准确模拟复杂场景的物理特性、无法理解因果关系的具体实例和混淆提示的空间细节,但也在官网上不无骄傲地写道:“Sora为能够理解和模拟真实世界的模型提供了基础,我们相信这一能力将是实现AGI(通用人工智能)的重要里程碑。”招商策略研报认为,OpenAI在训练端与输入端的创新造就了Sora的成功。虽然OpenAI表示当前Sora仍有弱点,但从当前展示的效果来看,Sora显著领先于其他文生视频模型,推动AI视频生成进入了一个全新的时代。有望大幅降低成本,好莱坞行业受冲击?影视圈也从未如此直观地感受到AI带来的威胁与机遇。例如,专注于早期阶段投资的美国旧金山投资人Zak Kukoff在X平台上预测,在五年内,一个不到五人的团队将能够利用文生视频模型和非工会劳动力来制作一部票房收入超过5000万美元的电影。美国权威电影业界期刊《好莱坞报道》(The Hollywood Reporter)猜测,OpenAI将利用Sora“大规模进军好莱坞”:“尽管类似的AI视频工具已经存在,OpenAI的系统体现了该技术的快速增长,可能将会取代大量的劳动力。娱乐业正在努力应对AI,而这一技术将进一步被主流所采纳。”早在Sora之前,AI已经开始影响全球影视行业。行业调查公司CVL Economics在今年1月发布了一项针对300位好莱坞行业领袖的调查,有四分之三的受访者承认,AI工具促进了公司岗位的削减或整合。据估计,在接下来的三年里,将有近20.4万个职位受到AI的不利影响,声音工程师、配音演员和概念艺术家处于向AI转变的前沿,视觉效果和其他后期制作工作也很容易受到影响。有科技媒体指出,在好莱坞,单个场景的制作成本可能高达数百万美元,Sora可能成为制片人的新选择,一种更为经济型的替代品,例如重现滑铁卢战役,不需要昂贵的特效或者专门设计拍摄场景,“Sora的魅力在于它能够培养创造力。导演可以尝试不同的美学或场景,而无需承担与传统制作相关的财务风险。促进了创新,为以前仅限于想象力的叙事和视觉风格打开了大门……数字艺术家可以让技能多元化,但也应该适应这种将永远改变游戏规则的新范式。”不过,由于可能使用受版权保护的内容和生成视频时长较短等问题,AI生成视频工具在影视业的使用依然受到局限。许多艺术家也要求OpenAI公开Sora的训练数据,怀疑其有使用版权保护内容的嫌疑。曾为多部漫威影片工作过的概念艺术家卡拉·奥尔蒂斯(Karla Ortiz)指出,大模型需要海量的训练数据来进行学习,隐藏数据来源是一种逃避社会责任的行为。而在影视业之前,相对较为不看重视频内容的广告业已经受到了AI生成视频工具的显著冲击。据统计,在美国洛杉矶,自2018年以来,商业广告的拍摄量已经出现持续大幅下降,如果排除因疫情而停止大部分制作的2020年,其在2023年已经降至七年最低点。一旦Sora正式开放使用,想必将会进一步推动广告业向AI转型。是破局者,还是破坏者?除了版权问题以外,和所有其他AI工具一样,Sora过于逼真的视频表现也带来了一些对于伪造和传播虚假内容的忧虑。在充斥着虚假信息的互联网,深度造假(Deepfake)的道德问题早已成为了关注焦点。就在今年1月,由AI生成的美国知名歌手泰勒·斯威夫特(Taylor Swift)的虚假露骨照片在社交媒体上疯传,短时间内浏览量飙升至上千万,一时惊动美国白宫。白宫新闻发言人卡里娜·让-皮埃尔(Karine Jean-Pierre)警告称,AI生成照片的传播“令人担忧”。由于来不及删除这些有害图片,X平台一度封锁了对斯威夫特的相关搜索。而一旦照片变成视频,人们将更加难以分辨真伪。OpenAI也考虑到了模型安全性方面的潜在风险,称其计划与一个专家团队合作测试最新模型,密切关注错误信息、仇恨内容和偏见等。OpenAI还表示其正在开发帮助检测误导性信息的工具,比如检测分类器可以判断视频是何时由Sora生成的。其文本分类器可检查并拒绝违反使用政策的文本输入提示,例如极端暴力、性内容、仇恨图像、名人肖像等。但在Sora被正式公开之前,我们都无从得知这些约束条件的具体效果如何。此外,AI技术的复杂性也意味着需要大量金钱和算力资源投入,可能会将权力进一步集中在少数资本或技术寡头身上。不管是好是坏,Sora都标志着更先进的AI视频浪潮的出现,而这股浪潮或许终将颠覆包括影视、广告乃至游戏和艺术在内的整个创意产业。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人