这五天,我作为论文作者参加了世界上最大的AI顶级学术会议,采访了20+优质论文作者,参加了大厂、顶级创业公司、VC的内部聚会,平

这五天,我作为论文作者参加了世界上最大的AI顶级学术会议,采访了20+优质论文作者,参加了大厂、顶级创业公司、VC的内部聚会,平均每天睡眠5hr + 800ml 冰美式。takeaways: LLM验证了大模型范式,而这个新范式的潜力远不限于文字生成。在计算机视觉,大模型范式带来的变量正在被释放:大语言模型可以提升物体定位算法的效果、微调后的Stable Diffusion能够找到人体关节的坐标、新模型生成可交互的2.5D场景...我正在整理一份视觉领域的最新变量,如果你感兴趣,欢迎关注点赞转发,我会发给你。

相关推荐

封面图片

这是构成Sora基础之一的Diffusion Transformer论文作者关于Sora的一些猜测和技术解释。

这是构成Sora基础之一的Diffusion Transformer论文作者关于Sora的一些猜测和技术解释。 这个老哥可能是除了这篇论文的另一个作者(现在在Open AI工作)之外最懂Diffusion Transformer的人了,非常值得关注。 有趣的是这篇论文曾经在2023年的计算机视觉会议(CVR2023)上因“缺少创新性”而遭到拒绝,短短一年时间就变成了Sora这怪物模型的理论基础。 -正文开始- 以下是我对Sora技术报告的解读,其中包含了一些可能并不准确的猜测。首先,我非常感谢团队分享了极为有价值的见解和设计决策Sora确实令人惊叹,它将彻底改变视频生成领域。 我们目前所了解到的情况如下: 架构:Sora基于我们的扩散变换器(Diffusion Transformer,简称DiT)模型构建,该模型已发表在2023年国际计算机视觉会议(ICCV 2023)上。简单来说,它是一个结合了变换器(Transformer)主干的扩散模型: DiT = [变分自编码器(VAE)编码器 + 视觉变换器(ViT)+ 去噪扩散概率模型(DDPM)+ VAE解码器]。 根据报告,这个模型似乎没有太多额外的复杂设计。 “视频压缩网络”:这看起来就像是一个在原始视频数据上训练的变分自编码器(VAE)。在实现良好的时间一致性方面,标记化(Tokenization)可能扮演着关键角色。顺便提一下,VAE本质上是一个卷积网络,所以从技术上说,DiT实际上是一个混合模型。 ;) 当Bill和我参与DiT项目时,我们并未专注于创新(详见我之前的推特),而是将重点放在了两个方面:简洁性和可扩展性。这些优先事项带来的不仅仅是概念上的优势。 简洁性代表着灵活性。关于标准的视觉变换器(ViT),人们常忽视的一个亮点是,它让模型在处理输入数据时变得更加灵活。例如,在遮蔽自编码器(MAE)中,ViT帮助我们只处理可见的区块,忽略被遮蔽的部分。同样,Sora可以通过在适当大小的网格中排列随机初始化的区块来控制生成视频的尺寸。而UNet并不直接提供这种灵活性。 猜测:Sora可能还使用了Google的Patch n’ Pack(NaViT)技术,使DiT能够适应不同的分辨率、持续时间和长宽比。

封面图片

【大模型物种进化图,原来BERT后代已绝种】根据论文,大模型发展主要可以分为两类,作者们将它命名为“BERT派”和“GPT派”:

【大模型物种进化图,原来BERT后代已绝种】根据论文,大模型发展主要可以分为两类,作者们将它命名为“BERT派”和“GPT派”:“BERT派”的特征是模型中有编码器架构,具体分为“编解码器”和“只有编码器”两类架构;“GPT派”则主张扔掉编码器,架构中“只有解码器”。 #抽屉IT

封面图片

同时,在特定领域,我们至少需要通读八九篇核心论文,这样才能基本理解,并解释为什么某篇论文让我们感到兴奋。

同时,在特定领域,我们至少需要通读八九篇核心论文,这样才能基本理解,并解释为什么某篇论文让我们感到兴奋。 未来五到十年里,很多现在的知识可能会变成常识。到那时,了解与否的差异可能并不显著。但在当前,通过阅读论文获得的信息量是巨大的,它能显著提高我们的认知水平,帮助你做出更准确的判断。 2、去哪找论文,怎么读论文? 那么,想要找到新颖或高质量的论文,我们应该去哪里呢?可以关注一些知名平台,如百度学术,或是OpenAI的Andrej Karpathy,看看他们推荐了哪些论文。实际上,你需要让自己沉浸在学术环境中,对感兴趣的论文深入阅读。Hidecloud个人习惯一天至少读两到三篇。 Hidecloud通常将论文分为两类:一类是他认为具有范式创新的,另一类是技术细节有所改进的。 对于后者,Hidecloud会快速阅读,关注他们具体优化了哪些方面,提升了多少。但对于那些具有范式创新的论文,Hidecloud会仔细研读。 阅读论文的好处是巨大的,它能直接帮助我们在产品设计和技术改进上取得实际成效。比如一些论文不仅提出新模型,还包含了工程优化的技巧,比如加速模型推理等。产品经理阅读这些内容后,可以直接应用于产品中,提升性能。 更重要的是,通过阅读前沿论文,可以及时了解最新模型的能力边界,以及新出现的技术创新点。进而,重新审视传统问题,开拓新的解决思路。这种全新的思考方式,有可能带来行业颠覆性的创新机会。 三、读完论文、测完demo,如何产研协同? 1、之前产品更依赖工程师 传统的软件开发模式中,产品经理负责需求分析和功能设计,然后把需求文档交给工程师,由工程师将这些抽象的业务逻辑转化为具体的代码实现。 这个过程需要产品经理和工程师密切配合,但两个角色的职责划分还是比较明确的。 2、现在产品也能做点开发 而现在,一些低代码(Low-code)或无代码(No-code)开发平台的出现,让非技术背景的人也能通过可视化的方式快速构建应用。 比如使用自然语言描述业务流程,然后自动生成可执行的工作流(Workflow)。这在一定程度上降低了开发门槛,产品经理可以更直接地参与到原型设计和功能实现中来。 3、工程师可能更专注后台问题 借助大语言模型的能力,产品经理用自然语言描述的复杂业务逻辑,可能会被自动转换成更加结构化、标准化的中间表示,如可视化的流程图(pipeline)或特定领域语言(DSL)等形式。这种表示一方面可以清晰地呈现业务逻辑,另一方面也更容易转化为最终的代码实现。 在这种趋势下,产品经理在功能决策上可能会有更大的自主权,可以通过灵活组合各种逻辑单元来快速响应业务变化。而工程师则会更专注于系统架构、性能优化、弹性扩展等技术问题,去建设一个高可用、高并发的稳定平台。

封面图片

2023年中国人工智能顶级论文数量和专利授权均高于美国

2023年中国人工智能顶级论文数量和专利授权均高于美国 该《报告》聚焦基础支撑、资源与环境、科技研发、产业与应用、国际合作交流等5个维度构建指标体系,对46个重点国家的人工智能创新发展和治理情况进行量化评估。澎湃科技注意到,综合考虑总得分、国家间分差、一级指标排名等因素,报告将参评国家划分为四个梯队,美国和中国稳居第一梯队,总得分明显高于其他国家,第二梯队与第一梯队的差距进一步拉大。中美两国AI水平稳居第一梯队总体格局上,2023年全球人工智能美国和中国稳居第一梯队,英国、日本、新加坡等9个国家位居第二梯队。其中,美国以74.71的总分大幅领先,中国总分为52.69分,排名第二,比排名第三的英国高出近15分。美国全面领先,中美在多数指标上处于“断层式”领先。自指数创建五年来,美国一直排名全球第一,中国从2020年起近四年一直排名第二。《2023全球人工智能创新指数报告》正式发布《报告》指出,美国和中国在人工智能高层次人才数量和人工智能企业数量上均领先于第二梯队国家。在主要国家人工智能顶级论文数量和主要国家人工智能专利授权数量上,中国远高于美国。比如,在主要国家人工智能顶级论文数量占比上,中国占比36.7%,美国占比22.6%。在主要国家人工智能专利授权数量占比上,中国占比34.7%,美国占比32%。《报告》也提到,第二梯队中,英国在整体教育资源和高质量的学术研究成果方面比较突出,日本专利也较为突出。德国在产业和应用方面,尤其是在人工智能风险投资以及国内市场规模方面很有优势。第三、四梯队部分国家有所进步,其中印度和沙特阿拉伯连续三年排位上升。学习模型研发数量中,美国人工智能企业表现突出统观当下全球人工智能创新发展趋势,赵志耘提到了当下全球趋势呈现四个特点。趋势一,大模型的突破带动人工智能技术创新加快,自然语言处理、多模态等领域研发提速。多模态领域的模型数量大幅增长,从2022年的9个增加到2023年的35个。需要注意的是,2023年AI for Science持续深入,面向生物/医药、地球科学、数学、材料科学等科研领域的机器学习模型不断涌现。全球趋势观察趋势二,产业界在模型开发上的领先优势凸显。《报告》显示,2023年产业界独立研发的机器学习模型达到176个,是学术界的3.5倍。澎湃科技注意到,在2023年机器学习模型研发数量的机构中,美国人工智能企业表现尤为突出,2023年推出2个以上机器学习模型的13家机构中,美国7家,研发学习模型数量最多的来自Google,数量达到19个。中国2家(阿里巴巴、北京智源人工智能研究院)、英国、加拿大、法国、阿联酋各占1家。《报告》同时还提及,近十年产业界独立研发的机器学习模型数量占比从2013年的25%上升到2023年的62.6%,学术界却不断下降,与产业界的差距拉大。趋势三,生成式人工智能开源项目激增,开源仍是人工智能技术研发应用的重要模式。《报告》指出,近十年GitHub上人工智能开源项目总数持续增长,从2013年的1.2万个增加到2023年的约190万个。印度成为最大的开源项目来源国,每年贡献的人工智能开源项目数量占全球的比重从2013年的3.1%增长到2023年的27.3%,2020年开始反超美国。趋势四,人工智能企业新增数量开始增长,2023年生成式人工智能风险投资规模急剧扩大,主要集中在美国、法国、中国、以色列、英国等国家。在过去的2018-2022年,全球新增人工智能企业数量在逐年递减,但是这种递减趋势在2023年得到了抑制,同时有回转的倾向,2023年新增企业数量同比上涨了21.5%。同时有一个更为乐观的趋势是,全球人工智能风险投资额虽然还是下降的趋势,但是这种下降的幅度在明显缩减。尤其是2023年生成式人工智能的风险投资规模在快速扩大,也使得生成式人工智能在推动人工智能创新发展方面起到非常重要的作用。原始创新需要加强《报告》指出,中国人工智能综合水平保持全球第二,但尚未形成具有绝对领先优势的核心竞争力。在人才培养、科研产出、产业发展等方面,中国取得积极成效。在高层次人工智能人才队伍上,顶会顶刊论文作者数量从2018年的328人增长到2022年的1674人,与美国的差距正逐渐缩小。高质量科研成果数量明显上升,顶会顶刊论文数量已经超过美国,位居全球第一,累计贡献的高影响力人工智能开源项目目前位居全球第三,仅次于美国和印度。不过,赵志耘指出,从当前主流技术路线的趋势特征以及支撑技术大规模应用的基础条件来看,中国人工智能发展还存在一些不足,尤其在数据开发利用、原始创新等方面需要进一步加强。《报告》也同时提到对中国人工智能发展的建议及展望。赵志耘表示,应加快高水平规模化的应用,这将是中国最大的优势。此外,加强数据资源建设,健全公共数据开放共享机制,建设安全合规、大规模、高质量的语料库。加大高层次人才引育,加快高水平规模化应用,聚焦关键领域打造一批具有技术先进性和规模化潜力的重大场景,推动大小模型协同落地。 ... PC版: 手机版:

封面图片

OpenAI的CEO Sam Altman参加了一场关于AI监管的听证会,总时长达3个小时。 这里是本次听证会的10个主要重点(

OpenAI的CEO Sam Altman参加了一场关于AI监管的听证会,总时长达3个小时。 这里是本次听证会的10个主要重点(word count: 22796, token: 53692 总结: Claude 100k): 1. 人工智能技术正在迅速发展,需要适当的监管。Sam Altman和其他人都呼吁政府采取行动,制定规则和标准来管理AI的风险。 2. 需要明确定义监管的范围和对象。Sam Altman提出可以根据模型的计算能力或功能能力来划定范围。 3. 需要建立独立的监管机构。Sam Altman和Gary Marcus都支持建立一个机构来监管AI技术。 4. 需要制定安全标准和许可证要求。Sam Altman提出需要对超过一定规模的AI模型实施许可证和测试要求。 5. 需要确保不同人群获得公平对待。Padilla参议员提出需要确保AI模型具有语言和文化包容性。 6. 需要保护个人隐私和数据。Sam Altman表示OpenAI允许用户选择不使用其数据进行训练,并可以删除用户数据。 7. 需要防止AI技术被滥用以操纵选举。参议员们担心AI技术可以预测和影响公众舆论和选举结果。 8. 需要保护知识产权。Blackburn参议员担心AI可以生成受版权保护的内容,需要确保内容创作者得到补偿。 9. 需要应对对就业的影响。参议员们担心AI技术会减少工作,需要与行业和政府合作应对这种影响。 10. 需要国际合作。Sam Altman认为虽然美国应该领导,但也需要考虑全球影响,可以探索国际合作的机会。

封面图片

可扩展性是DiT论文的核心主题。首先,经过优化的DiT在每Flop的实际运行时间上比UNet要快得多。更重要的是,Sora证明了

可扩展性是DiT论文的核心主题。首先,经过优化的DiT在每Flop的实际运行时间上比UNet要快得多。更重要的是,Sora证明了DiT的扩展法则不仅适用于图像,现在也适用于视频Sora复制了在DiT中观察到的视觉扩展行为。 猜测:在Sora报告中,第一个视频的质量相当差,我怀疑它使用的是基础模型尺寸。粗略计算一下:DiT XL/2的GFLOPs是B/2模型的5倍,所以最终16倍计算模型可能是3倍DiT-XL模型的大小,这意味着Sora可能有约3亿参数如果这是真的,这并非一个不合理的模型大小。这可能意味着,训练Sora模型可能不需要像人们预期的那样多的GPU我预计未来的迭代速度会非常快。 关键的收获来自于“新兴模拟能力”部分。在Sora出现之前,人们不清楚是否可以自然形成长篇连贯性,或者是否需要复杂的以主题为导向的生成流程,甚至物理模拟器。OpenAI已经证明,尽管不完美,但这些行为可以通过端到端训练来实现。然而,有两个关键点尚未被讨论。 1. 训练数据:关于训练数据的来源和构建完全没有提及,这可能意味着数据很可能是Sora成功的关键因素。 猜测:关于来自游戏引擎的数据已有许多猜测。我也预计可能会包括电影、纪录片、电影长镜头等。质量非常重要。我非常好奇Sora从哪里获取这些数据的(肯定不仅仅是YouTube,对吧?)。 2.(自回归的)长视频生成:Sora的一大突破是能够生成非常长的视频。制作2秒视频和1分钟视频之间的差异是巨大的。 在Sora中,这可能是通过联合帧预测实现的,允许自回归采样,但一个主要的挑战是如何解决错误累积,并在时间上保持质量和一致性。是需要一个非常长的(并且是双向的)上下文来进行条件化?还是说仅仅通过扩大规模就可以减少问题?这些技术细节可能非常重要,希望未来能够被逐渐揭示。 扩散变换器(DiT)在Sora中的应用效果非常出色。我们纽约大学的团队最近发布了一款新的DiT模型,名为SiT。它保持了与DiT完全相同的架构,但在性能上有所提升,收敛速度更快。我对它在视频生成方面的表现也非常感兴趣! DiT论文地址:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人