内容同样很干,个人觉得很有启发的一些观点摘抄:

内容同样很干,个人觉得很有启发的一些观点摘抄: - 行业大模型的计算量本质上是一个能源转化成智能的过程。如果我投入了更多的能源,我就会有更多的智能,中间转化率取决于我的算法的有效性。如果我假设你算法是一样的,那么你有多少智能就完全取决于你有多少能源... 通用模型一定会取代垂直行业模型,因为前者的能耗大好几个数量级,对应的智能也会高几个数量级,并且差距会越来越大。短期内,垂直行业模型在一些封闭的行业内会有专有数据优势,但因为数据的流动性很高,“再封闭的行业,都很难阻止数据的扩散,超级入口会变成数据黑洞把各种数据吸纳进来,行业模型的优势会消失。” - 如何衡量算法的有效性?最重要的标准其实是模型的压缩比。如果基于第一性原则来思考,智能的首要任务就是优化压缩,那么提升压缩比就意味着智能的增强。在一个足够大的数据集上,模型的压缩比有多大就能衡量出模型的优劣。例如,OpenAI的GPT-4可能在某些领域已经达到了30多的压缩比,而一些开源的模型的压缩比可能只有10出头,所以空间还是非常大的。 - 技术三段论。每项技术基本都会历经原理探索期、技术创新期以及纯产品应用阶段三个阶段。第一阶段意味着公众对于技术的第一性原理还不清晰,一切刚刚开始萌芽;第二阶段则指的是第一性原理已经清晰,但是仍然存在技术创新的空间,领先的公司会有显著的技术优势;最后一个阶段,当技术已经足够成熟了,可获得性很高了,就是纯产品的机会,网络效应建立。两三年前,NLP、CV这些技术都处于第一阶段。如今,我们已经来到第二阶段,AI的第一性原理已经被大量证据所证明从GPT1到GPT4,我们会发现,人类文明的总和,数字化之后都可以变成硬盘上的数据,无论是文字、语音还是视频,只要我们有合适的办法,去对这些数据做最大限度的规模化无损压缩,就能实现非常高程度的“智能”。这就是AI的第一性原理。在第二阶段,第一性原理已经清晰的情况下,理论上我们只需要一条道走到黑,去想更好的办法尽可能地去对整个人类文明进行压缩,然后就能在技术上实现较高程度的智能化。我最喜欢的例子是等差数列。假设说目前我有1万个数字要去压缩,在我一无所知的情况下,我所能做的仅仅只是把这1万个数字存下来。但是,如果我能够知道这些数的底层运行规律,我知道等差数列,那我就只需要存两个数字,其他9998个数字就能被还原出来。而“更好的办法”也是第二阶段与第三阶段的分野。在这个方向上,我们看到大约5年的窗口期之中,我们需要去解决目前看到的问题,不断技术创新,让技术变得更加通用和低门槛,最终推动大规模的产品化。在这个阶段,更好的模型质量通常会直接带来更好的用户体验,通过技术驱动的公司会拥有更大的产品优势。如果我们去看美国市场,目前领先的公司例如OpenAI, Anthropic, Inflection, Character AI, Midjourney,无一不是通过Model as an application的方式,通过技术优势来形成产品上的体验优势。 - 如果时间足够长,Transformer肯定会被更好的模型替代。比如,如果你想处理10万的context,你肯定不能使用原始的Transformer。如果你想处理分钟级别的长视频,使用原始的Transformer可能不是最优方案。但在短期三到五年内,更大的可能性是在Transformer的核心思想上进行优化。 - 真正的多模态模型还未出现。基于Diffusion Model的技术路径,一个重大问题是你没有办法去做真正的跨模态建模,只能基于很简单的文本向量去做decoding。本质上,它并没有对不同模态的联合概率去做一个可规模化的建模,这制约着这些模型去发挥更大的价值。从可规模化这个点上,我个人认为,长期来看,可能Autoregressive model(自回归模型)能够更通用得对不同模态去建模,长期会有更大的上升空间。 - 如何超越现有数据的限制。未来的大模型肯定不会停留在压缩现有的数据,而是会自主进行探索、在探索过程中生成和筛选数据、并进行压缩。一个很典型的例子是围棋,如果AI通过压缩已有的棋谱,很难在围棋水平上超越最顶尖的人类棋手。相同地,如果是我们想训练一个能达到IOI金牌水平的编程AI,那么仅仅通过压缩现有的题解也是很难做到的。我们需要让编程AI自己去搜索不同的解法,在搜索的过程中评判解法的可行性,从而对解空间进行更全面的探索。在科学领域也是一样,如果AI可以自主探索解空间,那么就可以发现人类还未发现的新知识。长期来说,通用地解决这个问题会产生超级智能(super intelligence)。 - 最终,大模型团队比拼的是人才密度。人才的稀缺性大于资本的稀缺性。目前,人才正开始从细分的NLP、CV、RL等领域向大模型公司集中。对团队来说,最难的是算法创新和工程实现。工程实现能力决定了你技术能力的下限,而算法创新能力决定了技术上限。

相关推荐

封面图片

这期播客阐述了一些真格对 GenAI 投资上的逻辑和观点,包括一些“非共识”。比较有趣的几个点:

这期播客阐述了一些真格对 GenAI 投资上的逻辑和观点,包括一些“非共识”。比较有趣的几个点: 1. @yusen 认为,这一波 GenAI 在“全自动”、“通用性”和“具身性” 这三个点上都被高估了,换句话说,现阶段真格更愿意投资那些辅助性(半人工)的、数字化(不涉及物理世界)的、领域专用(而非泛化)的GenAI Deal。 - autopilot 被高估了,copilot 更实际一些。现阶段在生产环境对可靠性和可解释性的要求,导致必须有human in the loop,用 copilot 的模式给 AI 指导监督,同时提供反馈数据; - general 通用性和泛化性被高估了,specialized 更实际一些。领域专用的 AI 应用会比通用的 AI 应用更早落地; - physical 具身智能被高估了,digital 更实际一些。具身智能在科研上还有大量的难题没有被解决,参考自动驾驶,从 2004 年的 DARPA 挑战赛到现在,花了足足 20 年的时间,但 L2 的 FSD 还没彻底落地。因此,真实世界中的挑战远比想象中更大。(个人比较赞同,但不少投资人都很中意通用/人型机器人,详见暗涌的文章《当月之暗面和MiniMax的投资人坐在一起》。) 2. 认为当下的 AI 一定有泡沫,但关键是泡沫下的啤酒有多少。泡沫未必有害,从历史上来看,泡沫会催生大量的基建,这些基建在当时是冗余的,但在之后会派上用场。另外,泡沫时代浪大鱼也大,伟大的公司都是泡沫时代的剩者。 3. 很多人都将 AI 与移动互联网的发展进行类比和印证,但二者的区别在哪里?yusen 认为,相比移动互联网人人都能做 App,AI 时代技术的限制更多;AI 时代,缺少新硬件导致纯软件很难建立壁垒,对创业公司的挑战更大(而移动互联网时代,智能手机对所有人来说都是新事物,起跑线是相同的);AI 时代创业的资本投入更大;AI 时代的模型是阶梯型创新,而移动互联网的基建是连续性创新,等等。 换句话说,假如硬要类比移动互联网,最简单粗暴的问题其实是:4G 什么时候来?没有 4G 的普及,那么抖音、滴滴、美团外卖、微信支付、拼多多的故事大都不成立,投再多的钱和再牛的创始人也没用,移动互联网或许只有微信和今日头条能跑出来,结果会是一个远远不够 sexy 的时代。

封面图片

阿联酋将推出受DeepSeek启发的大语言模型

阿联酋将推出受DeepSeek启发的大语言模型 阿联酋高级官员费萨尔·班奈(Faisal Al Bannai)透露,阿联酋正计划推出受中国 DeepSeek 启发的大语言模型。 阿联酋 “猎鹰 ”大语言模型的推动者班奈说,DeepSeek 对美国科技巨头的挑战表明,在争夺人工智能主导权的竞争中,领域是开放的。 阿联酋正在大力发展这项变革性技术,以推动经济多元化,摆脱石油的依赖。 班奈说,他对DeepSeek感到振奋,这是一种高性能、低成本的人工智能模型,在推出后让美国科技股暴跌。 阿联酋于 2023 年推出了 Falcon,这是一个大型语言模型,与包括 OpenAI 的 ChatGPT 在内的行业领先者相比毫不逊色。 除了 Falcon,阿联酋还开发了阿拉伯语人工智能聊天机器人 Jais,同时在很大程度上实现了政府服务的数字化和自动化。 阿联酋还积极发展实体基础设施,最近几周承诺出资数百亿美元在法国和美国建设数据中心。

封面图片

这是构成Sora基础之一的Diffusion Transformer论文作者关于Sora的一些猜测和技术解释。

这是构成Sora基础之一的Diffusion Transformer论文作者关于Sora的一些猜测和技术解释。 这个老哥可能是除了这篇论文的另一个作者(现在在Open AI工作)之外最懂Diffusion Transformer的人了,非常值得关注。 有趣的是这篇论文曾经在2023年的计算机视觉会议(CVR2023)上因“缺少创新性”而遭到拒绝,短短一年时间就变成了Sora这怪物模型的理论基础。 -正文开始- 以下是我对Sora技术报告的解读,其中包含了一些可能并不准确的猜测。首先,我非常感谢团队分享了极为有价值的见解和设计决策Sora确实令人惊叹,它将彻底改变视频生成领域。 我们目前所了解到的情况如下: 架构:Sora基于我们的扩散变换器(Diffusion Transformer,简称DiT)模型构建,该模型已发表在2023年国际计算机视觉会议(ICCV 2023)上。简单来说,它是一个结合了变换器(Transformer)主干的扩散模型: DiT = [变分自编码器(VAE)编码器 + 视觉变换器(ViT)+ 去噪扩散概率模型(DDPM)+ VAE解码器]。 根据报告,这个模型似乎没有太多额外的复杂设计。 “视频压缩网络”:这看起来就像是一个在原始视频数据上训练的变分自编码器(VAE)。在实现良好的时间一致性方面,标记化(Tokenization)可能扮演着关键角色。顺便提一下,VAE本质上是一个卷积网络,所以从技术上说,DiT实际上是一个混合模型。 ;) 当Bill和我参与DiT项目时,我们并未专注于创新(详见我之前的推特),而是将重点放在了两个方面:简洁性和可扩展性。这些优先事项带来的不仅仅是概念上的优势。 简洁性代表着灵活性。关于标准的视觉变换器(ViT),人们常忽视的一个亮点是,它让模型在处理输入数据时变得更加灵活。例如,在遮蔽自编码器(MAE)中,ViT帮助我们只处理可见的区块,忽略被遮蔽的部分。同样,Sora可以通过在适当大小的网格中排列随机初始化的区块来控制生成视频的尺寸。而UNet并不直接提供这种灵活性。 猜测:Sora可能还使用了Google的Patch n’ Pack(NaViT)技术,使DiT能够适应不同的分辨率、持续时间和长宽比。

封面图片

一些使用国产 AI 大模型的细节限制。

一些使用国产 AI 大模型的细节限制。 1.kimi 的文本生成很强,但没有数据分析能力,会把上传的 Excel 识别为文本。kimi 无法识别图片,只能识别图片的文本,OCR。 2.智谱清言可以识别图片内容,可以做数据分析,但是要用数据分析的智能体,经常抽风。你不和他特地强调 Excel 里有几个 sheet,他只默认识别第一个 sheet。 3.coze 里上传 Excel 分析的体验很差,coze 的知识库是无法理解数据集的,还是当成文本来处理。

封面图片

[整理] Boris Dayma 对谷歌 Gemma 技术报告的一些总结,觉得技术报告太长懒得看的可以看看:

[整理] Boris Dayma 对谷歌 Gemma 技术报告的一些总结,觉得技术报告太长懒得看的可以看看: ◆这个模型的架构(architecture)和llama非常相似。 ◆7B模型使用了惊人的6T tokens! ◆词汇量巨大。 ◆在前馈神经网络(FFN)中使用了GeGLU,我希望他们能对那里使用的维度进行更深 ...

封面图片

AI领域里面大家可能更多关注的是LLM相关的内容,但是AI画图的一些数据往往难以找到。

AI领域里面大家可能更多关注的是LLM相关的内容,但是AI画图的一些数据往往难以找到。 今天一个团队发布了一份关于AI画图领域的数据分析,里面的数据显示过去一年多时间AI生产的图片数量已经超过了150年间人类拍摄的所有照片数量,太离谱了。 详细的内容可以看这里: 下面是这个数据分析的主要内容: →自去年以来,使用文本转图像算法创建了超过 150 亿张图像。客观地说,从 1826 年拍摄第一张照片到 1975 年,摄影师花了 150 年的时间才达到 150 亿张大关。 →DALLE-2 推出以来,人们平均每天创建 3400 万张图像。 →增长最快的产品是 Adobe Firefly,自推出以来仅三个月内就创建了 10 亿张图像。 →Midjourney 拥有 1500 万用户,是公开统计的所有图像生成平台中最大的用户群。 →大约 80% 的图像(即 125.9 亿张)是使用基于开源 Stable Diffusion 的模型、服务、平台和应用程序创建的。 DALL-E 2 2022 年 4 月,OpenAI 发布了其图像生成模型 DALL-E 2。然后 OpenAI 报告称,用户每天使用 DALL-E 2 生成超过 200 万张图像。我们不确定 OpenAI 所说的这个数字意味着什么时间段,或者他们是否获取了生成的平均图像量。我们假设这是一个平均值,这意味着 15 个月内在单个平台上生成了大约 9.16 亿张图像。 Midjourney Midjourney 于 2022 年 7 月上线。根据 Photutorial 的估计,Midjourney 的 Discord(该算法只能通过 Discord 获得)每秒接收约 20 至 40 个作业,拥有 1500 万注册用户和 150 万至 250 万活跃用户任何特定时间的成员。考虑到这一点,我们使用每秒 30 个作业作为平均创建图像数,每天创建多达 250 万个图像。因此,自 Midjourney 推出以来,已创建了 9.64 亿张图像。 Stable Diffusion

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人