终于稍微啃完了陆奇博士的大模型内部分享材料,摘录几个印象深刻的要点和大家分享~

终于稍微啃完了陆奇博士的大模型内部分享材料,摘录几个印象深刻的要点和大家分享~ 1. 当宇宙间智能的成本为0,世界将经历一场深刻的变革。 在1995年至1996年之间,借助个人电脑,互联网出现了一个转折点。 为何出现这个转折点以及为何产生大量的爆炸式增长?理解这个转折点有助于我们理解今天 OpenAI 所代表的新范式。 当时,大量公司应运而生,其中诞生了谷歌这样一家伟大的公司。 获取信息的边际成本逐渐变成了固定成本。请记住,任何改变社会和产业的永远是结构性改变,而这类改变往往涉及大成本。 看到这里想起王怀南老师在某期播客中谈到: 当宇宙间存在的智能,边际成本是0。可以想象另一个世界,如果能源的成本是0,所有能源的事业就毁了 沙特阿拉伯居然不是富裕的国家,伊朗战争就结束了…… 2. 我们每个人都是三种模型的组合。 第一,认知模型,我们能看、能听、能思考、能规划; 第二,任务模型,我们能爬楼梯、搬椅子、剥鸡蛋,我们有一大堆的任务模型。 第三,领域模型,我们可以是医生、律师、码农…… 我们对社会的所有贡献都是这三种模型的组合,我们所有的价值也都是这三种模型的组合。 我们今天每个人不是靠我们手和腿的力量来赚钱的,而是靠脑袋。简单想一想,我们每个人,如果你没有自己的思考和见解,你的一些通用能力都能在大模型里逐步找到,未来唯一有价值的是独到的见解。 3. OpenAI 首席科学家伊利亚·苏茨克弗坚信,GPT-3.5 已经具有一个世界模型。虽然它的目标是预测下一个词,但这只是一个优化手段。它已经表达了世界的信息,并能够持续提高模型能力,特别是在子概念空间中进行泛化。 GPT的全称:Generative Pre-trained Transformer,T是预训练之后的Transformer,可以把信息高度压缩。 Transformer具备更好的泛化能力,就像人类在理解问题时看到了本质、掌握了规律。比如一张空间图,里头有1亿个星星,我们要拍1亿个星星的照片,数据量大到不得了,但后来我们发现,其实只要一张小照片就能看到世界。因为有些数据是不关键的,就像画一个人*神似*很关键。 4. 生产资本全面提升,每个行业的心跳都在加快。 生产资本将从两个方面得到全面提升。 首先,它能降低所有脑力劳动成本并提高产能。

相关推荐

封面图片

:中文自媒体大模型虽然LLaMA模型在通用领域通过指令参数已经提升了展示令人印象深刻的性能,但对于自媒体创作、直播和运营等领域,

:中文自媒体大模型 虽然LLaMA模型在通用领域通过指令参数已经提升了展示令人印象深刻的性能,但对于自媒体创作、直播和运营等领域,由于缺乏专业的训练数据,其能力增幅待提高。为了解决这个问题,我们提出了Media LLaMA,一个针对自媒体领域进行特殊训练的模型。 Media LLaMA 首先在大规模自媒体语料上进行连续预训练,系统地学习自媒体的知识体系。然后,我们借助 ChatGPT 收集了有关抖音运营、短视频创作、巨量千川投放、直播运营和直播话术技巧等领域知识问题的分析和解答,并利用这些数据对模型进行指令调整,使模型习得如何将自媒体知识应用到实际场景中。 模型具有以下能力: 掌握自媒体知识:能够理解抖音运营、短视频创作、巨量千川投放、直播运营等领域的核心概念和策略。 适用于实际操作:能够以通俗易懂的语言解释自媒体概念,并进行基础的自媒体运营咨询,主题内容创作、平台运营、广告投放等领域。

封面图片

AI21发布世界首个Mamba的生产级模型:Jamba

AI21发布世界首个Mamba的生产级模型:Jamba 开创性的SSM - Transformer架构 52B 参数,12B 在生成时处于活动状态 16 位专家,生成过程中仅2个专家处于活跃状态 结合了Joint Attention和Mamba技术 支持 256K 上下文长度 单个 A100 80GB 最多可容纳 140K 上下文 与 Mixtral 8x7B 相比,长上下文的吞吐量提高了 3 倍 Jamba结合了Mamba结构化状态空间(SSM)技术和传统的Transformer架构的元素,弥补了纯SSM模型固有的局限。 背景知识 Jamba代表了在模型设计上的一大创新。这里的"Mamba"指的是一种结构化状态空间模型(Structured State Space Model, SSM),这是一种用于捕捉和处理数据随时间变化的模型,特别适合处理序列数据,如文本或时间序列数据。SSM模型的一个关键优势是其能够高效地处理长序列数据,但它在处理复杂模式和依赖时可能不如其他模型强大。 而"Transformer"架构是近年来人工智能领域最为成功的模型之一,特别是在自然语言处理(NLP)任务中。它能够非常有效地处理和理解语言数据,捕捉长距离的依赖关系,但处理长序列数据时会遇到计算效率和内存消耗的问题。 Jamba模型将Mamba的SSM技术和Transformer架构的元素结合起来,旨在发挥两者的优势,同时克服它们各自的局限。通过这种结合,Jamba不仅能够高效处理长序列数据(这是Mamba的强项),还能保持对复杂语言模式和依赖关系的高度理解(这是Transformer的优势)。这意味着Jamba模型在处理需要理解大量文本和复杂依赖关系的任务时,既能保持高效率,又不会牺牲性能或精度。 ||

封面图片

Stability AI 发布了他们最强的图片生成模型 Stable Diffusion 3 的技术报告,披露了 SD3 的更多

Stability AI 发布了他们最强的图片生成模型 Stable Diffusion 3 的技术报告,披露了 SD3 的更多细节。 据他们所说,SD3 在排版质量、美学质量和提示词理解上超过了目前所有的开源模型和商业模型,是目前最强的图片生成模型。 技术报告要点如下: ◆根据人类偏好评估,SD3 在排版质量和对提示的理解程度上,均优于目前最先进的文本生成图像系统,例如 DALL·E 3、Midjourney v6 和 Ideogram v1。 ◆提出了新的多模态扩散 Transformer (Multimodal Diffusion Transformer,简称 MMDiT) 架构,其使用独立的权重集分别表示图像和语言。与 SD3 的先前版本相比,该架构改善了系统对文本的理解能力和拼写能力。 ◆SD3 8B 大小的模型可以在 GTX 4090 24G 显存上运行。 ◆SD3 将发布多个参数规模不等的模型方便在消费级硬件上运行,参数规模从 800M 到 8B 。 ◆SD3 架构以 Diffusion Transformer (简称"DiT",参见 Peebles & Xie,2023)为基础。鉴于文本嵌入和图像嵌入在概念上存在较大差异,我们为这两种模态使用了独立的权重集。 ◆通过这种方法,信息得以在图像 Token 和文本 Token 之间流动,从而提高了模型生成结果的整体理解力和排版质量。我们在论文中还讨论了如何轻松地将这一架构扩展至视频等多模态场景。 ◆SD3 采用了矫正流 (Rectified Flow,简称 RF) 的公式 (Liu et al.,2022;Albergo & Vanden-Eijnden,2022;Lipman et al.,2023),在训练过程中,数据和噪声被连接在一条线性轨迹上。这导致了更直的推理路径,从而可以使用更少的步骤进行采样。 ◆扩展矫正流 Transformer 模型:使用重新加权的 RF 公式和 MMDiT 主干网络,对文本到图像的合成任务开展了模型扩展研究。我们训练了一系列模型,其规模从 15 个 。Transformer 块 (4.5 亿参数) 到 38 个块 (80 亿参数) 不等。

封面图片

华为发布 DiT 架构的图像生成模型,可以直出 4K 分辨率图像。

华为发布 DiT 架构的图像生成模型,可以直出 4K 分辨率图像。 论文简介: 我们引入了 PixArt-\Sigma,一个能够直接生成 4K 分辨率图像的 Diffusion Transformer (Diffusion Transformer, DiT) 模型。相比其前身 PixArt-\alpha,PixArt-\Sigma 有了显著进步,提供了明显更高保真度的图像,并改进了与文本提示的一致性。 PixArt-\Sigma 的一个关键特点是其训练效率。借助 PixArt-\alpha 的基础预训练,它通过合并更高质量的数据,从"较弱"的基线演变为"较强"的模型,我们将这个过程称为"弱到强训练"。PixArt-\Sigma 的进步主要体现在两个方面: 高质量训练数据:PixArt-\Sigma 结合了更高质量的图像数据,与更精确和详细的图像标题配对。 高效的 Token 压缩:我们在 DiT 框架内提出了一个新的注意力模块,可以压缩键 (Key) 和值 (Value),显著提高效率,并促进超高分辨率图像生成。 得益于这些改进,PixArt-\Sigma 以显著较小的模型规模 (6 亿参数) 实现了优于现有文本到图像扩散模型 (如 SDXL (26 亿参数) 和 SD Cascade (51 亿参数)) 的图像质量和用户提示遵从能力。 此外,PixArt-\Sigma 生成 4K 图像的能力支持创建高分辨率海报和壁纸,有效地增强了电影和游戏等行业中高质量视觉内容的制作。 项目地址:

封面图片

卧槽,Open AI的大招终于来了,发布视频生成模型 Sora,从演示来看生成时长、运动幅度以及稳定性均碾压现在的所有生

卧槽,Open AI的大招终于来了,发布视频生成模型 Sora,从演示来看视频生成时长、运动幅度以及稳定性均碾压现在的所有视频生成模型。 Sora能够创作出长达一分钟的视频,不仅保证了视频的视觉质量,还能准确响应用户的指令。将在今天想有限的访问者开放。 模型优势: Sora能够创造出包括多个角色、特定动作类型以及对主题和背景的精确细节描述的复杂场景。这款模型不仅能理解用户在指令中提出的需求,还能洞察这些元素在现实世界中是如何存在和表现的。 这款模型对语言的理解非常深刻,使其能够精准地识别用户的指令,并创造出表情丰富、情感生动的角色。此外,Sora还能在同一视频内制作多个镜头,同时确保角色的形象和整体的视觉风格保持一致。 工作原理: Sora是一种扩散模型(diffusion model),它通过从类似静态噪声的视频出发,逐步去除噪声,从而在多个步骤中生成视频。 Sora不仅能一次生成整个视频,还能延长已有视频的长度。我们通过使模型能够预见多个画面帧,解决了确保视频中主题即使暂时离开画面也能保持一致的难题。 Sora采用了类似于GPT模型的变压器架构(transformer architecture),这为其带来了优异的扩展性能。 在Sora中,视频和图像被表示为一系列小块数据,称为“补丁”(patches),每个补丁都类似于GPT中的“令牌”(token)。通过统一数据表示方式,我们能够在之前不可能的更广泛视觉数据范围内训练扩散变压器,包括不同的时长、分辨率和长宽比。 Sora基于DALL·E和GPT模型的研究成果。它采用了DALL·E 3中的重标记技术(recaptioning technique),为视觉训练数据生成详细描述的标题。因此,模型能更准确地遵循用户在生成视频中的文字指令。 除了能从文字指令生成视频外,Sora还能将现有静止图像转化为视频,准确地动态展现图像内容并关注细节。此外,它还能扩展现有视频或填补视频中缺失的画面。 了解更多:

封面图片

重新读了那篇很有名的《囤比特币》,做了一些摘录,分享给大家:

#内幕消息 重新读了那篇很有名的《囤比特币》,做了一些摘录,分享给大家: 1、对于一个上不封顶的东西,没有必要总是纠结于底在哪里。你们来得虽晚,但并不用懊恼,来得晚是运气不好。 2、如果实在想低成本持币,猜底还不如定投。从8000元定投到900元,平均成本大概是2000元,虽然是最低点的两倍,但是只有最高点的四分之一,应该可以接受罢。 3、下车太早只因愿景太小。 4、绝大多数比特币早期玩家都已经下车,还有很多人眼睁睁看着比特币暴涨就是没上车。这对我们来说是好消息,因为如果他们现在都在车上,币价还能是几万块吗? 5、犹犹豫豫不上车,迫不及待要下车,原因或许是多方面的,但最主要的,还是因为心中的愿景不够大。愿景决定了视野,视野决定了行动。 6、比特币似乎永远都还早,我们永远不舍得卖。心中没有愿景,或许还能扛过熊市,但绝对守不住牛市。一涨你就会卖的,千万不要不信,48 万哥就是活生生的例子。 7、要做到无论牛熊,我自岿然不动,最需要想明白的问题是,它的未来到底有多大?再涨个百倍?你太悲观,百倍太少,让我来分享我的愿景。比特币最核心的应用是储值,它的未来目标就是成为人们的储值首选。 8、那么,在比特币出现之前,我们都用什么东西储值呢?也就是说,我们赚了一笔钱,除去消费余下的部分,我们会以什么形式来保存财富呢?它们主要是黄金、货币和不动产。 全球黄金的总市值是 7.7 万亿美元,广义货币总量是 90.4 万亿美元,不动产是 217 万亿美元。 那么,全球总储值市场有多大呢? 7.7 + 90.4 × 92% + 217 × 20% = 134 万亿。 而比特币总量只有 2100 万,大约有 300 万永久丢失。考虑到比特币储值相对于黄金、货币和不动产的绝对优势,每个比特币将涨到 750 万美元,折合 5000 万人民币。 世界财富总量在以每年 6% 的速度增长,假设 20 年后比特币的储值功能得到广泛认可,那时它的价格应该是 1.6 亿元人民币。 以上计算,仅仅考虑了比特币的储值功能,如果考虑其它因素,比特币的总市值会更高。 换句话说,比特币依然有千倍的增长空间。每 4 年,当产量减半,供应突然减少之后,都会迎来新一轮暴涨。 9、虽然比特币最高涨到过 10 万人民币,但是很显然,人群中的 99% 仍然不理解比特币,仍然没有持有比特币。这当然是好消息,这同样意味着,比特币的上涨空间仍然巨大。 10、比特币的价格从来没有跌落到当时主流矿机的电费成本之下,否则就会有大规模关机现象出现,算力就会下降,从而造成挖矿难度下降。因此,电费成本是比特币价格的硬支撑,这一观点,至少在历史上,都是有效的。 11、具体在什么区间内购买比特币最划算呢?同时满足两个条件:比特币价格低于200日定投平均成本,意味着在这个时候买币,可以跑赢定投的人。比特币价格低于指数增长模型的估值,意味着在这个时候,币价被低估了。 12、长期来看,我们可以把矿工成本看做基本面。在大多数时间,定投都是极佳的策略。比特币价格同时低于200日定投成本和指数增长估值的时候,就是比特币价格被低估,并且直接购买比特币比长期定投更划算的时候。现在刚刚进入两个比值小于1的区间,我们可能正在迎来史上第三次最佳囤比特币的时机,时间窗口大约一年。 13、李笑来在《韭菜的自我修养》中说过:梭哈是交易参与者的大忌,任何时候都要保留一定比例的现金。最优决策应该是,拿出部分资金囤币,推荐不超过三成,最多不能超过一半。 14、大多数早期玩家没囤住币的原因是,只要行情来了,就完全忘记了比特币的巨大愿景,只盯着眼前的一点点得失,从而忽略了踏空的巨大风险。 15、推荐学习几个方面的内容:批判性思维:这既是一种精神,也是一种技能。觉得免费的东西不值钱,就是因为你对信息缺乏鉴别能力。无论免费还是收费,我们对信息的质量要有自己的判断标准。经济学原理:不要只读奥派,不要只读一家之言。读一读经济学导论、宏观经济学、微观经济学的相关内容,重点理解货币制度、通货膨胀、储蓄、投资和金融,等方面。密码学原理:重点理解概率论、Shannon理论、公钥密码学、椭圆曲线、Hash函数、数字签名、伪随机数生成,等方面。心理学:重点理解认知过程、情绪、压力、健康、行为和态度的相互影响,等方面。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人