* 上下文在接下来还有很大扩展空间,会有几个数量级,不能只看长度,要看它在这个窗口下能实现的推理能力、the faithfuln

*上下文在接下来还有很大扩展空间,会有几个数量级,不能只看长度,要看它在这个窗口下能实现的推理能力、thefaithfulness的能力(对原始信息的忠实度)、theinstructionfollowing的能力(遵循指令的能力)——不应该只追求单一指标,而是结合指标和能力。*除了综合能力,在很多空间可以产生独特的能力,能在一些方向做到stateoftheart(世界领先),比如MidjourneyV6。*三年后会有一定程度的AGI。我们今天在做的很多事AI也能做,甚至它做得更好。但关键看我们怎么用它。*月之暗面接下来的两件事第一件是世界模型,第二件AI持续进化的能力。*(GPT-4)是AGI的必经之路。核心是,不能只满足做到GPT-4的效果。一是要想现在真正的非共识是什么,除了GPT-4,下一步是什么?GPT-5和GPT-6应该是什么样?二是看,你在这里面有哪些独特能力,这点更重要。*月之暗面北极星指标:独特价值是你增量的智能。要抓住这个点,智能永远是最核心的增量价值。如果你这个产品最核心价值只有10%-20%来自于AI,就不成立。*AI不是我在接下来一两年找到什么PMF,而是接下来十到二十年如何改变世界,你的目的假设是商业化,你不可能脱离AGI去思考。只做应用很容易被碾压。*技术是这个时代唯一新变量,其他变量没变。AGI是所有事情的核心。*为什么开源追不上闭源?因为开源的开发方式跟以前不一样了,以前是所有人都可以contribute(贡献)到开源,现在开源本身还是中心化的。*这一轮和上一轮创业的最大区别就是,这次会更加技术驱动。*Sora主要瓶颈,核心还是数据,你怎么去规模化地拟合这个数据?之前没被验证过。剩下的是它也没有完全解决,比如需要一个统一的architecture(架构)。DiT这个architecture仍然不是非常通用。*Sora现在就有点像(视频生成的)GPT-3.5,是阶跃式提升。*Sora+GPT会产生什么?对世界的理解更好了,可以在数字世界里做更加端到端的任务,甚至去架起一座桥梁,连接物理世界,完成一些物理世界里的任务。这是起点(这也是OpenAI投资机器人公司的原因?)。*我个人判断至少在接下来一到两年,卡不会成为很大瓶颈。*招人思路发生过一些变化。世界上AGI人才非常有限,有经验的人很少。我们最早期的画像是,专注找对口的genius(天才)。*解决幻觉问题主要还是靠scalinglaw,就是scale的是不一样的东西。*在能力上应该今年下半年会有一些比较大的突破,很多会来自OpenAI,它肯定还有下一代模型——有可能是4.5,也有可能是5,感觉是大概率事件。视频的生成模型肯定还能继续scale。*国内大模型公司的预测:一是可以看到新的独特能力产生。你会看到国产模型,因为前期的投入,有合适的团队,做出世界领先的某一些维度的能力。二是会出现更多用户量级更大的产品,这是大概率的。三是会有进一步的consolidation和路线选择的分化。访谈原文:

相关推荐

封面图片

百川智能宣布推出Baichuan2-192K 上下文窗口长超GPT-4约14倍

百川智能宣布推出Baichuan2-192K上下文窗口长超GPT-4约14倍今年9月25日,百川智能宣布已开放Baichuan2的API接口,进军企业级市场,开启商业化进程。此次Baichuan2-192K将以API调用和私有化部署的方式提供给企业用户,目前百川智能已启动Baichuan2-192K的API内测,开放给法律、媒体、金融等行业的核心合作伙伴。上下文窗口长度是大模型的核心技术之一,通过更大的上下文窗口,模型能够结合更多上下文内容获得更丰富的语义信息,更好的捕捉上下文的相关性、消除歧义,进而更加准确、流畅的生成内容,提升模型能力。...PC版:https://www.cnbeta.com.tw/articles/soft/1393115.htm手机版:https://m.cnbeta.com.tw/view/1393115.htm

封面图片

Google全新大模型突然发布:百万上下文 仅靠提示学会新语言

Google全新大模型突然发布:百万上下文仅靠提示学会新语言现在仅仅中杯1.5Pro版就能越级打平上一代大杯1.0Ultra版,更是在27项测试中超越平级的1.0Pro。支持100万token上下文窗口,迄今为止大模型中最长,直接甩开对手一个量级。这还只是对外发布的版本,Google更是透露了内部研究版本已经能直冲1000万。现在Gemini能处理的内容,可换算成超过70万单词,或1小时视频、11小时音频、超过3万行代码。没错,这些数据模态Gemini1.5都已经内建支持。从今天起,开发者和客户就可以在VertexAPI或AIStudio申请试用。刚刚收到消息还在震惊中的网友们belike:还有人直接@了OpenAI的奥特曼,这你们不跟进一波?上下文理解能力拉满目前Google已放出三个不同任务的演示视频,只能说Gemini1.5是个抽象派(doge)。在第一段演示视频中,展示的是Gemini1.5处理长视频的能力。使用的视频是巴斯特·基顿(BusterKeaton)的44分钟电影,共696161token。演示中直接上传了电影,并给了模型这样的提示词:找到从人的口袋中取出一张纸的那一刻,并告诉我一些关于它的关键信息以及时间码。随后,模型立刻处理,输入框旁边带有一个“计时器”实时记录所耗时间:不到一分钟,模型做出了回应,指出12:01的时候有个人从兜里掏出了一张纸,内容是高盛典当经纪公司的一张当票,并且还给出了当票上的时间、成本等详细信息。随后经查证,确认模型给出的12:01这个时间点准确无误:除了纯文字prompt,还有更多玩法。直接给模型一张抽象“场景图”,询问“发生这种情况时的时间码是多少?”。同样不到一分钟,模型准确给出了的电影对应的时间点15:34。在第二段演示视频中,Google展示了Gemini1.5分析和理解复杂代码库的能力。用到的是Three.js,这是一个3DJavascript库,包含约100000行代码、示例、文档等。演示中他们将所有内容放到了一个txt文件中,共816767token,输入给模型并要求它“找到三个示例来学习角色动画”。结果模型查看了数百个示例后筛选出了三个关于混合骨骼动画、姿势、面部动画的示例。这只是开胃小菜。接下来只用文字询问模型“动画LittleTokyo的demo是由什么控制?”模型不仅找到了这个demo,并且解释了动画嵌入在gLTF模型中。并且还能实现“定制代码”。让模型“给一些代码,添加一个滑块来控制动画的速度。使用其它演示所具有的那种GUI”。Gemini1.5分分钟给出了可以成功运行的代码,动画右上角出现了一个可控速的滑块:当然也可以做“代码定位”。仅靠一张demo的图片,Gemini1.5就能在代码库中从数百个demo中,找到该图对应动画的代码:还能修改代码,让地形变得平坦,并解释其中的工作原理:修改代码这一块,对文本几何体的修改也不在话下:第三个演示视频展示的是Gemini1.5的文档处理能力。选用的是阿波罗11号登月任务的402页PDF记录,共326658token。要求Gemini1.5“找到三个搞笑时刻,并列出文字记录以及表情符号引述”:30秒,模型给出了回应,其一是迈克尔·柯林斯的这句话“我敢打赌你一定要喝一杯咖啡”,经查询文档中的确有记录:更抽象一点,绘制一个靴子的图片,询问模型“这是什么时刻”。模型正确地将其识别为这是Neil在月球上的第一步:最后同样可以询问模型快速定位这一时刻在文档中对应的时间位置:差不多的抽象风同样适用于1382页、732000token的《悲惨世界》,一张图定位小说位置。仅从提示词中学会一门新语言对于Gemini1.5的技术细节,Google遵循了OpenAI开的好头,只发布技术报告而非论文。其中透露Gemini1.5使用了MoE架构,但没有更多细节。与上代1.0Pro相比,1.5Pro在数学、科学、推理、多语言、视频理解上进步最大,并达到1.0Ultra层次。为验证长上下文窗口的性能,使用了开源社区通行的大海捞针测试,也就是在长文本中准确找到可以藏起来的一处关键事实。结果50万token之前的表现非常完美,一直到千万token,Gemini1.5也只失误了5次。此外还将测试扩展到多模态版本,如在视频画面的某一帧中藏一句话,给的例子是在阿尔法狗的纪录片中藏了“Thesecretwordis‘needle’”字样。结果在视频、音频测试中都实现了100%的召回率。特别是音频中,对比GPT-4+Whisper的结果,差距非常明显。此外GoogleDeepMind团队还测试了一项高难任务,仅通过长提示词让模型学会全新的技能。输入一整本语法书,Gemini1.5Pro就能在翻译全球不到200人使用的Kalamang上达到人类水平。相比之下,GPT-4Turbo和Claude2.1一次只能看完半本书,想获得这个技能就必须要微调或者使用外部工具了。也难怪有网友看过后惊呼,“哥们这是要把RAG玩死啊”。OneMoreThingGoogle还公布了一波已在业务中采用Gemini大模型的客户。其中有三星手机这样的大厂,也有像Jasper这种靠GPT起家的创业公司,甚至OpenAI董事AdamD‘Angelo旗下的Quora。与OpenAI形成了直接竞争关系。对此,一位网友道出了大家的心声:真希望这能促使OpenAI发布他们的下一代大模型。参考链接:[1]https://twitter.com/JeffDean/status/1758146022726041615[2]https://storage.googleapis.com/deepmind-media/gemini/gemini_v1_5_report.pdf[3]https://blog.google/technology/ai/google-gemini-next-generation-model-february-2024/#gemini-15...PC版:https://www.cnbeta.com.tw/articles/soft/1418747.htm手机版:https://m.cnbeta.com.tw/view/1418747.htm

封面图片

看了几遍腾讯新闻对月之暗面杨植麟的专访,把我认为一些认同的重点的内容记了一下,分成两部分重点的底层认知和其他要点。各位有什么看法

看了几遍腾讯新闻对月之暗面杨植麟的专访,把我认为一些认同的重点的内容记了一下,分成两部分重点的底层认知和其他要点。各位有什么看法也可以在下面讨论。重点认知:*AI组织的要素:更多的人才,更多的资本。*AI不是我在接下来一两年找到什么PMF,而是接下来十到二十年如何改变世界。*真正的AGI肯定是全球化的,不存在由于某种保护机制你可以只做某个区域的AGI公司,全球化、AGI、和大用户量产品是成功的必要条件。*AI领域接下来的竞争中会有更多的差异化,需要提前做预判和准备到底什么是“成立的非共识”。*接下来会有两个大的milestone(里程碑)。一是真正的统一的世界模型,就是它能统一各种不同模态,一个真正的scalable和general的architecture(可扩展、通用的系统结构)(Sora启发)。二是能在没有人类数据输入的情况下,使AI持续进化(详细见AK10月份视频倒数第二部分)。*“应用”本身是实现AGI的手段,也是实现AGI的目的。*AI唯一work就是nexttokenprediction+scalinglaw,只要token足够完整,都是可以做的。*想知道但还不知道的事情:我不知道AGI的上限是什么样的,它会产生一个什么样的公司,这个公司能产生出来什么样的产品。这是我现在最想知道的事。(重点)其他要点:*“搞定”不是一个好的词,背后本质是合作。合作就是能双赢,因为双赢是合作的前提。所以也没什么区别,需要给别人提供独特价值*为AI时代的组织形式,有很多自顶向下的规划,但规划中又有创新空间,并不是所有技术都确定。*Sam去微软里领导新的团队有什么问题?需要在就文化中产生新组织,难度很大(这也是很多大厂选择投资而不是自己做的原因?)。*AGI最终会是一个跟所有用户协作产生的东西。所以,不光是技术,也需要功利主义和现实追求。*长文本是新计算机的内容(AK在10月份的科普视频最后有类似比喻),要变成通用的世界模型,是需要longcontext的。*重要内容是个性化,AI最核心的价值是个性化互动,价值落脚点还是个性化,AGI会比上一代推荐引擎更加个性化。

封面图片

【CoinList:将在接下来的7天内免除所有Neon提款费用】

【CoinList:将在接下来的7天内免除所有Neon提款费用】2023年07月20日06点24分老不正经报道,CoinList发布官方推文称,平台继续遇到NEON提现问题。我们知道这对于任何试图提取代币的人来说都是令人沮丧的,团队将继续与合作伙伴合作,以安全地扩大提款能力。由于这不是我们努力提供的服务水平,因此将在接下来的7天内免除所有Neon提款费用,并将在接下来的48小时内取消NEON交易费用,我们已经确定了阻止我们的系统处理需求的根本问题,并正在努力解决这些问题以供将来的分配和列表使用,请放心,资金是安全的,提款将得到处理。

封面图片

【Elon Mask:接下来几个月,X将增加全面沟通和管理用户整个金融世界的能力】

【ElonMask:接下来几个月,X将增加全面沟通和管理用户整个金融世界的能力】2023年07月25日10点12分7月25日消息,ElonMask在社交媒体上针对推特更名一事发文回应表示,Twitter被XCorp收购,既是为了确保言论自由,也是为了推动X的一切应用程序。这并不是简单的公司更名,而是(X生态)在做同样的事情。Twitter的名字在当时只有140个字符的信息来回传递时很有意义——就像鸟儿鸣叫一样——但现在你几乎可以发布任何内容,包括几个小时的视频。在接下来的几个月中,X将增加全面沟通和管理用户整个金融世界(financialworld)的能力。Twitter的名字在这种情况下没有任何意义,所以必须告别这个名字了。

封面图片

英伟达Jim Fan反击扎克伯格AI“寒冬”论:AI领域还有巨大潜力

英伟达JimFan反击扎克伯格AI“寒冬”论:AI领域还有巨大潜力JimFan的观点概括来说如下:他不认为当前会出现“人工智能(AI)冬天”的现象,即AI发展遇到停滞。即便GPT-5等大型语言模型的发展可能会放缓,但AI的其他领域如机器人技术仍有巨大的发展空间;他强调了具身智能(EmbodiedIntelligence)在物理世界中的重要性。机器人等能够在现实环境中运作的人工智能系统,未来将是创造经济价值的强大动力;他提醒大家,大型语言模型(LLM)只是人工智能领域的一小部分,人工智能是由多种不同技术组成的“大拼图”。扎克伯格作为科技巨头,几乎拥有实现AGI一切资源,如果你去仔细看Llama3发布作者小扎也在里面,也就是说小扎同时还在技术一线,小扎既是技术乐观主义者,也是人工智能能力现实主义者。他并不宣扬AI奇点或接管人类的神话故事。只是冷酷的现实告诉我们,依赖GPU计算能力的这一特定发展曲线可能无法一路无阻地持续攀升,AGI的确短时期不会实现,而马斯克的预言却完全相反,马斯克认为明年底人工智能就会超过所有人类,马斯克也表达了未来10年人形机器人部署和产量将会超过iPhone,这与JimFan的观点一致。目前Llama370B在人工智能竞技场排名中已经接近最强的GPT4模型,要知道GPT4模型参数高达1800B,Llama3400B还在训练中,预期可以超越GPT4,这将是开源模型第一次超越GPT4,未来几个月将会发布,有人预测GPT5将会在Llama3400B发布之前推出,要不然大家肯定不会去继续订阅了,但现在问题是除非GPT5非常强,如果只是平常升级,OpenAI的算盘接下来可就不好打了,所以GPT5是非常关键的。结语JimFan非常看好具身智能机器人发展,这也是英伟达重点投资领域,所以接下来怎么样呢?你认为以下机器人那个更有前途?...PC版:https://www.cnbeta.com.tw/articles/soft/1428319.htm手机版:https://m.cnbeta.com.tw/view/1428319.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人