一篇名为《Scaling Transformer to 1M tokens and beyond with RMT》()最近在技

一篇名为《Scaling Transformer to 1M tokens and beyond with RMT》()最近在技术圈引发热议。有推友用chatgpt给这篇论文做了一个通俗易懂的总结。| 该论文提出一种名为 RMT 的新技术,或许可将 Transform 的 Token 上限扩展至 100 万,甚至更多。 而目前最强的 GPT-4-32k,其 Token 上限也才 3.2 万,这就导致了它并不能很好的处理长文内容。像文档、书籍、代码这种大块内容,往往需要先对内容进行切割,分多次喂给 GPT,但 GPT 本身能理解的上下文内容有限,这就很容易导致结果偏离预期。 如果未来 Token 的上限能够不断突破,将会创造出更多 AI 应用场景。包括之前所畅想的,训练一个无限接近自己人格的 AI 聊天机器人。

相关推荐

封面图片

DeepMind 写的一篇论文:,试图用精确的数学概念和伪代码算法来解释所有 Transformer 类的机器学习算法和训练算法

DeepMind 写的一篇论文:,试图用精确的数学概念和伪代码算法来解释所有 Transformer 类的机器学习算法和训练算法,其中以 OpenAI 的 GPT3 和 DeepMind 自己的 Gopher 为例 用一句话总结大致就是: 以词汇表为集合空间的 token 序列概率分布预测矩阵叠加注意力 musk 的向量计算,其中还会用到稀疏结构

封面图片

试了一下谷歌文档AI分析工具NotebookLM,用同一篇论文同一个提示词扔给它和GPT-4进行总结。

试了一下谷歌文档AI分析工具NotebookLM,用同一篇论文同一个提示词扔给它和GPT-4进行总结。 NotebookLM总结的信息要更全面和详细一些,GPT-4说了跟没说一样,对简单提示词的响应比GPT-4好一些。 都是先用英文提示词总结在让他们翻译为中文。 可以来这里试试:

封面图片

最近在搞毕设,分享一个我的阅读论文文献SOP

最近在搞毕设,分享一个我的阅读论文文献SOP 论文,它的格式非常八股,基本都是按照这样的结构来呈现的:标题 → 概要 → 介绍 → 方法 → 实验 → 结论。 结合Stanford教授 Srinivasan Keshav 分享的三遍法,我凝练出来一个结合AI的五步法 1. 选读:通过检索工具选出合适的论文,以及在Twitter等社交媒体上看这篇论文的含金量 2. 略读:读论文前,我们得搞清楚这篇论文值不值得读,我们不需要全部都读完,这样会浪费我们很多时间。使用AI Summary工具,回答关键问题: 1. 主要解决了什么问题? 2. 提出了什么解决方案? 3. 解决方案中核心的方法/步骤/策略是什么? 4. 结论是什么? 5. 有什么限制条件? 请有条理地组织以上信息,确保涵盖每一个点。 这一类可以AI Summary的工具非常多,主要看总结能力和花费金额,推荐使用 1. txyz:介绍在下面的工具安利里 2. PopAI:介绍在下面的工具安利里 3. ChatGPT:ChatGPT直接上传PDF,进行对话也可以 4. Kimi:国内可以使用 但是还有一个点需要注意,就是你自己需要去判断正确性,包括这篇论文的正确性他有没有在和你胡扯 3. 精读:接下来就开始精读了 1. 精读的顺序:摘要 → 结论 → 方法 → 实验 → 数据和图表 2. 对于需要翻译的同学来说,必备的就是“沉浸式翻译”这个插件,具体使用看下面 3. 看图表和参考文献,判断是否正确 4. 在这一步,遇到问题,也可以借助AI工具, 1. 有不懂的细节继续提问,从 What、Why、How 三个方面抽取问题。 What:即哪些概念是不熟悉的。 Why:为什么要使用这种策略/方法,好在哪里? How:具体论文中是怎么实现某种策略/方法的。 2. 对于不懂图表的,也可以借助AI工具,分析图表 1. PopAI:接入了GPT-4V的API,可以对论文图表进行解读 2. ChatGPT:直接读图 3. 亿图图示:也可以解读图表 4. 整理笔记:精读完就可以整理笔记了,这里我的思路是基于PDF本身去整理

封面图片

RT fin这是一篇打破GPT“涌现”概念神话的论文,终于说出了我一直以来的一个直觉,这才是比较符合事物发展规律的

RT fin 这是一篇打破GPT“涌现”概念神话的论文,终于说出了我一直以来的一个直觉,这才是比较符合事物发展规律的 一句话总结,所谓GPT“涌现”能力,是因为人为修改了“达标”的评价标准,给人"涌现"的错觉 一旦使用更合理的评价指标,就会发现GPT能力值随着模型增大是线性增长的,从评价指标上直接解构了“涌现”… fin: 把时间线拉长,AI在更长时间尺度上会以什么速度发展? 对此我有三个AI猜想: 第一猜想:AI算力每十年加速六个数量级 第二猜想:AI全方位能力(感知/决策/生成)错误率每十年下降一个数量级 第三猜想:AI错误率每下降一个数量级(加上新能力涌现),应用范围和领域(市场规模)上升一个数量级 【长推】…

封面图片

米哈游最近与复旦NLP实验室合著了一篇86页的AI Agent论文,该论文从认知核心(推理,记忆,规划)、感知(文本,视觉,听觉

米哈游最近与复旦NLP实验室合著了一篇86页的AI Agent论文,该论文从认知核心(推理,记忆,规划)、感知(文本,视觉,听觉)、行动(文本,工具使用,具身)、参与者(单智能体,多智能体,真人与智能体)和环境(虚拟沙盒,物理引擎)等方面做了一个很好的AI Agent概述。 如果“斯坦福小镇”这样的生成式Agent可以应用到《原神》或其他大型MMORPG游戏中,那无疑将带来令人难以预料的惊喜。但目前来看大规模部署Agent的成本和效率等关键难题还有待突破。 论文链接:

封面图片

为了让 LLM 记住更多、记得更好,研究者们正在不断努力。最近,来自 MIT、Meta AI、CMU 的研究者提出了一种名为「S

为了让 LLM 记住更多、记得更好,研究者们正在不断努力。最近,来自 MIT、Meta AI、CMU 的研究者提出了一种名为「StreamingLLM」的方法,使语言模型能够流畅地处理无穷无尽的文本。 StreamingLLM 的工作原理是识别并保存模型固有的「注意力池」(attention sinks)锚定其推理的初始 token。结合最近 token 的滚动缓存,StreamingLLM 的推理速度提高了 22 倍,而不需要牺牲任何的准确性。短短几天,该项目在 GitHub 平台已斩获 2.5K 星。 ||

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人