一篇名为《Scaling Transformer to 1M tokens and beyond with RMT》()最近在技

一篇名为《Scaling Transformer to 1M tokens and beyond with RMT》()最近在技术圈引发热议。有推友用chatgpt给这篇论文做了一个通俗易懂的总结。| 该论文提出一种名为 RMT 的新技术,或许可将 Transform 的 Token 上限扩展至 100 万,甚至更多。 而目前最强的 GPT-4-32k,其 Token 上限也才 3.2 万,这就导致了它并不能很好的处理长文内容。像文档、书籍、代码这种大块内容,往往需要先对内容进行切割,分多次喂给 GPT,但 GPT 本身能理解的上下文内容有限,这就很容易导致结果偏离预期。 如果未来 Token 的上限能够不断突破,将会创造出更多 AI 应用场景。包括之前所畅想的,训练一个无限接近自己人格的 AI 聊天机器人。

相关推荐

封面图片

DeepMind 写的一篇论文:,试图用精确的数学概念和伪代码算法来解释所有 Transformer 类的机器学习算法和训练算法

DeepMind 写的一篇论文:,试图用精确的数学概念和伪代码算法来解释所有 Transformer 类的机器学习算法和训练算法,其中以 OpenAI 的 GPT3 和 DeepMind 自己的 Gopher 为例 用一句话总结大致就是: 以词汇表为集合空间的 token 序列概率分布预测矩阵叠加注意力 musk 的向量计算,其中还会用到稀疏结构

封面图片

受到死亡威胁##NewJeans粉丝报警# 据韩媒, 24日,某韩国社交平台中出现了一篇名为“为了在NewJe

#NewJeans受到死亡威胁##NewJeans粉丝报警# 据韩媒, 24日,某韩国社交平台中出现了一篇名为“为了在NewJeans演唱会时用才买的”帖子,帖文中包含一张刀的照片和“NewJeans从保姆车下来后,给每个人来一下”的威胁性内容。有网友和粉丝看到该贴文后报警并告知ADOR,目前该帖已被删除。该帖文作者在帖子中预告了特定威胁对象,可能会以威胁罪受到处罚。 via 新浪娱乐的微博

封面图片

RT fin这是一篇打破GPT“涌现”概念神话的论文,终于说出了我一直以来的一个直觉,这才是比较符合事物发展规律的

RT fin 这是一篇打破GPT“涌现”概念神话的论文,终于说出了我一直以来的一个直觉,这才是比较符合事物发展规律的 一句话总结,所谓GPT“涌现”能力,是因为人为修改了“达标”的评价标准,给人"涌现"的错觉 一旦使用更合理的评价指标,就会发现GPT能力值随着模型增大是线性增长的,从评价指标上直接解构了“涌现”… fin: 把时间线拉长,AI在更长时间尺度上会以什么速度发展? 对此我有三个AI猜想: 第一猜想:AI算力每十年加速六个数量级 第二猜想:AI全方位能力(感知/决策/生成)错误率每十年下降一个数量级 第三猜想:AI错误率每下降一个数量级(加上新能力涌现),应用范围和领域(市场规模)上升一个数量级 【长推】…

封面图片

为了让 LLM 记住更多、记得更好,研究者们正在不断努力。最近,来自 MIT、Meta AI、CMU 的研究者提出了一种名为「S

为了让 LLM 记住更多、记得更好,研究者们正在不断努力。最近,来自 MIT、Meta AI、CMU 的研究者提出了一种名为「StreamingLLM」的方法,使语言模型能够流畅地处理无穷无尽的文本。 StreamingLLM 的工作原理是识别并保存模型固有的「注意力池」(attention sinks)锚定其推理的初始 token。结合最近 token 的滚动缓存,StreamingLLM 的推理速度提高了 22 倍,而不需要牺牲任何的准确性。短短几天,该项目在 GitHub 平台已斩获 2.5K 星。 ||

封面图片

前几天微软发了一篇挺重要的关于 LLM 的论文,但我看不太懂。

前几天微软发了一篇挺重要的关于 LLM 的论文,但我看不太懂。 从社区讨论来看,这个研究可以大幅压缩模型体积,让 120B 大小的模型能在 24G 显存的设备上运行。 再加上一些其他优化我们在消费级设备运行 Llama 70B 也不是什么遥不可及的事情。 论文简介: 《1位大语言模型时代来临:一切大型语言模型均转向1.58位构架》 一种1位的LLM变体,命名为BitNet b1.58。在这个模型里,大语言模型的每个参数(或权重)都是三元的{-1, 0, 1}。它在复杂度和实际应用性能方面与相同模型规模和训练数据的全精度(即FP16或BF16)Transformer大语言模型不相上下,但在延迟、内存、吞吐量和能源消耗方面更具成本效益。 更为重要的是,1.58位LLM定义了新的扩展规律,并为训练新一代既高性能又高效的LLMs提供了方法。此外,它还开启了一个全新的计算范式,并为设计专门针对1位LLMs优化的硬件提供了可能性。 论文:

封面图片

最近在 kimi 和 ChatGPT 的帮助下,逐字逐句地精读了三篇AI相关的文章,觉得收获非常大。

最近在 kimi 和 ChatGPT 的帮助下,逐字逐句地精读了三篇AI相关的文章,觉得收获非常大。 很多困扰我已久的问题,在这三篇文章里看到了些线索。 比如,生成式 AI 生成的内容,当前无法实现精准控制,这个问题是否就无解呢?其实不是的,第一篇文章中就提到了他们的解法。 再比如,RAG 在处理幻觉方面这么牛,各种 RAG 技术的通用性如何呢?答案可能没那么乐观,因为他们可能只是某个特定 use case 上做得很好,但不意味着可以轻易推广到其他所有场景。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人