月之暗面居然发论文了，刚刷微博才发现。

月之暗面居然发论文了，刚刷微博才发现。介绍了他们的 LLM 推理服务架构。Mooncake的创新架构使得Kimi能够处理更多请求，同时保证服务质量。 Mooncake的核心思想是将LLM推理过程中的prefill(预填充)和decoding(解码)阶段分离,并以KVCache(键值缓存)为中心进行优化。它充分利用GPU集群中的CPU、内存和SSD资源来实现一个分布式的KVCache系统,从而提高资源利用率和推理效率。 Mooncake还采用了一系列创新策略来应对长上下文和系统过载等挑战,显著提升了LLM服务的性能和吞吐量。项目地址：

在Telegram中查看

相关推荐

Groq LPU人工智能推理芯片的运算表现可与主流厂商媲美

Groq LPU人工智能推理芯片的运算表现可与主流厂商媲美一家人工智能芯片初创公司 Groq 曾长期默默无闻，但现在它利用专为大型语言模型（LLM）（如 GPT、Llama 和 Mistral LLM）设计的语言处理单元（LPU），在提供超快推理速度方面取得了重大进展。Groq LPU 是基于张量流处理器（TSP）架构的单核单元，在 INT8 时可达到 750 TOPS，在 FP16 时可达到 188 TeraFLOPS，具有 320x320 融合点乘矩阵乘法，此外还有 5120 个矢量 ALU。Groq LPU 拥有 80 TB/s 的带宽，并具有大规模并发能力，其本地 SRAM 容量为 230 MB。所有这些共同作用，为 Groq 提供了出色的性能，在过去几天的互联网上掀起了波澜。在Mixtral 8x7B 模型中，Groq LPU 的推理速度为每秒 480 个令牌，在业内处于领先地位。在 Llama 2 70B 等上下文长度为 4096 个令牌的模型中，Groq 每秒可提供 300 个令牌，而在上下文长度为 2048 个令牌的较小 Llama 2 7B 中，Groq LPU 每秒可输出 750 个令牌。根据LLMPerf Leaderboard 的数据，Groq LPU 在推断 LLMs Llama 时击败了基于 GPU 的云提供商，其配置参数从 70 亿到 700 亿不等。在令牌吞吐量（输出）和到第一个令牌的时间（延迟）方面，Groq处于领先地位，实现了最高的吞吐量和第二低的延迟。ChatGPT 采用 GPT-3.5 免费版，每秒可输出约 40 个令牌。目前的开源 LLM（如 Mixtral 8x7B）可以在大多数基准测试中击败 GPT 3.5，现在这些开源 LLM 的运行速度几乎可以达到 500 令牌每秒。随着像 Groq 的 LPU 这样的快速推理芯片开始普及，等待聊天机器人回应的日子似乎开始慢慢消失了。这家人工智能初创公司直接威胁到英伟达（NVIDIA）、AMD 和英特尔提供的推理硬件，但业界是否愿意采用 LPU 仍是个问题，您可以在这里进行试用： ... PC版：手机版：

惊喜发现又祛魅一项能力：读论文

惊喜发现又祛魅一项能力：读论文 CS 专业一路走来被论文折磨，现以为脱离苦海，但又不得不紧跟看 LLM SD 论文，痛点就是：看不下去，精神涣散啃能读完，但留不脑痕我找到了一个适合自己的方法 1⃣祛魅，不畏难与学界的朋友多交谈之后，逐渐理解论文掐头去尾直接看核心思想是可以很快用大白话解释的。我很大程度是因为怕数学、怕文字、怕章节，而不是真的这些概念难。比如 Transformer 这篇论文公认的“写”得烂。不信权威，祛魅格式。思想一般就两三个创新点。 2⃣虚拟心理环境假想我是那些厉害的学界大佬，他们是如何如呼吸一般的读这些论文的呢？预加载他们的心理环境。我会假想自己是一个很厉害的数学学家（然后跳过数学证明 hhh） 3⃣ 专注：用划线工具和沉浸式翻译我使用 Glasp 插件（免费、可 notion 同步、有数据库管理界面、标签系统），双语阅读可以用沉浸式翻译、Aminer、Yiyibooks 哪个顺手用哪个。 arxiv 论文可以用沉浸式翻译+Glasp 直接划线高亮记录和评论，还自动保存数据库方便后期整理。不喜欢经常打断的复制粘贴。划线让我专注。 4⃣ GPT 如何过脑子留下点东西？看完后或看的时候一定要提问。为什么它这样做实验？为什么解决这个问题？解决的怎么样？之后还要做什么？如果比较久远的经典论文，问 GPT 可以直接得到答复。 5⃣ 自己的话记录这个环节就是强化留给自己脑子的东西。自己写出来的才是真正理解了的概念。用自己的大白话解释一遍，就真的懂论文了。比如我会写“transformer 架构就是叠了很多层一样的 block，每个 block 里面有 Q K V 三个矩阵” blablabla 推荐从下面的精选开始读经典论文：

：基于开源的 AI 软件工程师，可以理解人类的高级指令，并根据这些指令，分解成步骤，进行相关信息的研究，并编写代码实现目标。

：基于开源的 AI 软件工程师，可以理解人类的高级指令，并根据这些指令，分解成步骤，进行相关信息的研究，并编写代码实现目标。 Devika的系统架构由以下关键组件组成：用户界面：基于网络的聊天界面，用于与 Devika 交互、查看项目文件以及监控代理的状态。 Agent Core：编排AI规划、推理和执行过程的核心组件。它与各种子代理和模块通信以完成任务。大型语言模型：Devika 利用Claude、GPT-4和Ollama 的本地 LLM等最先进的语言模型进行自然语言理解、生成和推理。规划和推理引擎：负责将高层目标分解为可操作的步骤，并根据当前环境做出决策。研究模块：利用关键字提取和网页浏览功能来收集当前任务的相关信息。代码编写模块：根据计划、研究结果和用户需求生成代码。支持多种编程语言。浏览器交互模块：使 Devika 能够根据需要导航网站、提取信息并与 Web 元素交互。知识库：存储和检索项目特定信息、代码片段和学到的知识，以便高效访问。数据库：保存项目数据、代理状态和配置设置。

库克发微博称赞M3 MacBook Air是完美笔记本电脑大批网友涌入反驳

库克发微博称赞M3 MacBook Air是完美笔记本电脑大批网友涌入反驳微博发布后，很快就有大量网友涌入评论区吐槽M3 MacBook Air的8GB内存和升级硬盘的价格。有网友表示：“8+256怎么能称完美”“都m3了，怎么乞丐版还是8G，根本不够用”“金子做的内存不是一般人能用得起的”“你看看哪位正常学生买得起你那硬盘？”等等。作为一款2024年发布的旗舰轻薄本，且起售价8999元，M3 MacBook Air依旧采用8GB+256GB起步的内存搭配，放在业内确实少见。当然，苹果也提供内存和SSD的升级服务，但需要加钱。升级16GB内存1500元，升级24GB内存需要3000元，512GB SSD1500元、1TB SSD 3000元、2TB SSD价格高达6000元。值得一提的是，苹果全球产品营销副总裁Bob Borchers曾回应M3 MacBook Pro 8GB内存的质疑。他表示，“我们的内存利用效率更高，并且有内存压缩技术，而且我们内存是基于统一内存架构。”“M3 MacBook Pro上的8GB内存，可能会和其它系统上的16GB内存是比较接近的”Bob Borchers说。对于苹果旗舰笔记本电脑入门还是8GB内存，你怎么看？ ... PC版：手机版：

Linux基金会、英特尔等行业相关者联合推出企业AI开放平台

Linux基金会、英特尔等行业相关者联合推出企业AI开放平台 "这项开创性的倡议联合了行业领导者，包括 Anyscale、Cloudera、Datastax、Domino Data Lab、Hugging Face、Intel、KX、MariaDB Foundation、Minio、Qdrant、Red Hat、SAS、VMware（被 Broadcom 收购）、Yellowbrick Data、Zilliz 等，共同倡导开发开放的、多提供商的、强大的和可组合的 GenAI 系统。""LF AI & Data 的使命是建立和支持一个开放的人工智能（AI）和数据社区，并通过促进合作和为社区所有成员创造新机遇来推动 AI 和数据领域的开源创新。OPEA 的目标是促进和支持灵活、可扩展的 GenAI 系统的开发，利用整个生态系统中最好的开源创新"。英特尔也发表了自己的博文，对这一新的开源企业人工智能努力进行了讨论。新的OPEA.dev项目网站描述了计划中的平台交付成果：- 最先进的生成式人工智能系统的可组合构建模块的详细框架，包括 LLM、数据存储和提示引擎- 检索增强型生成式人工智能组件堆栈结构和端到端工作流的架构蓝图- 围绕性能、功能、可信度和企业级准备程度对生成式人工智能系统进行分级的四步评估 ... PC版：手机版：

将 Firebase 的简单性带入AI 原生应用程序开发中。

将 Firebase 的简单性带入AI 原生应用程序开发中。该平台支持使用来自不同提供商的各种LLM来创建类似 GPT 的多租户应用程序。它具有独特的模块化功能，例如推理、检索、助手和工具，无缝集成以增强开发过程。 TaskingAI 的凝聚力设计确保了人工智能应用开发的高效、智能和用户友好的体验。主要特征：一体化 LLM 平台：通过统一的 API 访问数百个 AI 模型。直观的 UI 控制台：简化项目管理并允许控制台内工作流程测试。 BaaS 启发的工作流程：将 AI 逻辑（服务器端）与产品开发（客户端）分开，提供从基于控制台的原型设计到使用 RESTful API 和客户端 SDK 的可扩展解决方案的清晰途径。可定制的集成：通过可定制的工具和先进的检索增强生成（RAG）系统增强法学硕士功能异步效率：利用Python FastAPI的异步特性实现高性能、并发计算，增强应用程序的响应能力和可扩展性。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人