月之暗面居然发论文了,刚刷微博才发现。
月之暗面居然发论文了,刚刷微博才发现。
介绍了他们的 LLM 推理服务架构。Mooncake的创新架构使得Kimi能够处理更多请求,同时保证服务质量。
Mooncake的核心思想是将LLM推理过程中的prefill(预填充)和decoding(解码)阶段分离,并以KVCache(键值缓存)为中心进行优化。
它充分利用GPU集群中的CPU、内存和SSD资源来实现一个分布式的KVCache系统,从而提高资源利用率和推理效率。
Mooncake还采用了一系列创新策略来应对长上下文和系统过载等挑战,显著提升了LLM服务的性能和吞吐量。
项目地址: