前不久,麻省理工 Guangxuan Xiao 等人推出的 StreamingLLM能够在不牺牲推理速度和生成效果的前提下实现多
前不久,麻省理工 Guangxuan Xiao 等人推出的 StreamingLLM能够在不牺牲推理速度和生成效果的前提下实现多轮对话总共 400 万个 token 的流式输入,22.2 倍的推理速度提升。 但 StreamingLLM 使用原生 PyTorch 实现,对于多轮对话推理场景落地应用的低成本、低延迟、高吞吐等需求仍有优化空间。 因此,知名 AI 框架 Colossal-AI 开源了 ,基于 TensorRT 实现了 StreamingLLM,可以 进一步提升大模型推理性能 46%,为多轮对话推理提供了高效可靠的落地方案。
在Telegram中查看相关推荐

🔍 发送关键词来寻找群组、频道或视频。
启动SOSO机器人