计算机系团队获得第23届USENIX文件与存储技术会议(FAST25)最佳论文奖
2月25日至27日,第23届USENIX文件与存储技术会议(USENIX Conference on File and Storage Technologies,FAST)在美国圣克拉拉举行。计算机系教师章明星、武永卫、郑纬民团队和月之暗面公司合作发表的论文“以键值缓存为中心的以存换算大语言模型推理架构”(Mooncake: Trading More Storage for Less Computation-A KVCache-centric Architecture for Serving LLM Chatbot)获得埃里克·里德尔最佳论文奖(Erik Riedel Best Paper Award)。论文的第一作者为计算机系博士生秦若愚,导师为助理教授章明星。

最佳论文奖
该论文介绍的系统Mooncake是月之暗面公司推出的大语言模型服务Kimi的底层推理服务平台。Mooncake采用一种以键值缓存(KVCache)为中心的分离架构,不仅将预填充和解码集群分开,还高效利用了推理集群中未充分利用的CPU、DRAM、SSD和NIC资源,建立了一个分离的KVCache缓存池。其核心创新在于以KVCache为中心的全局缓存和调度器,旨在严格的延迟相关服务级别目标(SLOs)下最大化吞吐量。
实验表明,Mooncake在处理长上下文输入的场景中表现出色。在使用真实数据进行的测试中,与基线方法相比,Mooncake在符合SLOs的情况下,将有效请求处理能力提高了59%~498%。目前,Mooncake已在数千个节点上运行,每天处理超过1000亿个token。在实际部署中,Mooncake的创新架构使Kimi在NVIDIA A800和H800集群上分别比以前的系统多处理115%和107%的请求。
为进一步加速论文技术的应用和推广,清华大学MADSys实验室联合月之暗面Kimi、9#AISoft、阿里云、华为存储、面壁智能、趋境科技等产学研力量共同发布开源项目Mooncake(https://http://github.com/kvcache-ai/Mooncake)。当前Mooncake项目已被阿里、蚂蚁等多家厂商应用于内部项目,并且已经合入大模型推理开源社区vLLM。
FAST(File and Storage Technologies)是计算机存储领域的顶级学术会议,已创立二十余年,在存储领域具有重要影响力,被中国计算机学会(CCF)认定为存储系统领域的A类国际学术会议。
网址:计算机系团队获得第23届USENIX文件与存储技术会议(FAST25)最佳论文奖 https://m.mxgxt.com/news/view/2012680
相关内容
【登峰专栏】清华大学计算机系研究团队荣获FAST2025最佳论文奖计算机科学与技术系教师简介
计算机应用技术
金曲奖男歌手 往届金曲奖最佳男、女歌手获得者大盘点~ 金曲奖历届最佳男女歌手
刘青云、卫诗雅分获最佳男女主角!一文看完本届香港电影金像奖得奖名单
CTO 出席中国IC领袖峰会 峰岹科技摘得年度技术突破IC设计公司奖
第36届银河奖揭晓,《金桃》斩获最佳科幻长篇小说奖
第二届中国国际储能展览会暨第九届中国国际光储充大会
第67届格莱美奖揭晓,碧昂丝首获年度最佳专辑奖
第36届银河奖获奖名单揭晓,杨晩晴斩获最佳长篇和最佳短篇作品奖

