Kimi如何避免服务宕机?郑纬民院士揭秘:以存换
发布时间:2024-12-12 16:55
新浪科技讯 12月12日下战书新闻,在2神仙道24大模子手艺与利用翻新论坛上,中国工程院院士、清华大学计算机系教学郑纬平易近在分享中说起了月之暗面kimi对于话AI产物防止大批用户涌入招致效劳宕机背地的手艺原理——以存换算。
据郑纬平易近先容,保证kimi对于话AI流利运转背地的大模子推理框架,名为Mooncake,是一项叫做清华大学与月之暗面共同研发的推理体系方案。
郑纬平易近指出,Kimi研发遵循的根本准则是:数据更多、模子更大、更长的上下文窗口,确定会带来更好的后果。由于kimi支撑2神仙道神仙道万字的上下文,后果很好,良多人都喜欢用它。
然而,在Kimi推出初期,碰到拜访过大效劳宕机采纳的应答战略就是买算力卡,但买了五次卡仍是死机,并没有能彻底解决问题。其背地的起因是,更高的推理负载象征着要买更多的推理卡,但推理卡多了存储器也会没有够,用的人多了,问题也就大了。
据郑纬平易近先容,最后月之暗面与清华大学开发了Mooncake手艺框架,经由过程将没有同用户与Kimi对于话的公共内容提炼进去,存储上去,碰到下次用户再发问的时分间接读取回复,减少了每次用户发问都要从新天生的进程,俭省了许多算力卡,之后Mooncake就不再死过机。
“把存储器好好用,也能够省良多卡。”郑纬平易近表现。(文猛)