新京报贝壳财经讯(记者张晓慧)2026年英伟达GTC大会如期进行,北京时间3月18日凌晨,月之暗面Kimi创始人杨植麟发表主题为《How We Scaled Kimi K2.5》的演讲,首次系统性地披露了Kimi K2.5模型背后的技术路线图。


技术重构是本次演讲的核心。杨植麟在演讲中提到,要推动大模型智能上限的持续突破,必须对优化器、注意力机制及残差连接等底层基石进行重构。


具体到Kimi的实践,杨植麟介绍,在超大规模训练中,Kimi团队在实验中验证了Muon优化器在提升Token效率方面的显著潜力,并在此基础上研发开源了MuonClip优化器,彻底解决了训练万亿参数规模模型时的Logits 爆炸问题;注意力机制方面,Kimi Linear作为一种混合线性注意力架构,挑战了“所有层必须使用全注意力”的惯例,通过优化递归存储管理,在128K甚至1M的超长上下文中,将解码速度提升了5到6倍。


针对已有十年历史的残差连接,Kimi引入了Attention Residuals方案。3月16日,Kimi发布一项技术报告《Attention Residuals》(注意力残差),重新设计深度学习中核心的残差连接结构。传统的残差结构是通过对每一层的输出进行统一求和来实现信息传递,Kimi团队的最新技术报告提出了一种全新方案,允许模型在每一层选择性地关注此前各层的输出,而不是简单地进行求和。报告显示,经过改进的48B模型训练效率提升了1.25倍。


演讲最后,杨植麟探讨了智能体集群的扩展。他认为未来的智能形态将从单智能体向动态生成的集群进化。Kimi K2.5引入的Orchestrator机制,能够将复杂的长任务拆解给数十个子Agent并行处理。为了防止协作过程中出现单点依赖导致的“串行塌缩”,团队设计了全新的并行 RL 奖励函数,激励模型真正学会任务分解与并行执行。


在杨植麟看来,当前的Scaling已经不再是单纯的资源堆砌,而是要在计算效率、长程记忆和自动化协作上同时寻找规模效应。如果能将这三个维度的技术增益相乘,模型将表现出远超现状的智能水平。


校对 柳宝庆