首页 > 科技

腾讯混元推出面向世界模型的强化学习后训练框架

2026-03-10 16:06:12 记者：韦英姿编辑：王进雨

新京报贝壳财经讯（记者韦英姿）3月10日，腾讯混元3D团队宣布开源业界首个面向世界模型的强化学习后训练框架WorldCompass。腾讯混元3D团队表示，这是此前发布的混元世界模型1.5 官方强化学习扩展模块，能够让世界模型的交互更加准确，体验更好。

腾讯混元3D团队认为，现有的生成式世界模型（WorldPlay等）主要依赖于预训练阶段的像素级监督。这种学习方式，往往导致模型在面对复杂的组合动作指令时“听不懂”，或者在长距离漫游中出现画质崩坏和路径漂移。因此，腾讯混元团队推出了WorldCompass。这是一个专为长时序、交互式世界模型设计的强化学习（RL）后训练框架。通过引入强化学习机制，“引导”模型如何更准确地遵循用户指令探索世界，并保持长时序的视觉一致性。

腾讯混元实验数据表明，WorldCompass能提升 SOTA 开源世界模型（WorldPlay）的交互准确率和视觉保真度，在复杂的组合动作场景下，交互准确率提升了近35%。

校对刘军

88 +1

微信

腾讯混元推出面向世界模型的强化学习后训练框架

我要评论

热点

最新