新京报贝壳财经讯(记者韦英姿)3月10日,腾讯混元3D团队宣布开源业界首个面向世界模型的强化学习后训练框架WorldCompass。腾讯混元3D团队表示,这是此前发布的混元世界模型1.5 官方强化学习扩展模块,能够让世界模型的交互更加准确,体验更好。


腾讯混元3D团队认为,现有的生成式世界模型(WorldPlay等)主要依赖于预训练阶段的像素级监督。这种学习方式,往往导致模型在面对复杂的组合动作指令时“听不懂”,或者在长距离漫游中出现画质崩坏和路径漂移。因此,腾讯混元团队推出了WorldCompass。这是一个专为长时序、交互式世界模型设计的强化学习(RL)后训练框架。通过引入强化学习机制,“引导”模型如何更准确地遵循用户指令探索世界,并保持长时序的视觉一致性。


腾讯混元实验数据表明,WorldCompass能提升 SOTA 开源世界模型(WorldPlay)的交互准确率和视觉保真度,在复杂的组合动作场景下,交互准确率提升了近35%。


校对 刘军