回顾国内AI的早期发展历程,一定离不开北京智源研究院。2021年3月,智源发布的悟道1.0开启了中国的大模型时代,杨植麟、唐杰等后来的国内大模型翘楚均曾在此工作,也正因如此,智源研究院一度被视为国内大模型的“黄埔军校”。
当时间推移到2026年6月,智源的主要研究方向却并不再是大语言模型。理由很简单。“作为新型研发机构,智源主要做高校、企业不愿意做的人工智能方向重大科研创新,我们一直都在人工智能大模型的最前沿。”智源研究院院长王仲远告诉新京报贝壳财经记者。
6月11日,新京报贝壳财经记者随“活力中国调研行”走访智源研究院,了解到了当下王仲远认为“最前沿”的领域——世界模型。智源研究院,也是国内最早倡导世界模型的科研机构。

新京报贝壳财经记者 罗亦丹 摄
世界模型不是3D生成,而是“预测下一个物理状态”
新京报贝壳财经记者曾体验过不少“世界模型”产品,如用户提供一张图片,世界模型可以依据该图片生成一个“3D世界”,一些产品还允许用户进入该“世界”进行移动探索,从表现形式来看,更类似视频生成或者网络游戏。
但在王仲远看来,视频生成并不等于世界模型,“现在业内普遍把视频生成模型称作世界模型,源头是OpenAI发布 Sora时用了‘世界模拟器(World Simulator)’的说法,这个叫法原本只是形容视频生成。如今热门的视觉-语言-动作模型(VLA)、世界动作模型(World Action Model),只是把画面视频和动作数据拼在一起。目前来看,大家都在叫的世界模型都不是真正意义上的世界模型。”
什么是世界模型?这一概念实际上众说纷纭,6月初,被誉为“AI之母”的李飞飞就曾发布长文,试图给世界模型“下定义”。而此次对话,王仲远给出了一个更易理解的答案——相比大语言模型预测的是“下一个Token(词元)”,世界模型所预测的应该是“下一个物理状态”。
“你看到的3D世界生成的产品概念更多应用于虚拟世界,在这一领域,目前许多游戏已经拥有了非常逼真的模型、光线以及物理引擎。但仿真引擎也有自己的上限。我们所希望的世界模型是大模型驱动,只要数据量足够就会远超人类经验构建出来的引擎。在潜力方面,就像现在大语言模型将来用于科学发现一样,世界引擎也可以用来帮助我们发现新的规律,作为未来的世界基座模型,世界模型在理论上存在更大的上限空间。”王仲远告诉新京报贝壳财经记者。
王仲远表示,智源一直都在人工智能大模型的最前沿,“早在当年的语言大模型时代,我们发布了悟道1.0、2.0和3.0,也孵化出了智谱、面壁这些主流大模型公司。正是因为有了这样的布局,才会有大模型不同阶段的成果产出。而2023年,智源开始涉及世界模型,2025年发布emu3和emu3.5多模态世界模型,2026年推出了physis和orca,一直在探索前沿。”
“从智源研究院的角度来看,我们一直沿着几年前对于人工智能技术的预判不断发展。”王仲远强调,智源不是在跟风,而是在按照既定的战略方向稳步推进。大语言模型两年之前就已经完成探索,交给智谱、面壁这些企业去做;现在开始注重世界模型,因为这是下一个十年的主战场。
他的理念是:技术先行,早于产品,早于系统,“就像深度学习是从2006年提出的理念和解决方案,Transformer2017年提出,而大语言模型直到2022年底才爆发。因此,现在就需要对技术路径进行各种各样的探索,可以引领和促进世界模型的爆发。”
王仲远说,在大语言模型时代,智源是跟随者,但到了多模态时代,智源已经开始提出自己独立的技术路径,“世界模型开始,我们有了自己对于这个问题的定义,技术路线上也有我们自己的信仰,某种程度上也证明了中国人工智能力量在努力探索前沿方向,希望能够最终引领。”
世界模型仍处于初级阶段,“就像2012年的大语言模型”
尽管智源对世界模型的未来充满信心,但王仲远毫不讳言当前的真实处境——世界模型依然处于非常早期的阶段。“必须承认物理AI特别是世界基座模型的研究,在全世界范围依然处于非常早期,甚至概念和技术路径都远没有收敛。”
他比喻称,目前世界模型所处的阶段类似于“2012年的大语言模型”,彼时深度学习刚刚开始兴起,虽然神经网络已有十层、一百层,但依然只能解决较为具体的问题和任务,经过不断升级迭代和互联网海量数据的积累,才有了GPT的出现。
“当下世界模型还没到GPT时代,因为数据非常缺乏。”王仲远表示,从2012年到2022年底ChatGPT发布,走了十年,现阶段随着人工智能越来越强,演化速度越来越快,可能三年五年就能有足够多的数据累积。
数据是当前最核心的卡点。王仲远表示,长期来看,构建世界模型的真实世界数据依然缺乏,对于有价值的信息,现在的科研技术还没有充分挖掘。他举例称,一个2岁的小女孩也可以通过天天刷短视频,在父母没有教过她的前提下学会拆糖果,他认为,正如同现在孩子获取信息的渠道比之前一辈人更多,极大加速了脑中认知的形成,世界模型也有“异曲同工”之处。
实际上,当前世界模型的技术路线也远未收敛。王仲远总结了现在世界模型的四种主流技术定义方式:以像素为中心、以三维结构为中心、以视觉表征为中心,以及以语言为中心。他表示,当前智源更接近第四种以及视觉与语言的融合方向,同时也坦承,这不代表其他路线就没有价值。
“世界模型不同路线的差异客观上造成了一定的认知混乱,但这也并非坏事,而是行业开始形成共识的过程,意味着人才、资本、技术解决方案的不断提出,客观上会促进世界模型的迭代、演进和发展。”王仲远说。
青年挑大梁:大四学生成为世界模型团队负责人
在采访中,新京报贝壳财经记者注意到,智源世界模型团队的人员构成非常年轻,如智源行为世界模型创新中心负责人陈博远今年大四。
“智源研究院一直都在强调青年挑大梁,不看帽子资历,给年轻人舞台。这些年轻、高潜力、又有代表作的青年科学家恰恰就是智源研究院成立八年以来一直努力做事的体现,也是智源在大模型时代、多模态时代产生行业和科研成果的基础。”王仲远说。
这样的人才是如何被发现的?王仲远用“惺惺相惜”来形容,“优秀的人才和天才都是有重力场的,会互相吸引。比如当前世界模型研究团队的两位负责人是在一个寻常的中午,吃盒饭聊天时‘发掘’出来的,经过谈话,我们发现虽然世界模型有很多定义,但我们的理解和目标完全一致,之后几乎当场拍板,决定要一起来做这件事。”
对此,陈博远也表达了自己的看法:“可能我并不算是千里马,但伯乐一定非常难寻。在智源研究院搞研发,核心愿景就是制造出来能够超越人类智能水平的通用AGI,我觉得这不一定是虚无缥缈的学术理想,它可以实际落地、改变生活。”
王仲远认为,这体现了智源研究院创新的机制体制以及灵活决策的优势,“智源愿意提供这样的环境和舞台,让这样一群优秀的、有着技术信仰的年轻人聚集在一起,不被外界干扰,不被琐事影响,专心致志进行技术突破。”
这种模式的核心是什么?王仲远总结了几个关键要素:有规划的前沿科研探索,基于对人工智能技术路径的发展;青年挑大梁,不以帽子,不以资历,而是以代表作和潜力选择人才,给予充足的资源搞科研;开源开放的生态,不管是科研成果还是跟很多企业合作,使得路越走越宽。智源一定会坚持去做这些“对的事情”。
对于世界模型的未来,王仲远保持着乐观但理性的态度。“智源推出的产品中,不论是悟界Physis还是RoboBrain·Orca,目标都不是短期就要在真实物理世界大规模部署,周期可能是三年甚至更长时间。世界模型是一个长期过程,短期落地不是我们最着急的事。”
在采访最后,当被问及智源去进行前沿技术的早期“试错”,如果失败怎么办,以及是否考虑更加商业化这一问题时,王仲远给出了颇具个人风格的回答:
“企业有企业的商业逻辑和商业目标,所以不太可能像我们这样纯粹地思考和探索。对于可能失败的模型、新的方向和技术路径的探索,智源需要担起这样的责任,去开创,去创新,去突破,当然也有可能失败,但这也恰恰是科研的魅力。”
记者联系邮箱:luoyidan@xjbnews.com
新京报贝壳财经首席记者 罗亦丹
编辑 杨娟娟
校对 杨许丽






