开栏语


当人工智能的浪潮席卷全球,北京正以科技创新之姿,成为AI大模型领域的战略高地。从智源的“悟道”大模型问世,到“天使投资人”模式孵化原创成果,再到月之暗面、智谱等人工智能独角兽崛起,这座城市不仅汇聚了前沿技术,更以开放生态孕育突破性成果。


如今,北京正积极打造“全球开源之都”,一大批研发机构、企业积极拥抱开源,而开源也已深入到汽车、机器人等众多行业。发展AI将是一场科技长征,在北京市科委、中关村管委会的支持下,新京报AI研究院推出“AI浪潮录”系列专栏,深度访谈此次AI浪潮的亲历者与见证人,讲述AI竞争新格局与背后的故事。



北京智源人工智能研究院理事长黄铁军。受访者供图


成府路150号,是一栋现代与历史巧妙融合的7层建筑,红砖幕墙外观富有浓浓的学院气息,屋顶花园和大玻璃窗设计则让建筑更有科技范儿。这里曾是一座破旧厂楼,经过设计师巧妙改造,现如今成了中国AI发展的策源地之一。


坐落于此的北京智源人工智能研究院(下称“智源”)紧邻清华大学,并与北京大学相望,天然资源优势催化下智源悄然成了中国大模型的“黄埔军校”:七年时间,孵化了约20家AI创业公司。智谱唐杰、月之暗面杨植麟、面壁刘知远……不少知名AI公司的创始人都曾在智源从事研究。


北京智源人工智能研究院理事长黄铁军经常骑车往返于北大和智源之间,从1995年开始从事人工智能研究,他亲历了近30年AI发展的技术浪潮。2018年11月,担任北京大学计算机系主任的黄铁军参与创立了北京智源人工智能研究院并担任首任院长,28个月后,智源发布了超大规模信息智能模型“悟道1.0”,填补了中国大模型的空缺。


黄铁军当时表示,人工智能发展已经从“大炼模型”逐步迈向了“炼大模型”,这也是“大模型”一词首次在中文互联网上被人所熟知。当ChatGPT出现并引发大模型热潮时,智源作为新型研发机构已经在前沿领域默默耕耘了四年。


黄铁军在接受新京报AI研究院专访时表示,科学与技术不同,前者需要天才的灵感达成原始创新,后者则更需要物质条件的支持与反复试错。而智源的任务是完成“从0到1”的创新,“做大学做不了,企业不愿做的”。他把智源定位为AI人才在北京发展的“第一站”,瞄准成为国际顶尖的AI机构。“如果思想上不引领,只做别人做过的东西,谁会承认北京是国际科技创新中心?让科技中心转移到中国,人才密度大的北京责无旁贷。”


迭代·模型是技术不是一门科学


新京报AI研究院:作为研究人工智能多年的专家,如何看待AI大语言模型技术在近些年的迅猛发展?


黄铁军:首先我必须强调,人工智能大语言模型是一项技术,并不是一门科学。


科学要研究出原理、公式,而技术需要依靠不断尝试探索、优化改进;科学的基本原理靠个人也可以突破,比如牛顿和爱因斯坦,但技术实现必须有方案方法和路线工艺;科学要回答“为什么”的问题,而技术解决“怎么做”的问题。举例来说,指南针就是一项技术发明,但要明白指南针的原理,需要理解地球磁场的概念。


回到人工智能也是一样,我们有技术能力做出大模型、做出智能系统,但大模型为什么表现得如此优秀?没有任何科学家解释得了。大模型作为人类最新的技术进展,正变得越来越智能、成本越来越低,这是技术和工艺不断改进的结果。


从2018年到2022年,大模型实现了一个又一个版本的迭代,智能逐渐增强,这是技术角度上的进步。OpenAI和智源所做的都是“从1到10”,但大模型的“从0到1”,则要追溯到Yoshua Bengio(约书亚·本吉奥)在2000年和2003年发表关于使用神经网络预测下一个token(词元)以训练模型的文章,那时模型规模不够大、算力有限、数据不足,所以智能不显著,一直没引起太多的关注。


2018年之后,上述几项条件逐渐成熟,因此有团队显化了智能,就像发明了指南针。到2022年和2023年,我们已经基本可以判断大模型“有智能”,虽然有时它仍然存在幻觉,但大多数时候还“挺像那么回事”,目前我们就处在这样的阶段。


新京报AI研究院:“从0到1”的创新需要什么条件,当前DeepSeek等国内大模型公司在进行怎样的创新?


黄铁军:包括DeepSeek在内的许多大模型公司所做的工作,实际上更多的是“从10到100”,即让大模型智能更强、成本更低。由于不存在确定路径,工艺积累只能通过不断试错进行,许多企业遇到的“卡脖子”技术大多属于这一类。DeepSeek拥有很多算力,这就给了它试错所必需的物质条件,虽然DeepSeek公布的模型训练成本很低,但如果加上试错成本,其投入也不会小。


对于科技发展,“从10到100”的创新需要足够多的资本,单靠国家支持是不够的。但“从0到1”的创新,公共性资金就可以支持,但此时不要去问科研人员“你怎么创新?”,他本人可能还没想明白,我们此时能做的就是给这些有可能产生灵感的人稳定的支持、基本的生活保障,让他们“慢慢想”。


创新·放手做事自由之外也有红线


新京报AI研究院:据说DeepSeek团队中不少人是北京大学的学生,DeepSeek和智源是否有过接触?


黄铁军:深度求索公司(DeepSeek)在2023年7月成立后,就跟智源进行了接触。我们也愿意和他们合作,智源跟中外所有企业、研发机构都持开放合作态度。


DeepSeek对我们比较有吸引力的点,在于其拥有较强的算力。DeepSeek的成功说明创新需要各种条件,缺一不可,算力就是其中之一。


DeepSeek成立时的第一处办公室在苏州桥,紧邻北大西南门,离北大计算机学院不远,我们多媒体实验室的很多学生都到DeepSeek实习过,并发表了很多学术论文。DeepSeek的北京团队中的关键岗位算法岗,北大计算机学院的学生占据了一半。充沛的算力也保证了研究条件,他们做的创新解法也成就了DeepSeek。这是好事,不管人才在杭州还是在北京,都为中国AI创新发展作出了贡献。


新京报AI研究院:智源是在什么背景下成立的?


黄铁军:2017年,国家新一代人工智能发展规划发布,2018年,北京市政府一号文件中提及了“建设世界一流新型研发机构”,而人工智能是重要的方向,智源就是在这样的背景下诞生的。


“智源”这个名字最早由第一任理事长张宏江提出,希望我们成为“人工智能的源头”。智源选址的位置方便周边几家机构,让清华、北大、中国科学院的老师同学们能够步行或骑自行车通勤,我有时也骑自行车往返北大,这样大家交流起来更加方便。出于便利的角度,张钹院士就在这里工作和接待来访者。


新京报AI研究院:作为智源的首任院长和现任理事长,智源这样的新型研发机构有何优势?


黄铁军:作为首任院长,我的工作包括确定智源的大致战略和发展方向,以及牵头准备论证报告等材料。


我在体制内多年,既申请过各类科技项目,也从事管理工作,对传统科研体制的优缺点心知肚明,当北京出现了新型研发机构、新管理体制,我也很愿意参与。智源风气自由,但自由度之外也有红线。


实际上,智源同时做到了“资源支持”和“让团队放手做事”。没有支持、没有资源,很多研究无法进行。但管理上干预过多也会带来麻烦,如果科研人员一半的时间用在了管理上,创新也就只剩下了一半时间。


制度越织越密、管理越来越细致在某种程度上并不利于科技创新,这是因为科技创新是动态变化的,跟建楼、修桥不同,存在不确定性。做不到提前半年、一年就知道之后的路怎么走,需要自己摸索。


计划内的创新首先要有人想到,但机会不是摆在大街上的,而是在细微之处,即便专业技术人员也不一定能创新,从事管理的领导想创新就更难。而智源作为北京新型研发机构,最大的创新就是破除项目立项制度以及繁琐的管理流程,将方向和过程的管理完全交给各个院系自己决定。


拔尖·不拘一格招人才


新京报AI研究院:作为从事大模型研究最早的机构,智源将迈入第十个年头,未来发展有何目标?


黄铁军:2028年11月,智源成立就满10年了。目前,智源正在向10年的目标迈进——成为国际顶尖的人工智能机构。我们理解和定义的“顶尖”,是指国际前三,而其基本标志是一定要有国际公认的对人工智能发展具有重大影响的标志性成果。如2016年DeepMind推出AlphaGo击败了人类职业围棋选手,2022年OpenAI推出ChatGPT引领了大模型浪潮。因此,它们是大家公认的顶尖的AI机构,而我们要做出不同。


我们是国内从事大模型研究最早的机构,也对生态作出了重大贡献,但这和国际顶尖机构做出的贡献相比还不够。我们现在的目标是在2028年之前做出1到3项顶尖成果。


新京报AI研究院:北京有许多新型研发机构,智源和其他机构有什么不同?


黄铁军:智源和其他研发机构的关系,并不是“N+1”,而是“1+N”,有了这个“1”之后,让这些“N”能够互相打通。在AI领域,有了智源后,高校教授们可以不再各自为政走申请立项、发指南、进行评审程序的“老路”。智源成立后不久,就起到了平台作用,聚集了AI领域的学者们,在经历了约一年的讨论之后,立即开始了大模型领域的研发工作。


智源汇聚了国内主要AI人才,在我们的社区里,几乎每天都有大大小小的讨论会,平均每年两三百场。在思想碰撞中,对于有价值的想法,我们会立刻动手去做。当然,由于资源有限,投入较大的想法需要在院务会上深入讨论。而对于一些年轻人提出的并不耗费过多资源的想法,如果一段时间之后得不到验证,我们也不再扩大支持。


在人才规模大、密度高的北京,智源提供了让人才相互交流、快速行动的创新生态环境。当一个想法大学做不了、企业不愿做,就到智源这样的新研发机构来。


智源是AI生态的一个窗口,是AI人才在北京发展的“第一站”。当一名国外归来的人才去高校发展,就要按照高校的程序进行申请,如果当助理教授,需要至少半年到一年的人事周期才有可能批准,到企业则需要做企业产品。此时,智源灵活度高的优势就显现出来了,这也是北京市给我们的任务:不拘一格招揽人才,人才在这只待三个月也行,未来无论想创业还是想当教授都可以。同时,我们对在这里研发的技术成果不追求高额利润,对成果转化持开放的态度。


简而言之,智源负责把北京的人工智能做到世界领先,至于选择什么技术路线、招哪些人、过程中遭遇哪些困难,需要自己解决。


新京报AI研究院:不少从智源走出来的人都创立了自己的公司,智源有意成为AI企业的“孵化器”吗?


黄铁军:从智源走出去的人才,最后成立初创公司的大概有20个。不过,智源的定位是国际顶尖AI研究机构,创业是副产品,如果一开始是冲着创业和孵化的目的发展,我们的性质就发生了变化。成为世界顶尖机构不是靠创业,我们现在从事的科研活动,有些暂时看不出未来有多大可能性变成产品,但不这么做就不能推动前沿技术发展。


我们相信这些工作一定会以某种方式在未来发挥作用,一开始做研究时却不能这样算账,我们只能是做别人没做过的事,做创新机构要做的事。和DeepSeek等大模型企业可能不同,我们应该是前沿,智源的成功应该是“从0到1”的成功。


新京报AI研究院:北京在科技创新上发挥什么作用?


黄铁军:当前,无论是智源还是字节、DeepSeek,其实都是在“从1到10”“从10到100”的过程中,一群人在不断摸索更强模型、更低成本模型的过程。在此过程中,哪里人才密集度够高,创新就在哪里发生。资金问题可以通过各种方式解决,但人才密度的分布是天然的,北京的人才密度从国际范围来看都是足够高的,所以可以预期,未来北京会发生更多的创新。


智源要做国际顶尖的AI机构,北京要做国际科技创新中心,要想科技中心转移到中国,人才密度大的北京责无旁贷。


记者联系邮箱:luoyidan@xjbnews.com


新京报贝壳财经记者 罗亦丹


编辑 王进雨


校对 柳宝庆