新京报贝壳财经讯(记者罗亦丹)1月26日晚间,阿里正式发布千问旗舰推理模型Qwen3-Max-Thinking,在多项关键性能基准测试中,千问表现超过了GPT-5.2、Claude Opus 4.5 和Gemini 3 Pro等顶尖模型,刷新全球纪录,进一步拓展了人工智能系统的推理性能边界。


通过总参数、强化学习、推理计算的极致规模扩展,千问新模型实现了性能的大幅飞跃,刷新科学知识(GPQA Diamond)、数学推理(IMO-AnswerBench)、代码编程(LiveCodeBench)等多项关键性能基准测试的全球纪录。


具体来看,在关键的模型推理能力提升中,千问新模型采用了一种全新的测试时扩展(Test-time Scaling)机制,推理性能提升的同时还更经济。业界普遍的推理时计算,只会简单增加并行推理路径,重复推导已知结论,造成冗余推理效率低下;而千问采用的这一新机制,可对此前推理的结果进行“经验提取”式的提炼,并据此进行多轮自我迭代,在相同的上下文中实现更高效的推理计算,获得更智能的推理结果。基于这一推理技术创新,千问推理性能和推理效率大为提升,比如在启用工具的“人类最后的测试”HLE中,千问得分58.3,大幅超过GPT-5.2-Thinking的45.5、Gemini 3 Pro的45.8,录得当前所有模型的最高分。


阿里方面表示,Qwen3-Max-Thinking总参数超万亿,进行了更大规模的强化学习后训练,并通过推理技术的系列创新,最终完成模型性能的大幅飞跃。其还大幅增强了自主调用工具的原生Agent能力,模型可像专业人士一样边用工具边思考。同时,模型幻觉也大为降低,为解决真实复杂任务打下基础。目前,普通用户可通过千问PC端和网页端试用新模型,千问APP也即将接入,所有用户都可免费体验。


编辑 陈莉 校对 杨利