AI(人工智能)浪潮不断向前,作为AI三驾马车之一,算力需求始终如影随形。
近日,新京报贝壳财经记者跟随工信部新闻中心走访了河南郑州多家服务器厂商、大模型公司和算力中心。在走访中,记者发现,液冷技术正被算力行业青睐,出于价格成本等原因暂未全面推行,不少算力中心仍是液冷与风冷“两条腿走路”。另外,超级计算和量子计算均有望进入商业算力供给体系。只不过,量子计算商业化仍需等待,超级计算地方中心已能够实现日常50%左右的利用率。
在“东数西算”工程下,河南正在打造中部算力高地。9月27日至29日,2024中国算力大会将落地郑州。据河南省通信管理局党组成员、一级巡视员孙力透露,中国算力平台(河南)将在本届算力大会上正式开通,算力规模达到4.2EFLOPS(floating-point operation per second,每秒浮点运算次数)。
液冷成行业趋势,服务器只奔着某个单点方向前进未必成功
光模块、AI服务器、AI芯片、交换机、液冷设备组成AI算力五大硬件设备。基于AI训练、推理和应用深入产生的算力需求,AI服务器将迎来高速增长时期。市场研究机构TrendForce集邦咨询预估,2024年AI服务器出货量将达167万台,年增长率为41.5%,产值将达1870亿美元,占整体服务器高达65%。
记者在走访中观察到,不少AI服务器厂商将提供定制大模型或相关服务作为新的业务增长点。例如,浪潮信息和新华三都开发了各自的大模型,超聚变数字技术有限公司(以下简称:超聚变)在云上增加一层操作系统对大模型进行调优,但超聚变董事、公共及政府事务部总裁李翔宇表示,从目前的销售额来看,服务器等硬件业务的占比仍更多。
通常,AI服务器采用“CPU+加速芯片”的架构形式,可分为:CPU+GPU、CPU+FPGA、CPU+ASIC等混合架构,在进行模型训练和推理时效率更高。由于散热需求强烈,CPU+GPU的服务器也逐步采用液冷制冷方式。
与传统服务器采用的风冷技术相比,液冷技术具有高效散热、节能降耗等优势,现已成为服务器行业发展趋势。2023年,国内服务器头部厂商浪潮信息宣布要“All in 液冷”;中国移动、中国电信、中国联通三大运营商联合发布《电信运营商液冷技术白皮书》并提出将在2025年开展液冷技术规模应用,实现50%以上数据中心项目应用液冷技术。
超聚变数字技术有限公司工作人员在讲解液冷设备工作流程。新京报贝壳财经记者 韦英姿 摄
IDC数据显示,2023年上半年国内液冷服务器市场占比前三的厂商分别为:浪潮信息、宁畅和超聚变,共占据七成以上的市场份额。未来国内服务器厂商是否可能凭借液冷技术实现生态位的改变?
对此,李翔宇表示,新技术需要考虑市场空间。他认为,行业在发展过程中可能涌现新的变化、客户需求和技术路径,企业向某个单点方向走未必能保证成功。“企业需要坚定地坚持业务战略,才能在各种变化下快速适应转化,实现突破。”
另外,浪潮信息河南区云装备销售部副总经理贺磊透露,在2024中国算力大会上,浪潮信息将带来新一代液冷的MDC(元数据控制器)、液冷多元算力AI服务器等产品。
“目前液冷产业推广过程中面临的一个重要课题是如何在液冷数据中心的建设成本和投资回报率,以及运维安全性上做到均衡。”IDC中国服务器市场研究经理辛一分析称,这需要产业相关组织、机构、企业及合作伙伴在标准制定、成本控制、技术创新等方面共同努力,加大投资和配套设施建设力度。
他预计,液冷行业将迎来“刚需”放量元年。根据IDC数据,互联网行业是2023年国内液冷服务器市场最大买家,占整体市场的46.3%,有望在未来几年持续加大采购力度;此外,电信运营商、泛政府用户也是未来液冷需求的主要来源。
算力资源走向多元化,异构计算调度难尚未出现便捷、通用的解决方案
2023年10月,工信部等六部门印发了《算力基础设施高质量发展行动计划》(以下简称:《行动计划》)并要求构建通用、智能和超级算力协同发展的供给体系。当前,国内算力平台的算力资源多为混合型,通常包括通用计算、智能计算、超级计算,有的甚至已经宣布接入了量子计算机。
郑州人工智能计算中心(中国联通中原数据基地)机房。新京报贝壳财经记者 韦英姿 摄
与普通计算相比,超级计算和量子计算的计算速度更快、确定性更高。接入算力体系后,超级计算是否会形成对普通计算的“降维打击”?河南移动规划技术部李仲刚分析称,两种计算各自的领域不同,在诸如工厂识别螺丝钉好坏等数据量较小的项目上使用超算“意义不大”。
与超级计算相比,量子计算完全进入智算领域还有较长的路要走。一位河南国科量子通信网络有限公司工作人员表示,量子计算机离作为算力领域基础设施的商业运用还有一段距离,目前仍处于“没走出实验室”的阶段。
另外,量子计算可能的安全风险也成为商业化前需要解决的问题。国科量子通信网络有限公司副总裁、河南国科量子通信网络有限公司董事长、河南国科量子通信技术应用研究院院长王家勇表示,量子计算对目前一些非对称的密码算法会产生较大的安全威胁。但他也表示,离这类安全风险到来还有相当长一段时间,“现在需要做好技术储备,将现有密码体系迁移到抗量子计算的密码体系中。”
根据《行动计划》要求,到2025年,计算力方面,算力规模超过300EFLOPS,智能算力占比达到35%。据工信部等六部门测算,1EFLOPS约为5台天河2A或50万颗主流服务器CPU或200万台主流笔记本的算力输出。为提升算力调度效率,不少硬件企业和算力中心都建成了算力调度平台。据记者了解,国家超算郑州中心能够提供的超算峰值是100P。
近年来,随着越来越多异构芯片被应用于全国各地算力集群,异构计算难以被有效利用和调度的问题日益凸显,逐渐成为中国大模型产业发展瓶颈。“异构计算本身的并行调度就是一个比较难的课题。”国家超算郑州中心主任助理、副教授刘润杰表示,异构计算在研究串行算法如何变成并行算法的问题,首先要确保算法的正确性,“因为并行化后可能会出错”,其次还要保证它的高效性。
“机器、加速卡等不同,所调度的算法也不一样,因此一个计算要针对不同的设备进行优化,这些工作比较复杂,目前没有比较便捷、通用的途径,还需要各方努力研究。”刘润杰说。
新京报贝壳财经记者 韦英姿
编辑 岳彩周
校对 付春愔