新京报贝壳财经讯(记者韦博雅)11月11日晚,据北京人形机器人创新中心公众号消息,11月7日,由中国电子技术标准化研究院基于编制中的国家标准《人工智能具身智能大模型系统技术要求》正式发布了“求索”具身智能测评基准EIBench,同时邀请了多家国内顶尖具身智能团队参与了首次测评。在本次测评中,北京人形机器人创新中心的XR-1模型成为唯一一个通过测试的VLA模型,获得CESI-CTC-20251103具身智能测试证书,也成为全国首个通过测试的VLA模型。
据介绍,“求索”具身智能测评基准EIBench聚焦数据格式、具身智能大模型、安全及可信赖度等,形成基于国家标准的测评指标体系。该标准在模型侧主要面向VLA和VLM两类具身智能大模型。在模型方面,EIBench形成了“三个一”的测评准则,包括一条标准化流程,实现可复现的公平评测,建设了评测任务确定-训练数据采集-模型定向训练-任务真机测试-测试结果分析的标准化流程;一个综合任务库,覆盖多维度复杂场景;一套测试指标,量化模型综合性能。在安全方面,建立了包括可控性、鲁棒性、可问责性、隐私保护、功能安全、韧性等14项一级指标。
在测试中,XR-1共在天工2.0、UR、Franka等三款机器人上,针对取放、推拉、旋转、插入等双臂技能进行基础测试,以及物体颜色、位置、姿态,环境亮度、色温,背景、干扰物等七大维度的泛化测试,一致通过。每项测试定量采集40-50条少量数据,在每个任务每项测试维度进行10次以上的真机测试,测试全程由中国电子技术标准化研究院专家参与,在流程设计和实际执行层面均做到了标准化公平可复现。
校对 杨利






