4月15日至19日,第27届联合国科技大会在瑞士日内瓦召开。大会期间,世界数字技术院(WDTA)发布了《生成式人工智能应用安全测试标准》和《大语言模型安全测试方法》两项国际标准,这也是国际组织首次就大模型安全领域发布国际标准。


自去年以来大语言模型技术火爆后,大模型的安全问题一直是国际关注的焦点。世界数字技术院(WDTA)是2023年4月在日内瓦成立注册的国际非政府组织,其遵从联合国指导框架,致力于在全球范围内推进数字技术,促进国际合作,其超越国界和企业利益,倡导全球统一的标准和治理机制。


创始主席皮特麦哲(Peter Major)教授表示,“我们的目标是制定全球数字标准,引领技术创新,并加强国际合作。”值得注意的是,OpenAI、谷歌、微软、Meta、蚂蚁集团、华为、科大讯飞、国际数据空间协会(IDSA)、弗劳恩霍夫研究所、中国电子等均为WDTA成员单位。


与会的世界数字技术院人工智能安全可信负责任工作组组长黄连金表示,随着人工智能系统,特别是大语言模型继续成为社会各个方面不可或缺的一部分,以一个全面的标准来解决它们的安全挑战变得至关重要。这两项标准汇集了全球AI安全领域的专家智慧,填补了大语言模型和生成式AI应用方面安全测试领域的空白,为业界提供了统一的测试框架和明确的测试方法,有助于提高AI系统安全性,促进AI技术负责任发展,增强公众信任。


WDTA牵头《生成式人工智能应用安全测试标准》


据了解,在发布的国际标准中,《生成式人工智能应用安全测试标准》由WDTA作为牵头单位。


黄连金介绍,《生成式AI应用安全测试标准》为测试和验证生成式AI应用的安全性提供了一个框架。该标准涵盖了AI应用生命周期的关键领域,包括基础模型选择、嵌入和向量数据库、提示执行/推理、智能行为、微调、响应处理和AI应用运行时安全等。主要目标是确保AI应用在整个生命周期内的行为安全,并符合预期设计。


据了解,AI STR(安全、可信、负责任)计划是世界数字技术院的核心倡议,旨在确保人工智能系统的安全性、可信性和责任性。


新京报贝壳财经记者浏览世界数字技术院官网发现,其介绍称AI STR计划“代表了我们如何开发和部署 AI 技术的范式转变。在人工智能系统中倡导安全、信任和负责任,为更加合乎道德、更安全和公平的数字未来奠定了基础,人工智能技术是进步的推动者,而不是不确定性和伤害的来源。生成式AI应用安全测试和验证标准是AI STR标准之一。”


此外,与标准同时发布的还有一项《生成式人工智能人才发展框架》,世界数字技术院介绍,ChatGPT、Stable Diffusion 等生成式人工智能应用程序迅速吸引了世界各地人们的注意力和想象力,这要归功于它们广泛的实用性——几乎任何人都可以使用它们进行交流和创建——以及更自然的人机对话。甚至,最新的生成式 AI 应用程序可以在员工的工作中执行一系列日常任务,例如数据分类、业务报告生成,甚至自动生成测试代码。广泛的利益相关者都在努力应对生成式人工智能对商业和社会的影响,需要更多的人理解和参与,从而就人工智能能力的范围、如何使用、应用场景和约束形成共识,真正实现“人工智能为人类”。


世界数字技术院发布的两项标准与一份发展框架文件 图片来自世界数字技术院官网


中国企业积极参与国际标准制定


贝壳财经记者注意到,本次会议期间不乏中国面孔,如在关于“生成式大模型安全”的小组讨论中,加拿大工程院、隐私AI、英伟达、微软和蚂蚁集团的专家同台对话。

中外专家参与大模型安全小组讨论 图片来自世界数字技术院官网


事实上,本次发布的两项国际标准正是由OpenAI、蚂蚁集团、科大讯飞、谷歌、微软、英伟达、百度、腾讯等单位的多名专家学者共同编制而成。


其中,《大语言模型安全测试方法》由蚂蚁集团作为牵头单位。该标准则为大模型本身的安全性评估提供了一套全面、严谨且实操性强的结构性方案。它提出了大语言模型的安全风险分类、攻击的分类分级方法以及测试方法,并率先给出了四种不同攻击强度的攻击手法分类标准,提供了严格的评估指标和测试程序等,可解决大语言模型固有的复杂性,全面测试其抵御敌对攻击的能力,使开发人员和组织能够识别和缓解潜在漏洞,并最终提高使用大语言模型构建的人工智能系统的安全性和可靠性。


作为标准参与单位代表,蚂蚁集团机器智能部总经理、蚂蚁安全实验室首席科学家王维强发言称,“随着生成式人工智能的兴起,我们相信它将释放巨大的生产力,但也对它带来的各种新风险高度警惕。大型科技公司应当在促进生成式人工智能安全和负责任的发展中发挥关键作用,利用其资源、专业知识和影响力推动最佳实践,构建一个优先考虑安全、隐私和道德考量的生态系统。例如,通过制定行业标准与指南,为开发和部署生成式人工智能系统的开发者和机构提供清晰指导;投入研发并开放保障生成式人工智能安全的工具,形成产业共治。”


贝壳财经记者发现,目前国内外主流厂商均在重点投入和关注大模型安全,如OpenAI四年内投入了20%的计算资源,成立专门团队构建解决对齐问题的超强AI,谷歌等12家机构联合发布“模型安全性评估框架”,英伟达推出了“护栏”软件以防止AI模型失控,360和奇安信则发布了安全大模型以及上线了针对大模型安全的业务。


而本次两份国际标准的发布则为业界提供了统一的测试框架。


“这两份标准的制定汇集了全球AI安全领域的专家智慧,填补了大语言模型和生成式AI应用方面安全测试领域的空白。它们为AI企业提供了明确的测试要求和方法,有助于提高AI系统安全性,减少潜在风险,促进AI技术负责任发展,增强公众信任。呼吁业界积极采纳这两份标准,共同努力提高AI系统的安全性和可靠性,并且参与WTDA AI STR 的标准制定工作,在AI技术快速迭代的过程中不断地完善标准。”黄连金说。


记者联系邮箱:luoyidan@xjbnews.com

新京报贝壳财经记者 罗亦丹

编辑 丁爽

校对 王心