7月12日,在2023新京报贝壳财经夏季峰会“人工智能潮涌 生成数智未来”主题论坛上,蚂蚁安全天筭实验室首席科学家、蚂蚁集团可信AI技术负责人张天翼表示,“AI的通用能力和可信要素是大模型发展的双翼。负责任、可信的人工智能,已经成为AI发展一定需要考量的维度。”


蚂蚁安全天筭实验室首席科学家、蚂蚁集团可信AI技术负责人张天翼


大模型带来新AI时代的风险和挑战


2023 年,以大语言模型为代表的生成式人工智能兴起了新一轮 AI 浪潮,AI的通用能力大幅提升,同时使用门槛却大幅下降,给产业数字化、以及各行各业的创新都带来巨大的想象力空间。


“大模型是新AI时代到来的标志。”张天翼说,“但同时,大家也很快注意到,AI技术的固有风险也被极度扩大,伴随着能力的突破性进展和智能涌现,带来了更隐蔽、破坏性更强的风险。如此强大能力的技术,结合低门槛的应用,在数字网络中打开了更大的风险敞口。”


近日,国家网信办等七部门联合公布《生成式人工智能服务管理暂行办法》,自2023年8月15日起施行,旨在促进生成式人工智能健康发展和规范应用,维护国家安全和社会公共利益,保护公民、法人和其他组织的合法权益。国家互联网信息办公室有关负责人指出,生成式人工智能服务的发展与治理需要政府、企业、社会、网民等多方参与。


据了解,蚂蚁集团对智能化技术的投入比较早,基于大规模业务场景的需求,布局了包括知识图谱、运筹优化、图学习、可信AI、大模型等在内的AI技术。


可信AI是蚂蚁集团在人工智能领域的重点布局之一。蚂蚁集团从2015年就开启了可信AI技术的探索和实践;2021年,其提出了可信AI技术架构的同时,断言“可信AI是数字化时代抵御风险的核心能力”;2022年,蚂蚁集团的核心观点是要通过“开放的可信AI技术生态助力数字经济”。通过可信AI技术的突破,蚂蚁集团建设了一套世界领先的智能风控解决方案,支撑了支付宝的资损率连续三年低于亿分之一,保障了十几亿人的数字化服务体验。


而在今年大模型出现,新AI时代到来的背景下,张天翼表示,这也给可信AI技术提出了更高的要求,所以蚂蚁集团今年的观察和抛出的观点就是“新AI时代亟需安全、可靠、可控的AI技术”。


张天翼举例称,生成式大模型存在“AI幻觉”,即“一本正经的胡说八道”。比如,当模型在面对“不知道”的输入问题,时常使用虚构或伪造的结论来充当问题的答案。同时,针对用户否定的提示信息,模型也会趋于否定先前的推理结果以迎合用户的提示,这种就被称为大模型的“幻觉性”问题。


大模型因其算法的高度复杂性和不确定性、模型运行的强自主性导致“黑箱”问题和不可解释,使得其决策链路存在高度不理解和不可控性。此外,大模型的隐患还包括隐私安全问题和偏见、歧视性等公平问题。


针对大模型等AI创新所带来的风险,张天翼表示,以AI 安全和鲁棒性、可解释性、隐私保护和公平性为核心的可信AI已经成为新阶段平衡AI创新与风险的核心技术手段。


如何为大模型“保驾护航”?保障用户输入、大模型服务、生成输出三环节


蚂蚁安全天筭实验室首席科学家、蚂蚁集团可信AI技术负责人张天翼


“在新AI时代,我们看到的不仅是机遇,还有挑战。”张天翼说,“为解决大模型的安全问题,我们需要在用户输入、大模型服务和生成输出三个环节做出保障,使得其在应用过程中更加安全、可靠、可控”。”


第一是围栏防御,“我们对用户输入过程中的意图、话题本身、以及是否有诱导攻击等进行原子化识别,检测输入中可能包含的各种内容风险、数据安全风险、伦理风险和合规风险等问题。”他表示。


“第二是,当发现有风险的时候,需要能够快速响应。因此,我们构建了极速防御的机制,通过极速防御技术,快速迭代风险防控能力。”张天翼说,“最后是情景防御。大模型因其使用场景的广泛,以及语境本身对其表达的含义的影响,我们需要在特定场景下,感知其环境,并在跟用户的多轮交互中,结合多源信息融合综合判断风险进行防御。”


此外,针对大模型“深度黑盒”带来的不可控性,蚂蚁集团在大模型的训练和应用过程中,通过数据“去毒”、系统解构、对抗训练、可解释研究等技术手段,探索模型可控的保障。


例如,蚂蚁集团基于多源异构数据源,通过不同风险领域专家模型的训练,实现了大模型的解构,当大模型的交互内容内包含一些伦理倾向时,就可以自动选择伦理风险的网络结构,实现大模型输出上的“去毒”(抹除伦理信息和价值引导)。


“通过模型解构设计,我们可以使得大模型的具象风险大幅下降,比如犯罪风险漏过下降58.8%。另外,通过RLHF/RRHF(强化学习)的方式,在支付宝AI反诈产品“叫醒热线”中应用语言大模型,做了4个关键设计来确保最终输出给用户的叫醒内容可控。这一可控能力的应用,助力支付宝体系内电诈案件率下降10%。”张天翼说。


近期,随着大模型和AIGC(AI生产内容)的爆发式增长,相关评估检测也受到广泛关注。目前关于AIGC的评估主要包括通用能力评测(helpful)与安全性(harmless)评测两大方向。


据了解,在7月7日举办的2023世界人工智能大会上,蚂蚁集团联合清华大学发布AI安全检测平台“蚁鉴2.0”,面向全球开发者免费提供AIGC安全性、AI可解释性、AI鲁棒性三项检测工具。该平台是业内首个实现产业级应用的全数据类型AI安全检测平台,覆盖表格、文本、图像等多种数据和任务类型,可服务于数字金融、教育、文化、医疗、电商等领域的大规模复杂业务场景。


“蚁鉴2.0”的两项硬核能力,一是实现了用生成式AI能力检测生成式AI模型,可以对生成式内容完成包括数据安全、内容安全、科技伦理三大类的数百种风险对抗检测,并会生成检测报告,帮助大模型更加有针对性地持续优化。


另一项硬核能力是,“蚁鉴2.0”融入了可解释性检测工具。综合AI技术和专家先验知识,通过可视化、逻辑推理、因果推断等技术,从完整性、准确性、稳定性等7个维度及20余项评估指标,对AI系统的解释质量量化分析,帮助用户更清晰验证与优化可解释方案。


“我们的设想是希望能打造普惠、高效、以及鲁棒可靠的安全科技,成为行业数字化转型升级最得力的助手。”张天翼表示。


文/罗亦丹

编辑 宋钰婷

校对 朱名恬 卢茜