一、引言
近些年来,关于机器学习和深度学习的研究领域获得了很多实质性的飞跃,在工业领域的应用也在不断加深。目前深度学习在各个领域中的应用已远远超过了传统的机器学习,深度学习在本质层面是利用神经网络进行学习和表达数据的特征,深度学习能够从更本质出发提取数据的特征,特别地,在图像识别领域,卷积神经网络有着不可替代的强大优势。另外,基于深度学习的模型在图像识别和机器翻译及人脸识别、自动驾驶汽车等现实应用中发挥着重要作用。
传统的后门攻击方式一般是在应用程序或操作系统中嵌入恶意代码,因此攻击者可以获得更高的特权来实现其特定目的。在最近的研究中,后门攻击被运用到神经网络,也因此发展了一个基于深度学习的后门攻击的新研究领域。基于深度学习的后门攻击主要是在神经网络模型中通过植入后门,因此攻击者可以在目标神经网络模型中获得非法的能力。
在现实中,如果神经网络模型出现安全隐患,那么对于基于神经网络的各类智能产品和应用造成致命的打击,特别地,对于自动汽车驾驶或人脸识别等一些和人身安全相关的智能系统来说,后果不堪设想。另外,一般使用者对于神经网络模型的参数表示是无法理解的,因此使用者很难通过深度学习模型去分辨其中某个神经元是否为必需的或者有害的。此特点保证了当后门被植入模型后,使用者基本不可能通过观察模型的参数,发现后门。正因为这些特点让基于深度学习的后门攻击能够有良好的隐蔽性同时危害性极强,受到了研究领域的高度重视,成为当前研究的热点之一。
二、神经网络和对抗样本攻击
作为机器学习的技术之一,神经网络同时也是研究深度学习不可或缺的基础。神经网络实现人工智能的过程实质就是模拟人类大脑的过程。神经网络从神经元模型开始,发展到前馈神经网络和单层以及多层神经网络,再到当前在图像识别领域中应用非常广泛的卷积神经网络(CNN),以及在语言处理研究中占主导地位的循环神经网络(RNN)和各种针对特定应用而衍生出来的神经网络。
什么是对抗样本攻击呢?举个简单例子来说,一张小猫的图片,被模型以67.7%的置性度分类为猫,加上一个微小的噪声之后,虽然图片用人的肉眼看上去还是猫,但是却被神经网络模型模型以99.3%的置性度分类为狗。加上噪声的样本本质上就是对抗样本,对抗样本 攻击就是通过各种方法生成对抗样本。对抗攻击又可以分为黑盒和白盒。
黑盒攻击中,是无法预知模型的具体结构和详细的参数,也不能参与模型的训练,通常只能获得模型最后一次的输出。而白盒攻击是可以预先清楚模型的具体结构和详细参数包括每一层的卷积核权重在黑盒白盒攻击的分类以后,又可再细分为无目标攻击与有目标攻击。前者仅简单地希望模型发生错误,后者希望模型将修改后的输入即对抗性输入推理为特定目标。
三、神经网络后门概述
后门攻击作为AI安全的一个子研究领域,最主要研究的是数据模型的安全性,不同于对抗攻击和防御主要是预测过程中的安全,后门攻击关注的是深度学习在训练过程中的安全性。后门攻击灵活的将后门植入数据模型中,导致系统分类功能出现异常。通常,攻击者会对后门进行精心设计,因此经过修改之后的模型会对触发输入非常敏感,之后只要有触发输入,那么就会在模型的推理过程中发生错误,此错误正是攻击者精心设计的。
后门攻击的目的主要是希望被攻击的模型在预测正常样本时和普通模型保持一样的精度,当出现被攻击的样本时,这些样本会被分类到攻击者预先指定的目标分类。之对于正常的样本,系统的预测不会出现错误。通常一个后门的植入过程是非常隐蔽的,很难被发现,只有特定的输入才能触发后门行为。在大型数据集上进行机器学习模型的训练,通常需要多方基于梯度共同进行训练。在模型训练以及使用的整个过程中需要多次对梯度进行更新,因此在更新模型参数的过程中多方都可能会对机器学习模型进行攻击。
四、后门攻击场景
1、使用第三方数据集
一般对于攻击者来说,最难的场景就是用户使用的是第三方的数据集,在这种情况下,攻击者只能修改训练数据集,不能操纵模型的训练过程和模型的结构等。相反,防御者却可以操纵很多方面,基本上可以修改很多东西,包括模型结构和训练的数据集等。此种场景是很常见的,对于一些大型公司,经常会把数据的标注等工作外给第三方数据公司,因此就会出现此种攻击场景。
2、使用第三方平台训练
当使用第三方工具平台进行数据训练时,攻击者可以操纵除掉数据模型之外所有的东西,相反,这种情况下防御者不能接触到真正的训练集和训练方案,因为攻击者是可以在服务器端进行数据的修改。但是这种情况下,防御者是可以有一个本地的良性数据集用于防御。
3、使用第三方模型
对于攻击者来说,使用第三方模型是有很多操作空间的,因为此种情况下通常会有第三方模型API的依赖,因此攻击者可以修改任何东西,包括模型结构、训练数据集等。而防御者是不能接触到训练数据集和训练方案的,而只能去采用其他方式测试有没有后门。
四、后门攻击种类
1、基于修改训练数据的方法
基于修改训练数据的方法主要是在训练数据集中加入含有触发图案的训练数据,从而让模型在训练中学到从触发图案到想要的那些特定结果之间的联系。如此,只要模型一接触到触发图案就会产生攻击者想要的结果。比较常用的触发图案是用一小块像素的修改,还有一种就是在当前的图案混合进另外张图案的混合图案,这两种触发图案在数据共享或者模型共享中都是可以应用的。
2、基于修改训练算法的方法
基于修改训练算法的方法不会通过修改图案生成触发图案而是会直接通过某种算法生成触发图案,然后直接去修改训练模型中通过训练得到的参数,使得模型能被触发后门。此种类型的攻击只适用于模型共享而不适用于数据集共享,因为此方法还涉及到修改训练算法。
3、基于训练数据集和训练算法的融合
此种方式其实是将前两种方式进行融合,首先通过修改训练数据的方法训练出一个中毒的模型,然后将训练出来的中毒模型局部替换目标模型,由此将后门植入到模型中。
五、结语
作为一个全新的并快速发展起来的攻击,后门攻击不仅在人工智能的各种应用中真实存在,尤其其本身的特点会导致可怕的后果。本文根据目前研究者们对于后门攻击研究的最新进展,先后介绍了后门攻击概念、攻击场景、攻击的种类。目前很多研究者们都致力于后门攻击的方法和防御,这对于整个人工智能的安全性研究无疑是具有重大意义的,但目前的研究还远远不够,比如研究对抗攻击与后门攻击的融合、后门攻击研究对象的扩展等,都是需要不断深入和努力的方向。
参考文献:
[1]娄高中,谭毅.基于PSO-BP神经网络的导水裂隙带高度预测[J/OL].煤田地质与勘探:1-6[2021-07-08].
[2]安泽亮,张天骐,马宝泽,邓盼,徐雨晴.基于一维CNN的多入多出OSTBC信号协作调制识别[J/OL].通信学报:1-10[2021-07-08].
[3]朱磊. 基于流量特征图的深度学习入侵检测方法[D].南京邮电大学,2020.
[4]岳子涵,薛质,沈兴文,吴毅良.基于语义分析的PHP Webshell检测方法研究[J].通信技术,2020,53(12):3051-3055.
[5]肖中正. 基于贝叶斯网络的Webshell检测方法研究[D].新疆大学,2020.
作者简介:陈丹(1991-2-),女,苗族,湖南省邵阳市,长沙民政职业技术学院软件学院,硕士研究生,讲师,研究方向:计算机网络与安全。
张丽(1990-12-),女,汉族,山东省临沂市,长沙民政职业技术学院(软件学院),硕士研究生,讲师,研究方向:软件开发和计算机专业课程思政研究。