1. 引言
根据权威的数据信息泄露统计得知,仅仅近一年内,Web应用程序攻击增长率达到了400%之多。互联网使用者数量的爆发式增长,互联网使用的安全性问题已经逐步成为亟待解决的关键性问题。
一般情况下,Web应用程序在互联网中表现出的功能性以及技术底层原理是用户最为关切的话题与领域,而安全性问题被置于身后。因此,存在较大比例的应用程序是基于初始的架构单元,极易受到网络攻击,进而危害互联网使用者的账户与隐私信息。传统IDS针对于应用层的防护程度有待加强,但是Web防火墙恰巧可以补偿传统方法表现出的不足与缺陷。基于此,本文以Web攻击检测作为分析对象,创建出具有针对性且准确率较高的辨识工具。
2. 基于卷积神经网络的SQL注入攻击检测方法
当前,数据信息对于个人、企业甚至国家而言具有重要价值,若关键性的数据出现泄露问题,则会造成不可预估的财产损失。攻击人员一般会选用SQL注入的方式来获取对方的信息文件,从本质上分析,SQL注入成功的基础评定准则是用户程序没有精准且有效地筛选或过滤对应输入。根据现有浅层机器学习所表现出的精准度差缺陷,创建基于卷积神经网络的检测分析模型,用于优化传统方法的准确度特征。
2.1 整体概述
基于卷积神经网络(CNN)的识别模型可参见图1所示。具体来看,在模型的训练环节,执行流量信息集合的预处理之后,解析SQL注入攻击语句相关的有效载荷信息,并将结果作为模型的初始导入源。而在实际的测试过程中,同样需要对注入数据信息集合进行初始解析,解析结果作为辨识模型架构的输入源,并导出识别的信息。
图1 基于卷积神经网络的SQL注入攻击识别模型
上述模型的核心与计算出就是卷积神经网络,将解析获取的词向量作为CNN的初始导入源,CNN模型的架构图可参考图2所示。模型中所包含的卷积层数量共三个,且卷积模式表现一致,padding定义成same形式。
图2 CNN架构示意图
卷积层的公式表征如下:
在上述表达式中,N定义为模型输出特征参量;W表征导入系统的词向量,此处为矩阵形式;F代表卷积核;P表征为填充参量。
模型中的池化层规模均设置为2*2,且输入的参数特征都需要按照最大池化进行解析。
全连接层所覆盖的全部节点同池化层的数据点相互关联,为了保证过拟合处于最低水平,模型内增添了dropout处理环节。
2.2 实验分析
此次实验测试过程中,其原始的数据信息集合界定为三部分,首先是HTTP CSIC2010内的攻击信息源;其次是Github开源项目内的信息集合;最后是采用WIRESHARK所采集的数据集合。
测试操作系统选用的是window 10,编译环境选择为Python 3.7。基于选定的原始样本集合,针对解析准确率、精准度等评定标准作出分析对比,测试结果见图3所示。
图3 模型性能比较图示
从图中的测试结果可以看出,基于卷积神经网络的模型分析准确率等参量评定结果均保持在96%,而其余三种方法的实验值小于本节所提方法。
3. 基于支持向量机的WEB攻击检测方法
一般在TCP/IP模型架构中,普通防火墙的工作原理仅仅是包过滤原理,无法对应用层内所覆盖的信息进行有效解析。现有基于机器学习方法完成特征提取的过程较为繁琐,对测试环境的条件要求严格,因此针对高效率的WEB攻击检测方法的分析更具备价值。
3.1 基于请求特征的SVM识别
图4所示是基于请求特征分析模型的基础架构,本模型在处于训练阶段就筛选处理部分能够表征攻击特征的数据源,依托实际的特征处理来训练SVM分类模型信息。
图4 基于请求特征的识别模型
从SVM的机理上进行研究,其本源属于二分类的分类单元,即检索出一个超平面,根据此平面来完成导入数据信息的界定分类,将正样本集合空间定义成H1,对应的负样本空间集合定义成H2,参见图5所示。
图5 超平面划分示意图
针对空间中全部点集合到超平面之间的间隔表达式可以写成如下形式:
其中正、负样本空间的间距用来表征,实际解析流程内检索该值得极大值即可。
3.2 实验分析
为了确保测试结果的可靠性,将样本集合作初始定义。其中正常请求数量设置成36000,非正常请求的数量设定为25000个。
测试操作系统选用的是window 10,编译环境选择为Python 3.7。基于设定的正常、异常样本集合,针对解析准确率、精准度等评定标准作出分析对比,测试结果见图6所示。
图6 模型测试结果图例
从图6的测试结果可以看出,本节所提出的基于支持向量机的检测方法在准确度等评定标准层面均优于现有方法。
4. 结论
伴随着全球范围内互联网用户的爆发式增长,网络安全问题成为该领域内亟待解决的关键性问题。当前,互联网防火墙无法应对新型攻击方法与模式,基于该应用缺陷,本文搭建出一种基于卷积神经网络的检测方式以及基于支持向量机的检测方式,最后借助于实验方法来验证所提两种方法的正确性与稳定性。
[1] 国 家 互 联 网 应 急 中 心 . 2019 年 上 半 年 我 国 互 联 网 网 络 安 全 态 势 [EB/OL]. https://www.cert.org.cn/publish/main/46/index.html. 2020-01-05.
[2] 中华人民共和国国家互联网络信息办公室. 2019 年上半年中国互联网络发展状况统计报告[EB/OL]. http://www.cac.gov.cn/2019-08/30/c_1124938750.htm. 2020-02-03.
[3] A. D. Rayome, Report: Web application attacks up 69% in Q1 2019, here's what to do [EB/OL],Available: https://www.techrepublic.com/article/report-web-application-attacks-up-69-in-q1-2019-heres-what-to-do/, Accessed: 2020-01-14.
[4] Claffy K, Clark D. Workshop on Internet Economics (WIE 2019) report[J]. ACM SIGCOMM Computer Communication Review, 2020, 50(2):53-59.
[5] Grandhi S A, Plotnick L, Hiltz S R. An Internet-less World?: Expected Impacts of a Complete Internet Outage with Implications for Preparedness and Design[J]. Proceedings of the ACM on Human-Computer Interaction, 2020, 4(GROUP):1-24.
[6] Marchand-Melsom A, Bao D, Mai N. Automatic repair of OWASP Top 10 security vulnerabilities: A survey[C]// In Proceedings of the IEEE/ACM 42nd International Conference on Software Engineering Workshops (ICSEW'20). Association for Computing Machinery, New York, NY, USA, 2020:23–30.
[7] 方爽. 基于特征匹配的 WEB 应用防火墙的研究与实现[D]. 安徽大学, 2014:5-12.