PDF下载
战争智能化趋势下基于图像处理的目标检测算法研究

袁海东 郝宇欣 杨敏巍 杨帅 高家乐

北方自动控制技术研究所,030006

摘要: 随着战争智能化趋势的推进,智能技术在战争领域得到了广泛而深入的应用。本文针对战争智能化趋势下的图像处理方法进行研究,在目标检测中复杂背景下目标检测的算法占据越发重要的地位,本文搭建了目标检测网络并应用到目标检测中,获取目标位置信息。
关键词: 图像处理;神经网络;目标检测
DOI:10.12721/ccn.2023.157253
基金资助:
文章地址:

在FasterRCNN识别目标过程中,针对位置回归不准确的问题,提出一种基于特征金字塔的FPN_FasterRCNN目标检测方法。在特征提取阶段引入金字塔结构,融合位置信息和高层语义特征,改进位置特征提取效果。

敌对目标搜索中,图像采集与处理具有被动接受、隐蔽性高的优点。战争图像具有背景复杂、隐蔽性高等特点,传统图像处理算法在目标检测时存在无法区分隐蔽目标、检测效果不准确等问题。本文在分析机器视觉理论与现有目标检测成果的基础上,提出了基于机器视觉的目标检测方案。

目标识别问题难点是在复杂背景下识别目标,并将相似的假目标加以区分。目标检测问题在实现上可以分为目标分类与精确定位两个问题。

传统非深度学习的目标识别方法主要有:膨胀、腐蚀等形态学操作,结合Canny算子边缘检测方法、阈值分割方法等等。但是此类方法依赖于被检测的目标有较为固定的形状或者梯度等特征。也就是说传统图像处理方法在目标检测问题上具有角度依赖性、特征依赖性,目标检测的正确率也无法提高。

基于深度学习的目标检测算法不易受复杂背景的影响,对光线等外部环境变化的鲁棒性较好,由于其强大的非线性拟合性在各种任务上有较好效果好。其中,FasterRCNN是基于候选区域的目标检测网络结构,可以进行端到端的球团目标检测。

FasterRCNN是由卷积神经网络为基础架构的目标检测模型。主要由特征提取、区域生成、分类和位置回归三部分构成。

FasterRCNN网络模型的输入为RGB图像,经过缩放后以三维矩阵的形式输入网络。经过backbone特征提取网络后会生成具有高层语义信息的特征图。特征图作为RPN子网络的输入,RPN网络生成一系列初步候选框,并计算候选框的类别和置信系数,这些候选框结合特征图作为感兴趣区域池化层的输入,ROIPooling模块将特征池化选出候选框;最后采用两个全连接网络分别进行进行候选框位置回归和目标分类。

特征提取网络部分可将输入的图像点阵信息经过一系列卷积池化等操作后提取为高层特征。一般选用VGG系列特征提取网络和ResNet系列提取网络。ResNet系列网络以ResNet-101网络为代表。残差跳跃连接结构可避免梯度消失、网络退化等问题,同时残差网络相比较与VGG系列模型文件占用内存较小,故本文选用ResNet-101作为特征提取网络。

RPN全称是Region Proposal Network,即候选区域提取网络。RPN网络的输入是特征提取部分输出的特征图,经过RPN网络处理计算后可以得出一系列的矩形候选框的位置坐标信息及类别评分信息,包含了检测目标的位置和类别置信值。

经过RPN网络处理,得到的一系列建议区域包含位置坐标与类别概率,将其参数化可视为生成一系列Anchors。Anchor的两个重要的参数分别是Scale和Ratio,Scale表示的是预选框的纵横比,Ratio表示的是预选框的尺度比例。

经过RPN网络生产的候选框和特征图一起作为ROIPooling的输入,将尺寸不同建议框统一输出为7×7的固定大小,从而便于之后的候选框回归和分类的全连接层进行处理。后续网络通过全连接和softmax对候选框进行分类,再对候选框进行候选框边缘回归,获取更高精度的边缘框。

综上所述,FasterRCNN网络对输入的图像进行特征提取、候选区域生成、候选区域去重与池化和分类回归等操作后可获取目标的位置和类别信息,也就实现了复杂背景下目标识别功能。

为了验证FasterRCNN算法的有效性,本文选用表层球团矿石作为待检测目标,以底层被遮挡球团作为干扰目标,进行目标检测算法训练与应用。经过图像实验,整体上实现了复杂背景下的目标检测,可以检测出大部分表层目标。而但放大后可发现,目标检测仍然存在部分问题:

主要表现为回归位置不准确问题:对于识别出的类似椭圆单独目标,用不适宜的框标出来,且尺寸不合理,即:模型认为这是一个目标,但大致球团位置回归正确,精确位置回归不准确。在损失函数上表现为RPN位置回归损失函数与ROI位置回归损失函数约为0.3,同时由于位置不准确,也会导致正确率约为82%。

针对此问题,对于FasterRCNN的特征提取部分,本文采用的是Resnet101网络,逐层卷积提取特征。底层特征语义信息薄弱,但是尺度较大,包含更多位置信息;顶层特征语义信息更明显,但是尺度更小,位置信息薄弱。本文的目标检测是在得到的最后一层特征图上进行区域生成与回归,这样存在的弊端在于,顶层特征中忽略了位置信息,因此只根据顶层特征进行目标识别,不能完整地反映部分物体的位置信息。如果可以结合多层级的特征,就可以大大提高多尺度检测的准确性。

针对上文分析目标检测存在的问题,本小节研究在原有网络结构中融合多尺度特征金字塔结构,构造FasterRCNN目标检测模型。

特征金字塔(FPN)结构是融合底层特征与顶层特征的一种结构,具体说来是要通过横向连接将本层的特征横向连接,再通过自顶向下(top-down)的通路将位置信息薄弱、高层语义特征丰富的高层特征和位置信息丰富、但高级语义特征较弱的底层特征图进行有机结合,结合后的各层特征图会作为最终的特征图供给后续网络进行预测。

目标检测的位置回归不准确问题,其本质是因为在高层特征图中虽然较好的提取了高层语义特征,但是同时在一次次的池化层操作中也降低了本身的分辨率尺寸,减少了包含的位置信息。

在战争中目标与图像比往往较小,即而敌对目标所占的像素比例小,像素信息较少,在图像特征提取过程中高层特征损失了大部分位置信息后,分辨率只有几十数量级的特征图已经失去了足够的位置信息。为了避免高层特征图分辨率较小给检测带来的困难,本文采用了FPN特征金字塔来解决目标检测中的位置回归问题。

FPN特征金字塔的结构如图3所示,其结构主要有三大通道构成,分别是自底向上的特征上升通道、自上向下的特征下沉通道以及横向连接的横向通道。模型的输入是RGB图片,通过卷积神经网络前向传播依次进行特征提取。网络包含依次连接的卷积层、池化层等。

综上所述,本文使用了FasterRCNN网络用于智能化目标检测,并针对特征提取网络存在的位置信息薄弱问题,构造了基于特征金字塔结构改进的FasterRCNN目标检测网络结构,与改进前相比较,正确率提升约5%,测试集检测效果正确率可达87%。

在战争智能化、图像处理智能化趋势下,本文方法在一定程度上减少了目标背景复杂情况下目标检测边缘框回归不准确与特征提取不充分的问题,改善了目标特征提取性能,在敌对目标搜索中,改进了传统图像处理算法在目标检测时存在无法区分隐蔽目标、检测效果不准确等问题,可满足战争智能化趋势下的未来作战需求。

参考文献

[1]盖荣丽,蔡建荣,王诗宇,等. 卷积神经网络在图像识别中的应用研究综述[J]. 小型微型计算机系统, 2021, 42(09): 1980-1984.

[2]黄颖琦,陈红梅. 基于代价敏感卷积神经网络的非平衡问题混合方法[J]. 计算机科学, 2021, 48(09): 77-85.

[3] Krizhevsky A, Sutskever I, Hinton G E. ImageNet Classification with Deep Convolutional Neural Networks [J]. COMMUNICATIONS OF THE ACM, 2017, 60(6): 84-90.

[4] 田彦,王慧燕,王勋,等. 多任务网络融合多层信息的目标定位[J]. 计算机辅助设计与图形学学报, 2017, 29(07): 1275-1282.