细粒度图像分类致力于识别相同级别类别中的子类,工作重点在于快速有效地自动定位关键局部区域信息整合,在车辆监控、物种鉴定、人脸识别中有广阔的应用前景。人脸识别[1]特点在于类间差距小,类内差距大,因此是细粒度图像识别与处理[2]的一个热门领域。细粒度图象识别与分类研究难点在于子类的类间差异不大,且外部因素如视角、光照、距离等易产生干扰,在不同类的事物在不同可视角度显示极高的相似度条件下,挖掘细微的图像差异以保证正确的分类图像。
为了解决上述问题,本文在改进残差模型的基础上[3],采用注意力机制增强特征的提取能力,结合多尺度特征金字塔思想进行下采样特征融合,嵌入BN模块以解决大量计算参数,并用relu作为损失函数,提出基于通道注意力模块的多尺度特征融合残差神经网络(channel attetion multi-scale fusion)CAMF-ResNet。生成自下而上的不同尺度的金字塔结构,并通过另一个自上而下的增强特征信息的表达,横向的进行相同尺度的特征融合构成最终的特征金字塔。
1 模型构建
模型结构如图1,左侧采用ResNet_34作为基本网络结构进行卷积下采样,右侧提出一种特征融合算法基于多尺度特征金字塔结构进行卷积上采样,其次针对大量需要人工设置的参数嵌入BN(Batch Normalization)模块。最后在残差结构的输入和输出嵌入ECA模块以改善传统注意力机制对预测的副作用。其中,ECA模块是去除了原来SE模块中的全连接层,在全局平均池化之后的特征上通过一个1D卷积(经过池化后转为序列的形式[b,1,c]再用于1D卷积)进行学习。
2 实验研究
实验数据集采用MegaFace数据集,MegaFace数据集是目前最具挑战性的人脸测试集,由两个现存的数据集Facescrub和FGNet作为查询集,并从互联网收集干扰集若干。该数据集是第一个采用百万级进行人脸识别测试的数据集,测试结果如表1所示。
表 1 MegaFace分类效果
方法 | 性能/% | |||
GroupFace | 97.34 | |||
FaceNet RegularFace SoftMax ArcFace 本文 | 70.49 91.12 54.85 96.98 97.35 |
实验表明,本文在MegaFace取得了具有竞争力的结果,图像识别精度达到97.35%。
3 结论
针对低分辨率场景下常用人脸识别方法训练不易收敛,本文提出了基于通道注意力模块的多尺度特征融合残差神经网络CAMF-ResNet(channel attetion multi-scale fusion)。首先利用多尺度特征金字塔思想定位多尺度人脸区域,分层特征交互融合,结合resnet-34构建卷积特征图中各个通道之间的相互作用关系以解决深层网络退化问题。然后针对需要大量人工设置的参数嵌入BN层进行优化,优化调参工作效率的同时加速网络的收敛。再采用ECA注意力机制提取分层多尺度局部表示,避免传统的SENet对预测的副作用并提高捕获所有通道的依赖关系的能力。但相较于常用人脸模型,本文损失函数在深层网络中计算成本较高,未来将探索优化损失函数降低计算消耗的时常。此外,实际应用中,对模型的局部算法结构进行优化以应对外部因素诸如光照、拍摄角度等从而实现复杂场景的人脸识别特征挖掘。
[1] 余璀璨, 李慧斌. 基于深度学习的人脸识别方法综述[J]. 工程数学学报, 2021, 38(04): 451-469.
[2] 罗建豪, 吴建鑫. 基于深度卷积特征的细粒度图像分类研究综述[J]. 自动化学报, 2017, 43(08): 1306-1318.
[3] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6).