引言:神经网络在图像识别、自然语言处理等领域已经取得了辉煌成就。残差神经网络(Resnet[1,2])已经终结了ImageNet[3,4]大赛。BILSTM[5,6]在被成功的应用于语音识别,命名实体识别等时序相关数据的信息挖掘。应用于复杂场景下的深度神经网络往往包含了数以百万计的超参数,为使这些超参数能够得到充分的训练,设计者往往需要收集足够数量数据。在数据有限的前提下,希望设计出的算法能够得到有效的训练,学者提出以联邦的方式训练神经网络。联邦神经网络[7]的特点是:整个系统包含1个全局神经网络,若干个本地神经网络;全局神经网络与本地神经网络之间交替异步训练;本地神经网络每隔一定的步长计算1次梯度,将梯度上传至全局梯度收集器,全局神经网络将收集到的提取更新自身超参数;全局神经网络每隔一定的步长将自身超参数拷贝一份,并下传至各本地神经网络,从而达到参数共享。本课题的目标是:基于联邦神经网络基本原理设计适用于交通指示灯识别的联邦神经网络算法,完成对交通信号灯红绿黄指示灯的识别。
一、图像预处理
交通信号灯数据集收集。本文使用的数据集为1500张红绿黄三种颜色的交通指示灯图像集。这些图像大多有明显的背景,通过人工的方式将这些图像裁剪成长宽一致,并且只包含指示灯的部分。裁剪的效果如图1所示。由图1可看出,红绿黄三种颜色与周围的黑色边框具备很强的对比度,故本文不在增强目标图像与背景图像之间的对比差异上做过多的研究。裁剪完之后,将图像进行翻转,即人为改变信号位置,达到图像增强的效果。图像翻转效果如图2所示。
图像标注。本文设计的联邦神经网络的具体训练过程为监督训练。监督训练方式要求每一个参与训练的样本都应具有1个或多个标签。本文使用的交通指示信号灯数据集里面的每一张图像均包含三种颜色的信号,即红色信号,黄色信号和绿色信号。基于此,给每1张图像分配3个标签,整个数据集上的图像标注形式如公式1所示。
公式1其中,B为数据集的大小,0表示红色信号,1表示黄色信号,2表示绿色信号。
a) 示例1
a) 示例2
图1 交通信号灯裁剪示例
a) 翻转前
a) 翻转后
图2 交通信号灯水平镜像翻转示例
二、联邦神经网络设计
网络基本架构。本文收集的交通指示灯数据集图像简单,本文使用BILSTM+MLP设计神经网络,即全局神经网络和各本地神经网络的基本构造为BILSTM+MLP。本文神经网络基本架构如3所示。
图3 本文联邦神经网络基本架构图
本地神经网络和全局神经网络的网络结构一样,但是归属不同的训练者。本文算法中,全局神经网络和本地神经网络均拥有自己的私有数据集。由于本文所使用的交通指示灯数据集包含的图片均来源于互联网,图片不涉密,故本文使用的联邦神经网络在训练时,本地神经网络上传梯度和全局神经网络下传自身的超参数时均不加密。
全局神经网络和本地神经网络的训练方式一致,各神经网络的优化目标一致,即最小化目标类别的交叉熵损失。由于本文中的每一张图片有3个标签,属多标签图像分类范畴,本文交叉熵损失定义如公式2所示。
公式2其中,C表示当前训练样本批次的大小分别是指当前样本被分类为标签为t的指示灯的概率,其中
。
三、交通信号灯识别实验
交通信号灯的识别试验主要包括如下3个方面:数据集的划分,神经网络超参数基本设置,实验结果。
(一)数据集划分
本文使用的联邦神经网络算法涉及到多个神经网络,每一个神经网络均需分配1个子数据集。基于此,将交通信号灯数据集切分成N份,且不相交,如公式3所示。由于本文使用的数据集规模较小,不宜做过多的划分,故取N=3,即将数据集划分成3个子集,分别对应1个全局神经网络和2个本地神经网络。
公式3
(二)联邦神经网络参数设置
基本参数设置。基本参数设置如表1所示。表1规定了本文算法训练过程中所需的基本参数。全局梯度收集队列的每一个元素为本地神经网络上传的梯度,队列的大小设置为5,全局神经网络的超参数下传周期很短,目的是加快各神经网络之间的超参数共享速度,从而达到快速训练的目的。
网络的超参数设置。全局神经网络和本地神经网络基本超参数设置如表2所示。
表1 本文算法的基本参数设置
Table 1 Basic parameter setting of the paper
注:各神经网络训练结束与否互补影响
表2 网络的超参数设置
Table 1 Hyper-parameter setting of the Network
注:全局神经网络和2个本地神经网络均采用BILSTM最后一个时间步正向和逆向向量拼接之后的结果作为图像特征。
表2规定了全局神经网络和本地神经网络的超参数,虽然全局神经网络与本地神经网络的超参数数目一致,但是对于每一个网络而言,其超参数是私有的,互不影响,联邦训练的机制使得各神经网之间存在超参数的交换。
(二)实验结果
交通指示灯实验结果如图4所示。a)、b)、c)分别是全局神经网络,本地1和本地2神经网络在交通指示灯数据集上识别的准确率曲线。可以看出,当模型接近收敛时,平均准确率为93%左右,已经达到了比较高的准确率。
a) Global Accuracy b) Local one Accuracy c) Local Two Accuracy
图4 交通指示灯识别准确率
从预测结果来看,本文使用的联邦深度学习算法能够有效的在3个子数据集上进行有效的学习,并且最终能达到很好的学习效果,这一方面是本文对交通指示灯进行了数据增强,另一方面是使用了BILSTM(双向LSTM)结构来提取图像特征,并且神经网络的基本参数和超参数设置比较合理。本文将会在更多的多标签数据集上进行实验来验证算法的可行性和可靠性。
结束语:本文使用的联邦深度学习算法在交通指示灯识别上表现出较好的效果,并且该算法适合异地联邦训练。将此技术应用于车载驾驶指示灯语音提醒,各私家车主之间就能利用本文模型进行异步联邦训练,增强交通指示灯识别的准确率,从而减少交通事故。
参考文献:
[1]Szegedy C , Ioffe S , Vanhoucke V , et al. Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning[J]. 2016.
[2] 杨维民, 安征. 结合图像分割和ResNet18的危险驾驶行为识别[J]. 信息通信, 2020(6):7-8.
[3] Russakovsky O , Deng J , Su H , et al. ImageNet Large Scale Visual Recognition Challenge[J]. International Journal of Computer Vision, 2015, 115(3):211-252.
[4] Jia D , Wei D , Socher R , et al. ImageNet: A large-scale hierarchical image database[J]. Proc of IEEE Computer Vision & Pattern Recognition, 2009:248-255.
[5] Lin C Y , Xue N , Zhao D , et al. A Convolution BiLSTM Neural Network Model for Chinese Event Extraction[J]. Springer International Publishing, 2016, 10.1007/978-3-319-50496-4(Chapter 23):275-287.
[6] 蔡志鹏, 李建清, 刘澄玉. 融合CNN和BiLSTM的心律失常心拍分类模型[J]. 中国生物医学工程学报 2020年39卷6期, 719-726页, ISTIC PKU CSCD, 2021.
[7] 程勇, 薛焕然, 符芳诚,等. 联邦神经网络模型的训练方法,装置,设备及存储介质.