场景识别是计算机视觉领域的热门话题。它是指计算机对图像或视频中的场景进行识别和分类的能力。我们知道,网站中每天都有大量的图像信息[1]。人工对这些图像进行分类、处理和识别显然是不现实的。在这种情况下,场景识别技术就显得尤为重要和适用。此外,场景识别在道路交通、自动驾驶、机器人和安全监控中发挥着巨大的作用[8]。
基于此,本文设计了一种神经网络结构来识别室内场景[2]。我们在本文中所做的重要更改如下:
(1)我们设计了双帧卷积神经网络结构来优化室内场景识别的效果。双帧卷积神经网络结构框架主要由11层网络结构和13层网络结构组成[3]。浅层网络用于处理全局信息,深层网络用于处理详细信息。我们可以通过全局和局部组合的方法获得更多的场景信息。
(2)该网络在11类室内场景数据集上进行了实验。通过改变光照条件和拍摄设备,给出了四组对比实验,展示了不同条件下网络结构的识别准确率。
从实验现象可以发现,本文设计的多帧网络算法结构具有较好的场景图像识别效果。
数据集
在我们的研究中,数据集来自Sahdev和Tsotsos[11]。数据集中的所有图像均由两个名为Pioneer和VirtualMe的移动机器人拍摄,如图1所示。
图 1. 用于拍照的机器:Pioneer 和 Virtual Me [11]
因为数据集来自Sahdev和Tsotsos[11],所以在[11]中只使用了11个场景来做一些实验。为方便对比,本文选取相同的11个场景数据进行实验。图2显示了数据集中的11个场景。
图 2. 数据集中的11个场景类别
网络结构
VGG网络有四种结构:11层、13层、16层和19层网络[4]。随着添加更多的层(添加的层以粗体显示),配置的深度从左(A)到右(E)逐渐增加。卷积层参数表示为“接受域大小(conv)-(通道数)”。为了简单起见,没有显示ReLU激活函数。
在本文中我们设计了一种多帧卷积神经网络算法结构来加强对图像分类识别的准确度[5],图3显示了多帧卷积网络结构。我们使用的卷积神经网络选择11层网络(A)和13层网络(B)作为新的网络基础[9]。主要原因是:网络的层数越多,所需要处理的参数就会越多,最后的计算量就会越大,运行的时间也就会越长。通过后续的实验,我们可以得到11层网络与13层网络相结合的实验结果非常好。除了少数难以分辨的不稳定因素外,大多数都能准确识别出来。这个结果已经满足了我们的需要,没有必要花费更多的资源。
图 3. 双帧卷积网络结构
实验与结果
在我们的研究中,我们选择了TensorFlow框架[6]。程序流程如图4所示。第一步是读取图像文件,将图像和标签转换为列出的格式数据。第二步,将原始图像预处理成神经网络需要读取的数据[7]。预处理完成后,就可以训练图像了。
在前向传播过程中,我们定义了从输入到输出的神经网络结构,如图3所示。然后定义了神经网络中的参数权重和偏差。我们使用截断的正态分布作为标准差为0.005的权重值[10]。我们使用全零数组作为偏差值,使用L2正则化作为训练中的权重。
图 4. 实验程序流程
基于我们使用的数据集,通过以下四组实验验证了该方法的有效性:
(1)在实验一中,我们用于训练和测试的图像是在相同光照条件下由同一设备拍摄的。
(2)在实验二中,我们测试了模型在不同光照条件下的识别准确率。这意味着用白天的照片进行训练,用夜间的照片进行测试。实验主要验证了光照条件对实验结果的影响[11]。
(3)在实验三中,我们保持光照条件。我们更换设备拍照。例如,使用Pioneer拍摄的图像进行训练,并使用VirtualMe拍摄的图像进行测试。
(4)在实验四中,改变了照明条件和拍摄图像的设备。
我们验证了该条件下模型的识别准确率。四种条件的实验结果如表1所示。
表 1. 实验结果
从表1中可以看出,实验一中,识别准确率分别达到了99.11%和98.20%。这意味着除了少数难以区分的图像外,可以成功识别图像。改变光照条件后,实验二的识别准确率可以达到96.38%和96.66%。实验三中不同设备拍摄的图像结果分别为95.32%和95.81%。在改变灯光和拍摄设备的条件下,实验四的测试结果分别为93.01%和93.79%。
与[11]相比,实验结果如图6所示。虚线表示原始结果。实线代表我们的实验结果。横坐标代表实验标签。纵坐标代表这些实验的识别准确率。可以看出,在四组实验中,我们的所有结果都表现得更好,尤其是在实验IV中。证明本文设计的网络结构在场景识别方面表现出更好的效果。
图 6. 实验结果对比
结论
我们设计了双帧神经网络算法结构,提升网络识别场景的准确率。浅层网络用于处理全局信息,深层网络用于处理更详细的信息。我们可以通过全局和局部组合的方法获得更多的图像信息。然后将11类室内场景数据集应用于该网络。我们改变了实验条件,对比了改进网络在不同条件下的实验结果。通过改变实验条件,我们比较了不同条件下的实验结果。实验结果表明,本文设计的算法可以大大提高场景识别的效果。
参考文献
1.X.Sun,Z.Liu,Y.Hu,L.ZhangandR.Zimmermann.Perceptualmulti-channelvisualfeaturefusionforscenecategorization.Procediacomputerscience2018,3,37-48.
2.Y.Yuan,L.MouandX.Lu.Scenerecognitionbymanifoldregularizeddeeplearningarchitecture.
IEEETransactionsonNeuralNetworksandLearningSystems2015,10,2222-2233.
3.Y.Liu,Y.ZhongandQ.Qin.Sceneclassificationbasedonmultiscaleconvolutionalneuralnetwork.
IEEETransactionsonNeuralNetworksandLearningSystems2018,12,7109-7121.
4.B.Zhou,A.Lapedriza,A.Kholsa,A.OlivaandA.Torralba.Places:a10millionimagedatabaseforscen
erecognition.IEEETransactionsonNeuralNetworksandLearningSystems2018,6,1452-1464.
5.N.Zrira,H.A.KhanandE.Bouyakhf.Discriminativedeepbeliefnetworkforindoorenvironmentcla
ssificationusingglobalvisualfeatures.CognitiveComputationMedSci2018,6,437-453.
6.H.Zhang,W.WuandD.Wang.Multi-instancemulti-labellearningofnaturalsceneimages:viasparsecodingandmulti-layerneuralnetwork.IETComputerVision2018,4,305-311.
7.Z.Li,W.Lu,Z.SunandW.Xing.Improvingmulti-labelclassificationusingscenecues.Multimediatoolsandapplications2018,3,6079-6094.
8.H.Qassim,A.VermaandD.Feinzimer.Compressedresidual-VGG16CNNmodelforbigdataplacesimagerecognition.inCommunicationWorkshopand
Conference,LasVegas,NV,USA,2018,pp.169-175.
9.S.BaiandH.Tang.Softlycombininganensembleofclassifierslearnedfromasingleconvolutional
neuralnetworkforscenecategorization.AppliedSoftComputing2018,6,183-196.
10.F.LiandP.Perona.Abayesianhierarchicalmodelforlearningnaturalscenecategories.inIEEECo
mputerSocietyConferenceonComputerVisionandPatternRecognition,SanDiego,CA,USA,
2005,pp.524-531.
11.R.SandevandJ.K.Tsotso.Indoorplacerecognitionsystemforlocalizationofmobilerobots.in
ConferenceonComputerandRobotVision,Victoria,CANADA,2016,pp.53-60.