一、引言
遥感图像分割是计算机视觉和遥感领域中的一个重要研究方向,广泛应用于地理信息系统(GIS)、城市规划、灾害管理和环境监测等多个领域[1]。建筑物的精确提取是遥感图像分割的一项关键任务,因为它直接影响到后续的空间分析和决策。然而,遥感图像中的建筑物具有复杂多样的形态特征和背景干扰,导致传统的图像分割方法难以获得满意的结果[2]。
当前的深度学习方法在处理建筑物边界复杂性和不同尺度的建筑物时表现不足。为了克服这些挑战,本文提出了一种融合注意力机制的遥感建筑物图像分割方法[3]。注意力机制通过自适应地调整特征的权重,能够增强模型对重要特征的关注,忽略不相关的背景信息,从而提高分割的准确性。本文在基于卷积神经网络的基础上,引入了通道注意力和空间注意力机制,分别在特征的通道维度和空间维度上进行注意力计算,以增强特征的表达能力。
本文提出的融合注意力机制的遥感建筑物图像分割方法,结合了通道注意力、空间注意力、多尺度特征融合和双路径编码等技术,旨在提升遥感图像分割的准确性和鲁棒性。
二、相关工作
在遥感建筑物图像分割领域,已有多种方法被提出。这些方法大致可以分为传统方法和深度学习方法两大类。近年来,随着深度学习技术的发展,特别是卷积神经网络(CNN)的应用,图像分割的性能得到了显著提升。本文重点讨论遥感图像分割的方法、注意力机制在图像分割中的应用,以及多尺度特征融合策略。
(一)传统方法
早期的遥感图像分割方法主要依赖于手工设计特征,这些方法包括基于阈值、区域生长、边缘检测和分水岭算法等。基于阈值的方法通过设定一个或多个阈值来区分不同类别的像素,适用于目标与背景灰度差异明显的情况。区域生长方法则根据像素间的相似性将像素聚集成区域,但对于噪声较多的图像效果不佳。边缘检测方法通过检测图像中的边缘来分割目标,常用的边缘检测算子包括Sobel、Canny等,而分水岭算法则将图像看作地形图,通过水的淹没过程来实现分割。这些方法在处理简单场景时效果较好,但在面对复杂背景和多尺度建筑物时显得力不从心。
(二)深度学习方法
近年来,深度学习方法在遥感图像分割中取得了突破性进展。卷积神经网络(CNN)通过多层卷积操作能够自动学习图像中的层次化特征,极大地提高了分割精度。典型的深度学习分割模型包括全卷积网络(FCN)、U-Net、SegNet等。
1.FCN(Fully Convolutional Networks): FCN通过将全连接层替换为卷积层,使得网络能够接受任意尺寸的输入图像并输出相同尺寸的预测结果。FCN通过逐步上采样恢复分割图的分辨率,但容易产生边界模糊的问题。
2.U-Net: U-Net在编码器-解码器结构的基础上,通过跳跃连接(skip connections)将编码器的特征图直接传递到解码器中,显著提高了分割的细节保留能力。U-Net在医学图像分割中表现出色,并被广泛应用于遥感图像分割。
3.SegNet: SegNet也是一种编码器-解码器结构,但其创新之处在于在解码过程中使用了最大池化索引(max-pooling indices),有效减少了计算量和内存占用,同时保持了较好的分割性能。。
三、方法
在本研究中,我们提出了一种融合注意力机制的遥感建筑物图像分割方法,该方法结合了通道和空间注意力机制、多尺度特征融合策略以及双路径编码方法,以提升遥感图像中建筑物的分割精度。首先,整体框架基于一个预训练的卷积神经网络(如VGG16),该网络能够有效地提取图像的基础特征。为了进一步提升分割效果,我们在基础网络上引入了注意力机制和多尺度特征融合模块。整个网络的输入是遥感图像,输出则是分割后的建筑物区域。
为了增强网络对重要特征的关注,我们在网络中融合了Convolutional Block Attention Module(CBAM)注意力机制。CBAM模块分为通道注意力机制和空间注意力机制两部分。通道注意力机制通过全局平均池化和全局最大池化操作,分别生成两个不同的特征描述,并通过共享的多层感知器(MLP)进行处理后相加,生成通道注意力权重。通过与输入特征逐通道相乘,得到加权后的通道特征。接下来,空间注意力机制通过在特征图的空间维度上进行全局平均池化和最大池化操作,生成两个空间特征描述,并通过一个卷积层生成空间注意力图。通过与通道注意力特征逐像素相乘,最终得到增强后的特征表示。
在训练过程中,我们采用交并比(IoU)损失函数,该损失函数能够直接优化分割区域的重叠度,从而提升分割精度。为了提高模型的泛化能力,我们使用了数据增强技术,如随机裁剪、水平翻转和颜色抖动等。同时,我们在训练过程中使用了Adam优化器,并设置了适当的学习率和正则化参数,以防止过拟合。
四、实验与结果
我们使用的实验数据集包括WHU建筑数据集和Massachusetts Buildings,这些数据集包含了多种不同类型的建筑物,具有多样的形态和复杂的背景。在实验中,我们将数据集按照8:1:1的比例划分为训练集、验证集和测试集,以确保模型的训练和评估具有足够的代表性和公平性。
在实验结果方面,我们首先对比了我们提出的方法与几种经典的遥感图像分割方法,包括FCN(Fully Convolutional Network)、U-Net和SegNet。结果表明,我们的方法在所有评价指标上均取得了显著的提升。例如,在WHU建筑数据集上,我们的方法的平均IoU达到了0.82,相比于U-Net的0.76和SegNet的0.74,有明显的提升。在Massachusetts Buildings数据集上,我们的方法的平均IoU也达到了0.85,显著高于FCN的0.78和U-Net的0.80。
最后,我们对实际应用中的模型表现进行了测试。我们在多个真实的遥感图像场景中进行了建筑物提取,结果显示,我们的方法能够有效应对复杂背景和多样化建筑物形态,分割结果具有较高的精度和一致性。这进一步证明了我们方法的实用性和鲁棒性。
五、结论
本文提出了一种双路径编码的遥感建筑物分割网络。该网络采用双路编码与单路解码结构且编码路径与解码路径通过跳跃连接逐层融合特征。编码路径使用两个编码模块,分别为密集残差编码模块和多尺度空洞卷积编码模块,其中密集残差编码模块注重多尺度特征的提取,多尺度空洞卷积编码模注重利用上下文信息,采用双路径编码同时提取多尺度的建筑物特征,减少建筑物多尺度变化的影响。网络中加双路融合注意力模块,提取空间和通道的融合特征信息,有助于模型捕获不同特征间的关系与理解图像的上下文信息,有效提高网络对建筑物的提取精度。然而网络在面对阴影干扰以及背景物与建筑物纹理形状相似的情况时会出。
参考文献:
[1] 张飞,邵媛,黄晖等.近 20 年城市遥感研究现状及其发展趋势[J]. 生态学报, 2021, 41(08):3255-3276.
[2] Badrinarayanan V, Kendall A, Cipolla R. Segnet: A deep convolutional encoder-decoder architecture for image segmentation[J]. IEEE transactions on pattern analysis and machine intelligence, 2017, 39(12): 2481-2495.
[3] Chen L C, Papandreou G, Kokkinos I, et al. Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs[J]. IEEE transactions on pattern analysis and machine intelligence, 2017, 40(4): 834-848.
作者简介:谢子奕(2000-),男,汉族,湖北汉川人,硕士,研究方向:地理信息系统,单位:长江大学地球科学学院。