基于改进U-Net网络的高分遥感影像水体提取__遥感前沿动态_

基于改进U-Net网络的高分遥感影像水体提取

1 引言环境变化与人类社会息息相关,地球表面74%都是水体,研究水体变化切实关乎人类利益[1,2,3]。遥感因具有宏观、快速和同步的优点,自20世纪70年代起,各国竞相发展遥感事业,基于此遥感技术迅猛发展,遥感越来越多地应用在资源调查、环境变化、气象监测...

作者：何红术, 黄晓霞, 李红旮, 倪凌佳, 王新歌, 陈崇, 柳泽来源：地球信息科学学报|2021年01月11日

1 引言

环境变化与人类社会息息相关,地球表面74%都是水体,研究水体变化切实关乎人类利益[1,2,3]。遥感因具有宏观、快速和同步的优点,自20世纪70年代起,各国竞相发展遥感事业,基于此遥感技术迅猛发展,遥感越来越多地应用在资源调查、环境变化、气象监测等应用中[4]。近年来,研究人员利用遥感优势,将遥感技术应用在水体提取研究中,针对光学遥感影像特点,国内外学者提出了多种水体提取方法,主要分为2类：基于像元分类的阈值法和基于目标分类的分类法。阈值法多利用在中分辨率遥感影像上,基于目标物的光谱特征,利用光谱知识构建各种水体指数来进行水体的提取;分类法更适用于高分辨率影像,综合影像的光谱、纹理和空间特征,充分利用地物的光谱、形状、结构和纹理等特征来提取水体信息[5]。Mcfeeters[6]根据水体光谱特征,提出归一化差异水体指数（NDWI）法提取水体。针对NDWI的不足,Xu[7]提出改进的归一化差异水体指数（MNDWI）,在大型水体提取中精度达到99%。针对单一方法很难有效地提取水体,国内学者提出在各节点设计不同分类器,利用决策树方法能有效提取水体[8,9],精度达到90%。针对雷达影像,胡德勇等[10]利用雷达影像纹理信息,使用支持向量机（SVM）分类器进行水体信息提取,较准确地提取了水体信息,水体提取精度为84%。

自2006年Geoffrey Hinton[11]提出深度学习思想后,深度学习在学界和工业界得到越来越多的研究人员关注,在自然语言处理和图像识别等方面均获得了突破性的进展。随着深度学习的发展,深度卷积神经网络在图像语义分割领域也展现出了优势,语义分割是对单个像素点进行分类,相比于其他视觉分析任务具有更大的挑战性[12]。Long等[13]提出了基于全卷积网络（Fully Convolutional Network, FCN）的语义分割方法,在单个像素上对图像进行了标注。基于全卷积神经网络的框架,Badrinarayanan等[14]提出编码-解码结构用于道路、车辆的分割,在物体边界分割精度上有所提高。在FCN基础之上,Ronneberger等[15]提出一种U形对称网络,该结构能融合低维与高维特征,使分割精度得到较大提高。为了有效利用图像上下文信息,考虑到像素之间的局部特性,即相邻像素属于同一类别的概率应该更高,Zhen等[16]提出将条件随机场引入卷积神经网络结构中,并实现端到端的分割模型。在水体提取任务中,Chen等[17]用简单线性聚类方法（Simple Linear Iterative Clustering, SLIC）将单个像素聚类为超像素（Superpixels）,再利用卷积神经网络判别超像素是否为水体。许玥[18]在研究地表水体变迁中,采用改进的Unet网络架构提取水体,取得了90.47%的分类精度,具体改进为使用elu激活函数替换原网络的relu激活函数,在模型最后加入条件随机场进行细分割。陈前等[19]选用Deeplabv3网络提取水体,总体精度为92.14%,并比较了NDWI方法、面向对象法、SVM法、CNN方法与作者选取方法,证明了深度学习方法提取水体的有效性。

尽管上述研究都能实现对高分辨率影像中水体的提取,但其提取精度,以及在提取小目标、小面积水体上仍然有提升的空间。本研究相对于经典U-Net网络的改进点主要在网络结构和分类后处理方面,具体为：① 本文方法利用预训练好的VGG16作为编码器,在学习深层特征的同时,预训练好的网络能够简化模型复杂度,减少模型训练时间; ② 在解码器中对低维特征信息进行加强,使模型在信息传递过程中,能更有效利用低维特征信息,使模型在小目标、小面积区域提取方面有更好的效果;③ 考虑到水体内部纹理较为相似,相邻像元属于同一类的概率较大,模型引入条件随机场,将U-Net网络结构得到的特征图作为条件随机场输入,以提高目标物边缘分割精细度。

2 研究方法

2.1 技术路线

本文水体提取技术路线如图1所示,路线分为2部分：模型训练与模型测试。模型训练中首先对遥感影像进行辐射校正、几何校正和图像融合等数据预处理操作。将数据划分为训练集、验证集和测试集,3部分之间无相互重叠区域。训练集和验证集用来训练模型,测试集在模型测试中测试训练好的模型的分割能力。训练网络模型采用改进的U-Net网络结构,该结构使用VGG16进行编码,使得网络能够提取图像高维特征信息,同时在网络解码阶段能有效增强图像低维特征信息,提高分割精度。在模型测试中,利用训练好的U-Net网络模型输出概率分布图,将其作为全连接条件随机场的一元势能输入,二元势能中的位置和颜色信息由原始影像提供,经过全连接条件随机场之后输出水体提取结果图。

图1

图1 水体提取技术路线

Fig. 1 Technical routes for extracting the water body

2.2 经典U-Net网络

本文网络结构参考经典U-Net网络的对称结构。经典U-Net网络结构是基于全卷积神经网络（FCN）拓展和修改而来。网络结构清晰优雅形呈U状,具体由2部分组成：图2左半部分收缩路径用来获取上下文信息,图2右半部分对称的扩张路径用以对目标精确定位。

图2

图2 经典U-Net网络结构

Fig. 2 U-Net architecture

图2左半部分收缩路径是典型的卷积结构,包含连续2个3×3卷积核层,卷积后的特征图利用ReLU函数进行非线性激活,下采样方法采用最大池化,每次下采样操作都将特征图通道数增加2倍,同时将图像尺寸缩小2倍。扩张路径中,对特征图进行反卷积,使特征图尺寸扩大2倍,与对应收缩路径中的特征图进行拼接,以利用低维特征信息,对拼接后的特征图进行连续2次卷积操作,再利用ReLU函数激活。在最后的输出层中利用1×1卷积核对特征图进行卷积,生成与对应类别数相同的维数,同时还原图像的尺寸大小。在收缩路径中,每次池化操作之前,特征图都将被保存,并通过跳跃连接的方式将保存的特征图传递给对应尺度的扩张路径,从而为扩张路径提供不同尺度的特征信息。通过跳跃连接的方式,恢复由于最大池化操作降低分辨率带来的空间信息损失,为扩张路径提供不同分辨率的特征。

2.3 VGG16预编码与低维信息特征加强

经典U-Net网络编码阶段本质上是一个特征提取过程,经典U-Net网络被设计用于医学影像的分割问题,医学影像背景较为简单,利用深度较浅的网络也能取得较好的效果,水体提取背景地物较为复杂,需要较深的网络学习更深层次的特征用于影像分类。VGG16网络相对于经典U-Net网络深度更深,网络已被用于多种遥感影像信息提取场景中,均取得较好的效果[20,21,22]。本文采用同构空间下基于特征的迁移学习,使用全卷积层替换VGG16网络最后的全连接层之后的网络作为U-Net网络编码阶段特征提取器,相较于经典U-Net特征提取结构,VGG网络结构更深,能提取水体高维特征信息,更有利于复杂背景地物下目标的分类。迁移学习在卷积神经网络中的一般过程如下：首先,利用大型数据集对网络中的参数随机初始化并进行训练,训练完毕保存训练权重,目的是增强网络的泛化能力;然后,利用训练好的卷积神经网络的卷积层和下采样层对目标应用领域的训练集进行特征提取。

VGG16网络有5个下采样层,将图像尺寸缩小为原尺寸的1/32。13个卷积层,卷积核大小为3×3,相比于大尺寸卷积核,小尺寸卷积核能将训练参数减少并将网络深度加升,卷积之后利用ReLU进行非线性激活。网络结构如表1所示。输入图像尺寸为256像素×256像素,经过13层卷积,5个下采样层之后生成大小为8像素×8像素、维度为512维的特征图。

表1 VGG16 网络结构配置

Tab. 1 VGG16 network structure configuration

	感受野	步长	填充	输出大小
InputRGBimage：3@256×256
Conv+ReLU	3×3	1	1	64@256×256
Conv+ReLU	3×3	1	1	64@256×256
Max-pooling				64@128×128
Conv+ReLU	3×3	1	1	128@128×128
Conv+ReLU	3×3	1	1	128@128×128
Max-pooling				128@64×64
Conv+ReLU	3×3	1	1	256@64×64
Conv+ReLU	3×3	1	1	256@64×64
Conv+ReLU	3×3	1	1	256@64×64
Max-pooling				256@32×32
Conv+ReLU	3×3	1	1	512@32×32
Conv+ReLU	3×3	1	1	512@32×32
Conv+ReLU	3×3	1	1	512@32×32
Max-pooling				512@16×16
Conv+ReLU	3×3	1	1	512@16×16
Conv+ReLU	3×3	1	1	512@16×16
Conv+ReLU	3×3	1	1	512@16×16
Max-pooling				512@8×8

新窗口打开| 下载CSV

本文所提取水体信息,背景地物多样,相邻环境复杂,随着网络深度的增加,特别是经过下采样层之后的特征图丢失了低维度的细节信息,导致提取结果的边缘轮廓效果较差,无法提取影像中较细小的水体信息。精确分割水体,需要更多地利用卷积神经网络低维特征信息。基于此,本文在对称网络结构基础之上对低维特征信息进行加强,以精确提取小目标水体信息。改进的网络结构如图3所示。

图3

图3 改进的U-Net网络低维信息增强

Fig. 3 Improved U-Net network low-dimensional information enhancement

在网络右半部分扩张路径中,扩张路径特征图在与同一级低维特征连接时,加入收缩路径中VGG16网络中上一层级特征图进行融合,以进一步增强低维特征信息,在向后传递过程中能够防止细节信息的丢失。连接后的特征图进一步利用3×3的卷积核进行卷积操作,为防止梯度消失和梯度爆炸,试验中在每次卷积操作之后都引入批量归一化（Batch Normalization）层,从而能够将前一层输出的特征归一化为均值为0、方差为1的分布,将得到的结果输入到激活函数ReLU中。经过激活函数之后对特征图进行上采样操作,每一次上采样特征图尺寸增大两倍,经过5次上采样之后,特征图恢复输入时的尺寸256像素×256像素。在网络末端采用1×1的卷积层将特征图数目缩减为2,并利用sigmoid函数对最终输出进行处理,使得网络输出中每个像素点对应值位于0到1范围内,每一个像素点对应值表示该点所属类型。这种网络结构能够在一定程度上增强水体低维特征信息,强化模型学习目标物边缘信息,提高目标分割边缘精度。

2.4 全连接条件随机场后处理

U-Net网络解码器中进行了上采样操作,这一步骤能够将特征图恢复至原图尺寸,但也造成了特征的损失,会产生地物边界模糊的问题。除此之外,卷积运算操作是局部连接的,它只能提供一个像素周围矩形区域内的信息,重复下采样卷积运算虽然能使矩形面积逐渐变大,但即使到最后一个卷积层,也无法获得整个图像中一个像素与其他所有像素之间的相关性。为了解决上述问题,提高分割的准确度,本文将卷积神经网络和全连接条件随机场[23,24,25]相结合,通过计算2个像素之间的相似性来判断他们是否属于同一类别。本文在模型测试中,将解码器最后一层的输出概率分布图作为全连接条件随机场的一元势能,二元势能中的位置和颜色信息由原始影像提供。影像后处理的结果作为最后的输出结果。全连接条件随机场后处理模型如图4所示。

图4

图4 全连接条件随机场后处理模型[26]

Fig. 4 Full connection condition random field post-processing model

全连接条件随机场的能量函数如下式：

$E (X) = \overset{N}{\sum_{i = 1}} ψ_{U} (x_{i}) + \sum^{} ψ_{p} (x_{i}, x_{j})$ （1）

能量方程的第一项 $y_{i}$ 时,该像素点属于类别标签 $ψ_{p} (x_{i}, x_{j})$ ,用于衡量两事件同时发生的概率 $ψ_{s} (x_{i}, y_{j}) = \underset{K (f_{i}, f_{j})}{\underset{⏟}{U (X_{i}, y_{j}) \sum_{m = 1}^{M} ω^{m} K_{G}^{m}}} (f_{i}, f_{j})$ （2）

式中： $x_{i} \neq y_{j}$ ,则 $ω^{m}$ 用来平衡函数, $K_{G}^{m} (f_{i}, f_{j})$ 表达式为：

$f_{i}$

与 $ω^{m}$ 是高斯 $K_{G}^{m}$ 由一个对称正精度矩阵 $K (f_{i}, f_{j})$ 的通常使用双核势能,表达式为：

$I_{i} 、 I_{j}$ 代表像素位置 $$IoU = \frac{TP}{TP + FP + FN}$ （5）

式中：TP表示分类准确的正类像素数目;FP表示分类为正类的负类像素数目;FN表示被错分为负类的正类像素数目。分类如表6所示。

表6 精度评价混淆矩阵

Tab. 6 Confusion matrix for accuracy evaluation

	实际正类	实际负类
预测正类	TP	FP
预测负类	FN	TN

新窗口打开| 下载CSV

精准率就是被准确分类为正类的像元数与所有被分类为正类的像元数之比,表示预测结果为正类的像素里有多少像素是真的正类。精准率指标如式（6）所示。

$Kappa = \frac{p_{o} - p_{e}}{1 - p_{e}}$ （7）

式中：po代表每一类中正确分类像元素;pe则定义为：

<span data-mathml="<; ria-hidden=" true" style="box-sizing: border-box; padding: 0px; list-style: none; transition: none 0s ease 0s; border: 0px; max-width: none; max-height: none; min-width: 0px; min-height: 0px; vertical-align: 0px; line-height: normal;"> pe=a1×b1+a2×b2+…N×N $p_{e} = \frac{a_{1} \times b_{1} + a_{2} \times b_{2} + \dots}{N \times N}$  （8）

<; ria-hidden=" true" style="box-sizing: border-box; padding: 0px; list-style: none; transition: none 0s ease 0s; border: 0px; max-width: none; max-height: none; min-width: 0px; min-height: 0px; vertical-align: 0px; line-height: normal;"><; ria-hidden=" true" style="box-sizing: border-box; padding: 0px; list-style: none; transition: none 0s ease 0s; border: 0px; max-width: none; max-height: none; min-width: 0px; min-height: 0px; vertical-align: 0px; line-height: normal;">

式中：a代表每一类的实际像元数;b代表每一类的预测像元数。

定量评价结果如表7所示。从表中可看出,经过改进的U-Net网络分割结果指标最好,与SegNet相比,IoU、精准率和Kappa系数分别提升了10.5%、12.3%和0.14;与经典U-Net网络结果相比,3项指标分别提升了5.8%、4.4%和0.05。

表7 水体提取结果精度比较

Tab. 7 Accuracy comparison of water extraction results

方法	IoU/%	精准率/%	Kappa系数
SegNet	77.6	82.5	0.79
经典U-net	82.3	90.4	0.88
改进后的U-Net网络	88.1	94.8	0.93

新窗口打开| 下载CSV

3.3.2 模型推广应用实验

为研究模型的时空可拓展性,本文选取青岛西部区域和青海西宁地区两幅高分二号影像作为模型应用研究数据,数据集如表8所示。对原数据做数据预处理,包括辐射校正、正射校正、图像融合和图像裁剪。从2幅影像中各裁剪2000幅256像素×256像素大小的测试样本,用训练好的改进U-Net网络模型对测试样本进行测试。

表8 应用区遥感影像信息

Tab. 8 Remote sensing image information in the application area

影像编号	中心经度/°E	中心纬度/°N	成像时间	影像大小/像素×像素
L1A0003553729	120.1	36.3	2018-10-28	276 20×292 00
L1A0003351642	101.5	36.8	2018-07-26	276 20×292 00

新窗口打开| 下载CSV

从应用区提取结果中各选取典型的5块区域进行展示,测试结果如表9所示,青岛应用区与本文研究区同属一个地理单元,地貌类型和背景地物相似,水体类型也较为相似,从测试结果看效果较好,特别是对细长水体和小面积水体的提取,但也存在明显问题,区域2中与水体邻接的建筑阴影被误识别为水体,模型最终在测试集上测试结果IoU、精准率和Kappa系数分别为86.7%、93.2%和0.9。青海省西宁位于我国西北部,与本文研究区在地理环境上差异较大,直观地从测试结果可以看出,对于区域1类型的水体模型无法识别,可能原因是模型在训练过程中没有加入这类型的水体进行训练。模型对于大型水体识别效果较好,但也存在将淡绿色植被识别为水体的现象（区域2）。模型对形态与青岛研究区相似小面积水体的识别效果较好（区域4、区域5）。模型在西宁应用区测试结果IoU、精准率和Kappa系数分别为79.5%、84.3%、0.81。

表9 应用区5个典型区域水体提取结果比较

Tab. 9 Comparison of water extraction results in 5 typical areas of the application area

		区域1	区域2	区域3	区域4	区域5
青岛	原始影像
	水体信息
西宁	原始影像
	水体信息

注：表示提取水体。

新窗口打开| 下载CSV

4 结论与展望

本文基于U-Net网络提出一种改进的U-Net网络模型,用于提取高分二号遥感影像水体信息。研究以山东省青岛市东部高分二号遥感影像为数据源,基于改进的U-Net网络语义分割算法对遥感影像中的水体信息进行提取,并与SegNet和经典U-Net网络语义分割算法结果做对比。同时,为了验证模型的时空可扩展性,本文选择青岛西部和青海西宁高分二号遥感影像对模型进行验证。结果表明：

（1）本文改进U-Net方法、SegNet分割算法、经典U-Net网络语义分割算法3种方法比较中,本文改进的网络模型具有优异的分割性能,在精度评价指标IoU、精准率以及Kappa系数上分别达到了88.1%、94.8%和0.93的精度。

（2）本文提出的方法在研究区小目标提取、水体提取完整度、阴影与水体的区分以及边界分割精度中更具有优势。

（3）在模型推广应用中,模型对于与研究区地理环境相似区域水体提取效果较好,但与研究区环境相差较大的区域提取效果还有待进一步提高。

水体背景信息的复杂多样性为水体提取工作带来困难,从模型的推广应用中可以发现,在训练数据中应该更多地增加不同背景地物下的样本数量,以增强模型的泛化能力。因此,下一步研究工作将着重加强不同背景地物下水体的提取工作,进一步提高模型的时空可拓展性。

上一篇：车载激光点云地物提取与分类研究

下一篇：GF-2在城市绿地分类及景观格局度量中的应用