基于集成学习之高光谱遥感影像分类解析
1 绪论
1 Introduction
1.1 研究背景与选题依据(Research Bacground Basic for Selected Topic)
1.1.1 研究背景
遥感,即遥远的感知,在广义上指不直接接触的情况下,对目标对象进行远距离定量探测的技术,狭义上指在航天或航空平台上,运用各种传感器(可见光、红外等)对地球进行探测,接受并记录电磁波信号,根据电磁波与地表物体的作用机理及对探测目标的电磁特性进行分析,进而获取物体特征性质及其变化的技术。遥感技术系统包括传感器技术、信息传输技术、信息处理提取和应用技术、目标信息特征的分析和测量技术等。传统的全色和多光谱影像含有较少的光谱波段,其光谱分辨率通常在 100nm 左右,而高光谱影像的波段数在几十个甚至数百上千个,其光谱分辨率一般为 1020nm,有的甚至会达到2.55nm,因此高光谱能够获取地物在一定范围内连续的、精细的光谱曲线。光谱曲线能够反映不同物质间光谱特征和形态的差异,而不同物质间千差万别的光谱特征和形态是利用高光谱遥感技术实现地物精细探测的应用基础。
从1983 年由航空成像光谱仪(Airborne Imaging Spectrometer,AIS)获取的第一幅高光谱影像面世以来,出现了很多高光谱成像仪,如美国宇航局喷气推进实验室研制的可见光和红外成像光谱仪(Airborne Visible/Infrared Imaging Spectrometer)、高光谱数字成像仪(Hyperspectral Digital Imagery Collection Experiment)、反射光学成像仪(Reflective Optics System Imaging Spectrometer)、机载实时更新高光谱增强成像仪(Airborne Real-time Cueing Hyperspectral Enhanced Reconnaissance)、美国的 EO-1 卫星搭载的 Hyperion 成像仪、英国的简洁高分辨率成像仪(Compact High Resolution Imaging Spectrometer)、印度的HySI 成像仪、美国的先进高效的军事战术反应成像光谱(Advanced Responsive Tactically Effective Military Imaging Spectrometer)、在建造的有南非的多传感器微卫星成像仪(Multi-Sensor Microsatellite Imager)、德国环境制图项目的高光谱成像仪等。以上高光谱传感器能够获取的高光谱影像光谱范围在0.4-2.5 ?m ,包含 115-512 个波段,机载传感器获取的影像空间分辨率在 0.75-20米之间,星载传感器获取的影像空间分辨率在 5-506 米之间。我国对高光谱成像仪研制也取得了一定的进展,如利用 224 波段扫帚式高光谱成像仪 PHI 与 128波段机载成像光谱仪 OMIS进行多次航空试验,获取的遥感影像应用于精细农业等领域。现在在轨运用的有 H-1A 卫星装载的超光谱成像仪、天空一号的成像光谱仪和嫦娥一号或二号的成像光谱仪,H-1A卫星装载的超光谱成像仪能够获取110-128 个光谱波段,光谱分辨率为 10nm,空间分辨率为100m。各种新型高光谱传感器应运而生,使高光谱技术得到快速发展并广泛应用于精细农业、矿物识别、环境管理与探测等领域。
1.2 相关领域的研究动态(Overview of the Related Research)
1.2.1 国外研究进展
在模式分类中,每一种分类器都有自身的优势和局限性,用于一个特征集的分类算法不一定适宜另外其他的特征组合,这种现象可以称之为分类领域的 No free lunch 现象,即说明了没有一种分类器是全能的。在遥感领域中,Gincinto等对遥感影像常用分类器如最小距离、马氏距离、平行六面体等进行了对比研究,得出了与上述相同的结论,即没有一个分类器是―万灵丹。因此,除了发展鲁棒性更好的先进分类器外,利用集成学习进行模式识别和信息提取已经在众多领域得到广泛应用,包括指纹识别、人脸识别和语音识别等。集成学习分类系统的原理是利用多个分类器的结果,通过某种组合将这些单分类器分类结果进行合并,以期能够提高分类器的泛化能力,提取更为准确的信息。
在集成学习分类系统中,最为重要的是如何有效地产生精度较高且差异性较大的基分类器,基分类器的精度(accuracy)和差异性(diversity)是两个重要的指标。如何有效的度量基分类器之间的差异性和如何利用这些差异性来选择基分类器进行组合,仍然是一个值得研究的问题。
集成学习分类系统的构建一般分为两部分:基分类器的生成和合并策略。常用的生成基分类器的方法可以分为简易地分为两大类:1)将不同学习算法应用于相同数据集上;2)将同一学习算法应用于不同的训练数据集,可以对训练样本进行随机抽样或者是改变输入特征。前者称为异质集成学习算法,后者称为同质集成学习算法。对于生成同质类型的基分类器,通常可以采用如下三种策略:
1)对训练样本进行重抽样。这类算法主要通过对原始训练样本集进行随机抽样而获得不同训练样本,应用于事先给定的基分类算法得到分类结果。该类算法在基分类算法不稳定时最有效。在常见的分类算法中,决策树(decision tree)和神经网络(neural wor)都是不稳定的, 近邻(nearest neighbor)算法则是比较稳定的。最著名的算法有 Bagging和 AdaBoost,Bagging采用随机有放回抽样技术来构造不同的训练样本参与分类,通过集成分类结果得到更为可靠的分类图。Boosting为增强法或推进法,其基本思想是为每一个样本点赋予相同的权值,在训练过程中,降低分类正确样本的权值,增加分类错误的样本的权值,使学习算法将精力集中于容易分错(权重高)的点,最终通过一个加权的方式组合成一个最终模型。
2 基于集成学习的高光谱影像分类理论与策略
2.1 集成学习理论基础(Theoretical Basis of Ensemble learning)
集成学习的关键是对其理论基础的理解和应用,本文从弱可再学习、no free lunch 等方面来对集成学习的理论基础进行阐述。
2.1.1 弱可再学习理论
在机器学习领域,概率近似正确学习模型(Probably Approximately Correct,PAC)是指学习算法不需要完全正确的对未知对象进行学习,只需要在一定误差内,从概率的意义上对未知对象进行近似正确学习即可。如果存在某种算法来学习一个问题,且学习正确率很高,那么这个算法就是强学习的;如果正确率仅比随机猜测略好,那么这个算法就是弱学习的。earns 和 Valiant 提出了弱学习算法与强学习算法的等效性,意味着不必直接去找实际情况下很难获得的强学习算法,只需找到一个比随机猜测算法略好的弱学习算法,即可通过相关途径将其转化为强学习算法 。
通过集成学习,可以找到一种有效途径将弱学习算法转化为强学习算法,获得更好的泛化能力。Bagging利用随机有放回的选择训练样本,通过不同分布的样本来学习弱分类器,经过融合转化为强分类器,从而提高分类性能。Schapire在 1990 年构造出一种提升(Boosting)算法,对弱分类器是否转化为强分类器进行了论证。与此同时,Freund 提出了一种更有效的投票 Boosting算法。但是以上两种算法都要求知道弱学习算法学习正确的下限,大大制约了其在实际情况中的运用。为了能够解决这一难题,Freund 和 Schapire 提出了 AdaBoost (Adaptive Boosting) 算法,该算法效率与中算法相当,但不需要弱学习算法的先验知识。此外,Freund 和 Schapire 通过改变 Boosting 投票的权重,进一步提出了 AdaBoost.M1, AdaBoost.M2 等算法。Boosting的常用算法还有AdaBoost.MH [148],Linear Programming Boosting (LPBoost) ,BrownBoost等。
2.1.2 No free lunch 理论
Stanford 大学 Wolpert 和 Macready 教授提出了 no free lunch(NFL)定理,它是优化领域中的一个重要理论研究成果,其结论概括如下:
定理 1:假设 A、B 两种任意(随机或确定)算法,对于所有问题集,其平均性能是相同的。 这个理论可以扩展到机器学习的各个应用中,并且可以找到类似文献来论证NFL 的合理性。这个理论可以说明任何一个分类器不可能总是表现最优。在遥感领域中,Giacinto 等比较了不同遥感应用中的分类器性能,发现在不同情况下,分类器的性能表现迥异。
―No free lunch‖概念的出现,给我们在分析新的分类问题时通常面临两难的选择:需要解决一个什么样的分类问题,应该使用哪种分类算法,选择哪种特征等不同分类器在不同情况下能够获得不同的性能,集成通过结合大量分类器的输出,能够有效地克服―No free lunch‖的两难处境。在遇到一个新的问题时,通常使用经验和分析相结合的方法。在理想的情况下,集成学习算法将一直执行分类器成员中性能最好的或通过某种结合方式产生比个体分类器性能还优越的分类结果。
2.2 基于集成学习的高光谱影像分类策略(Hyperspectral Image Classification Strategy based on Ensemble learning
集成学习系统一般具有两大部分,首先构造不同的基分类器,其次是运用相关策略对这些分类器生成的结果进行集成。经过上述的分析,一个有效的集成系统不仅包括精度较高的分类器,而且这些分类器的差异要尽可能的大。图 2.1 给出了集成系统的整体构造过程,在分类的各个阶段(样本特征分类器)运用不同的算法来构造不同的基分类器。
3 基于旋转森林的高光谱影像分类..................... 22
3.1 引言.................. 22
3.2 RoF 用于高光谱影像分类的基本原理和方法................... 23
3.3 RoF 中的特征提取算法................... 24
3.4 试验结果与分析..................... 27
4 基于监督/半监督特征提取与集成学习的分类.................... 40
4.1 引言................ 40
4.2 高光谱遥感影像特征提取算法概述........... 40
5 光谱-空间特征集成的高光谱影像分类 .......................... 69
5.1 图像分割......................... 69
5.2 马尔科夫随机场模型 .......................... 75
6 高光谱影像集成学习分类系统
6.1 研制背景与目的(Developing Bacground and Purpose)
随着高光谱遥感影像在城市土地覆盖/利用分类、森林植被监测、城市不透水面层检测以及城市污染检测等方面的广泛应用,影像分类作为其中最有效的检测手段之一,通过对高光谱遥感影像分类,可以直接获取用户所需的土地覆盖/利用类型等专题信息,利用这些专题信息进行人类社会及相关自然演变规律有着重要的指导作用。集成学习作为最为最近高光谱遥感影像分类的研究重点,通过集成学习综合各种方法的优点,能够有效地快速的获取用户所需信息,从而能够广泛而快速应用城市不透水面层分析、变化检测等领域。
目前专业处理遥感影像的分析软件有 ENVI、ERDAS,PCI 等,都没有相关的集成学习系统或者具有集成学习模块,在实际运用或操作中,往往需要结合多个软件进行综合运用,其中涉及到大量的重复性工作,大大增加了工作时间。
因此,根据高光谱遥感影像的特点,本文利用开发了系统的、自动化、流程化的高光谱遥感影像集成系统,以期能够通过此系统提高实际工作效率和推广集成学习在高光谱影像中的作用,通过实践证明,此系统也可运用于其他遥感影像,如多光谱影像,Radar 影像等。
7 结论与展望
7.1 结论(Conclusions)
高光谱遥感影像由于能够提供地物完整的光谱信息,而利用这些完整的光谱信息能够提高探测目标的能力,因此在农业规划、矿物识别以及地质灾害等领域越来越受到重视。传统的遥感影像分析算法往往不能够满足高光谱影像处理的需求,因此需要研究新的理论和方法来提高高光谱遥感信息处理水平。随着机器学习技术的发展,单一的学习算法已经不能够满足实际的需要。集成学习是利用多个学习机来解决同一问题的学习范式,由于能够显著提高学习系统的泛化能力,从上个世纪 90 年代,集成学习的理论和算法研究已经称为机器学习界广泛研究的热点问题之一,已经被成功应用在语音识别、图像处理等领域。
经过研究人员的不懈努力,集成学习在近年来取得丰富的成果,但是其在高光谱遥感影像分类领域的研究和应用还比较少,还远未达到人们所期待的水平。集成学习中两个最关键的问题是构建基分类算法和合并策略。如何构建多个基分类器,使基分类器的准确性和差异性达到一个很好的折中;在训练出基分类结果时,如何有效的通过合并策略集成这些分类结果,以便能够更好的提高分类性能,有待进一步研究。
本文在对集成学习中的相关算法进行了较为深入的研究的基础上,简要介绍了集成学习的理论基础和最新研究成果,分析了集成学习应用于高光谱遥感影像分类中的框架,本文主要研究工作包括以下几个方面:
1)将旋转森林应用于高光谱遥感影像分类,并在此基础上,运用了不同特征提取算法提出了基于独立主成分分析、最大噪声分离和局部线性判别分析的Rotation Forest,以 Indian Pine AVIRIS、University of Pavia ROSIS 和 Pavia Center DAIS 数据为例,性能优于其他集成学习算法 Bagging、AdaBoost 和 Random Forest。提出的基于独立主成分分析、最大噪声分离和局部线性判别分析的Rotation Forest 与原始 Rotation Forest 精度相当,并且在类别精度上能够与原始Rotation Forest 产生互补。
2)将半监督/监督概率主成分分析用于高光谱遥感影像分类特征提取,运用Indian Pines AVIRIS、University of Pavia ROSIS 和 Pavia Center ROSIS 高光谱数据,从不同数据、不同数量的标记样本和未标记样本、计算复杂度等方面分析半监督/监督概率主成分分析与其他特征提取算法进行比较,试验结果证明半监督/监督概率主成分析提取出来的分类特征能够得到高精度分类结果。
3)提出了基于监督/半监督特征提取的集成分类策略,通过半监督概率主成分分析、监督概率主成分分析、无参数加权特征提取)三种监督/半监督特征提取算法,构建并行集成和串行集成算法,能够有效提高高光谱遥感影像分类精度。
4)提出集成半监督特征提取的分类和基于图像分割、马尔科夫模型的分类模型,基于图像分割的分类模型分别选择基于聚类的分割、分水岭分割和Mean-shift 分割。其中聚类算法选择 -means、ISODATA、Fuzzy -means、ernel -means;分水岭分割通过四种不同方式构造梯度图像。马尔科夫模型集成分类模型,通过最小化局部能量函数,采用模拟退火算法,能够有效的使邻近像元聚集。通过集成光谱和空间的分类图像,高光谱遥感影像分类精度得到显著改善,并且能够降低遥感影像分类噪声。
5)研发了高光谱遥感影像集成学习分类系统,该系统包含遥感影像基本处理、分类、聚类、分割、集成空间光谱分类和集成学习等功能,以城市不透水面层提取分析为例,说明该系统在实际高光谱遥感信息处理的优势。
参考文献(略)