视觉显著性计算机检测方法及其应用研究
第1章 绪 论1.1研究目的与意义随着科技的不断发展,人们在日常生活中使用的移动终端摄像设备(比如数码相机、手机、平板电脑等)种类及数量越来越多,由此产生的图像数据也日益增多。从而使得我们面临的一个重大问题是,如何从这些海量的图像数据中获取我们感兴趣的图像以及图像中感兴趣的目标,如图1-1所示。我们知道,当人们在观察某个场景中的图像时,根据人眼视觉注意力机制,很容易将视觉注意力集中在自己感兴趣的目标中。但当要从海量的数据中,人为地观察并找出自己感兴趣的图像和目标时,这将是一个十分耗时且无聊的工作。随着图像数据日益膨胀,已经几乎不可能采用人工的方式来处理这些数据,对此我们不得不使用计算机视觉方法来智能地分析和处理这些图像数据,从而得到和人工处理相近甚至相同的结果。计算机视觉是指通过设计相关算法并在计算机上模拟人眼视觉系统的机理,并使得计算机能像人类一样视察与理解事物。综上所述,我们急需借助计算能力强大的计算机来自动地完成上述繁琐的工作,这是计算机视觉领域中面临的一个重要的任务,即视觉显著性目标检测(简称显著性检测),目前该任务仍然是一个极具挑战的问题。近年来,大量研究者鉴于人眼视觉注意机制,对如何使用计算机来模拟人眼视觉注意机制这一问题,展开了大量的研究。其中的一个关键问题为显著性检测。显著性检测的目的在于通过设计算法,使用计算机自动地从图像中提取出区分能力强的特征来表征图像中像素或区域的属性,并采用相关机器学习算法为每个像素或区域计算显著性值来衡量它们的重要性。到目前为止,尽管已提出了大量显著性检测方法,但这些方法的显著性检测结果精度仍不高。图1-2给出了目前八种显著性检测效果最好的方法在几个场景图像(如图1-2(a)所示)中的检测结果。由图可知,所有方法在这几个图像中的检测结果(如图1-2(c)-(j)所示)都不好,与真实显著性结果(如图1-2(b)所示)相差很大。目前的显著性检测方法大多是基于手工设计的特征,但它们没有充分地将人眼视觉注意机制融入到显著性检测方法中;另小部分是基于卷积神经网络提取的深层特征,但它们没有充分地将有利于显著性检测的信息融入到卷积神经网络中,以便提高特征的区分能力。因此,对显著性检测方法的研究从理论上有重要的研究价值。..........1.2国内外研究现状本文将首先对显著性检测方法进行研究,其次在基于显著性检测的应用的研究方面,本文将对场景文本检测方法进行研究。因此,在介绍国内外研究现状时,本文将分别从显著性检测和场景文本检测两方面进行。对于人眼视觉系统而言,显著性检测是指人眼视觉注意机制对场景中具有视觉刺激的目标进行选择注意的能力。这种机制的好处是能过滤掉场景中我们不感兴趣的信息,使得整个视觉系统集中处理感兴趣信息,从而减少能量的消耗和相应资源的浪费。对于计算机视觉而言,显著性检测则指设计相关算法并利用计算机模拟人眼视觉注意机制,并定位图像中感兴趣目标所在的位置以及计算其对应的显著性值。随着计算机科学技术的不断发展以及神经科学、心理学等学科领域对人眼视觉注意机制中的视觉显著性的深入研究,越来越多的计算机视觉领域中的专家学者开始从事如何利用计算机模拟人眼视觉显著性检测的相关研究。其中包括美国波士顿大学[7]、澳大利亚悉尼大学[4]、加拿大滑铁卢大学[13]、香港中文大学[1, 14]、清华大学[15, 16]、哈尔滨工业大学[17, 18]、中国科学技术大学[19, 20]、上海交通大学[21, 22]、大连理工大学[5, 23]、山东大学[8, 24]等多个国内外知名高校以及科研院所的研究人员从事显著性检测相关研究工作并做出了重要的贡献。..........第2章 基于超像素聚类的显著性检测方法2.1引言近年来,关于显著性检测的研究吸引了众多研究者的注意,且大量的显著性检测方法相继被提出。它们可被划分为三大类:分别为基于像素的方法、基于区域的方法和分层的方法。基于像素的方法从像素中提取一些局部或全局的特征(比如边缘、颜色差异、空间位置关系等)用于显著性检测。它们通常能很好地检测出具有强对比度的边缘区域而不是整个显著性目标区域,或者得到的显著性图的对比度较低,亦或者不能很好地保持显著性目标的轮廓。基于区域的方法首先对图像进行超像素分割得到大量的超像素区域,然后以超像素为单位进行显著性估计。相比基于像素的方法,由于区域的个数要远远小于像素点的个数且能从区域中提取出更复杂有效的特征用于显著性计算,因此该类方法的效率更高且更有效。但这类方法的效率和有效性很大程度上依赖区域的个数。然而,在不同的图像中,显著性目标的大小和个数存在较大的差异,因此当所有图像都被分割成相同个数的区域时,很难同时从这些图像中得到精确的显著性检测结果。分层的显著性检测方法则能在一定程度上解决上述问题,这类方法首先分层地将图像表示成不同数目的区域,然后利用这些分层的区域来计算显著性图。由于不同层中区域的尺度不同,因此在显著性计算过程中,显著性目标的多尺度信息能被利用上,因此相比基于像素和区域的方法,该类方法通常能生成更好的显著性图。然而,目前分层的方法进行分层图像分割时,需要花费大量的时间,因此大大降低了这些方法的效率。..........2.2超像素聚类近年来,图已经被广泛成功地应用于图像处理领域,并提出了大量基于图的图像处理算法,比如图像分割[148]、谱聚类[149]以及流形学习[150]等等。在显著性检测研究方面,也提出了一些基于图的显著性检测方法[32, 78]。在本章中,由于一种名叫图结构的合并聚类(Graph-Structural Agglomerative Clustering,简称为GSAC)的基于图的算法能对图像进行多层次处理并产生一系列分层的区域,因此其被应用于显著性检测。在初始显著性图IS M中,尽管显著性目标被很好地突显出来,但对于复杂的图像来说,其背景区域仍然存在较大的显著性值。为了进一步抑制背景区域的显著性值,本章方法使用稀疏编码技术和object-bias先验知识来细化初始显著性图IS M,该显著性细化过程如图2-4所示。通过统计初始显著性图IS M的灰度直方图(gray histogram,记为GH,如图2-4所示),我们发现初始显著性图中的灰度值是稀疏的,且在大多数情况下,背景区域的显著性值比较小。因此,可根据GH中灰度值的分布计算阈值,本章方法以GH中的极小值点作为阈值,当两个极大值点之间存在多个极小值时,取中间的一个极小值作为阈值,然后对ISM进行阈值分割得到多个区域,如图2-4所示。在分割得到的区域中,选取灰度值最小的一个作为背景模板(bacground template,记为BT),其它剩余区域组成显著性候选区域(salientcandidate regions,记为SCR)。组成背景模板的超像素所对应的特征描述子形成字典A,其将被用于对SCR中的超像素对应的特征描述子进行稀疏编码。在超像素聚类过程中,每个超像素区域R对应的特征描述子fR被定义为是由区域R内所有像素点在Lab颜色空间下的颜色均值和空间位置坐标均值。通常,对于显著性目标或背景区域来说,其纹理基本保持一致,因此纹理特征也可用来衡量显著性目标和背景区域的差别。在此,每个超像素区域R所对应的特征描述子dR是由fR和纹理特征组成,其中纹理特征为Felzenszwalb等人[153]实现的HOG特征[154]。........第3章 基于区域和像素级融合的显著性检测方法.......... 413.1引言....... 413.2区域级显著性检测.......... 423.3像素级显著性检测.......... 453.4显著性融合.... 493.5实验....... 503.5.1数据库与评价准则.... 503.5.2实验结果与分析....... 513.6本章小结........ 60第4章 基于深层监督循环卷积神经网络的显著性检测方法..... 614.1引言....... 614.2相关工作介绍......... 614.3深层监督循环卷积神经网络.... 644.4实验....... 694.4.1数据库与评价准则.... 694.4.2实验结果与分析....... 704.5本章小结........ 77第5章 基于文本显著性的场景文本检测方法........ 795.1引言....... 795.2初始文本显著性检测...... 815.3文本显著性细化..... 855.4文本显著性区域分类...... 875.5实验....... 905.6本章小结........ 99第5章 基于文本显著性的场景文本检测方法5.1引言场景文本检测是指在不同场景图像中定位文本区域所在的位置,比如路标、商店名称和警示牌等,如图5-1所示,其是端到端的场景文本识别的一个重要的步骤。有效的场景文本检测结果有助于提高大量多媒体应用的性能,比如移动视觉搜索、基于内容的图像检索和自动指示牌翻译等。近年来,一系列关于场景文本检测的国际竞赛[84–86]被成功的举办,很大程度上促进了场景文本检测技术的研究。但由于自然场景环境中的很多不可控因素,比如文本大小的不同、颜色的差异和复杂的背景等,使得场景文本检测仍然是计算机视觉领域中的一个极具挑战的问题。对此,为了解决上述问题,本章将借鉴显著性检测的思想来提取候选文本区域,即将文本区域作为显著性检测方法中的显著性目标。具体而言,在第4章中提出的用于显著性检测的网络模型的基础上,根据文本区域的特点,本章对其进行改进,以便使得改进后的模型能专门检测文本显著性图,并提出了一种基于文本显著性的场景文本检测方法。图5-2给出了本章方法的框图,可见本章方法由三部分组成,分别为:初始文本显著性检测、文本显著性细化和文本显著性区域分类。
........结 论近年来,大量研究者鉴于人眼视觉注意机制,对如何使用计算机来模拟人眼视觉注意机制这一问题,展开了大量的研究。其中的一个关键问题为显著性检测。本文针对目前已有的显著性检测方法存在的问题,重点从模拟人眼视觉注意机制以及针对图像像素和区域的鲁棒特征提取方法进行了专门的研究。与此同时,本文还将显著性检测思想和方法引入到场景文本检测的应用中,除了提高场景文本检测的性能之外,也达到了拓展基于显著性检测的应用范畴的目的。本文的主要创新点可以总结为以下几方面:(1)提出了一种基于超像素聚类的显著性检测方法,其很好地模拟了人眼视觉注意机制。首先将原始图像分割为多个超像素,并将其进行合并聚类。然后为越早出现的区域给予更大的权重,并采用边界连通性度量来计算区域的显著性值,由此得到初始显著性图。随后采用稀疏编码技术来计算超像素特征的重构误差来进一步细化显著性图,最后根据目标偏见先验知识来得到最终的显著性图。实验结果表明,有效提高了显著性检测性能。(2)提出了一种基于区域和像素级融合的显著性检测方法。该方法同时考虑了区域级显著性估计和像素级显著性预测。针对区域级显著性估计,本文提出了一种自适应区域生成技术来进行区域提取。针对像素级显著性预测,本文设计了一种新的CNN模型,该模型考虑了不同层中的特征图之间的关系,并进行多尺度学习,从而为每个像素提取出区分能力强的多尺度特征。最后,提出了一种基于CNN的显著性融合方法来充分挖掘不同显著性图之间发互补信息。实验结果表明,利用区域和像素级显著性图之间的互补信息能有效地提高显著性检测性能。(3)提出了一种基于深层监督循环卷积神经网络的显著性检测方法。该方法设计了一种深层监督循环卷积神经网络模型,该模型在原有的卷积层中引入循环连接,在不增加模型复杂度的前提下,大大增加了模型的深度,从而能为每个像素学习到更丰富的上下文信息,同时还在不同层中引入监督信息,从而能为每个像素学习到更具区分能力的局部和全局特征,最后将不同层的信息进行融合,使得模型能够进行多尺度特征学习。实验结果表明,在保证性能的同时,进一步提高了显著性检测的效率。..........参考文献(略)