基于计算机视觉的目标检测跟踪及特征分类研究

主掌轮回围观:℉更新时间:12-18 13:45

1 引言1.1 研究背景及意义近些年，随着计算机网络以及信息技术突飞猛进发展，视频监控技术得到了广泛的应用，涉及的行业也越来越多，例如国家安防、社会治安、交通监测等[1]，不同行业和领域对视频监控系统的需求都在日渐增长。作为获取信息的有效手段，视频监控系统发挥着重要的作用[2]，并以其直观性、灵活性、实时性等优点在安全防控领域得到了极大的关注。然而，视频监控系统通常无法将其实时主动监督作用充分的发挥出来。目前大多数视频监控系统是在有异常情况发生后，通过回放保存的监控设备记录视频，还原目标行为发生过程，这种方法并不能及时的对异常事件的发生进行预警和预防[3-5]。还有部分视频监控系统是通过建立监控室，将数十个甚至上百个视频监控画面集中于一个监控室内，由专职的监控人员负责观看，一旦有异常事件发生，通过人工预警方式及时通知相关人员进行处理。这种方法可在一定程度上防范一些异常事件的发生，但是受限于显示器的数量，常常会漏掉或者忽略一些关键的异常行为的监控信息[6,7]。更加严重的问题是，监控人员存在着视觉疲劳导致的注意力降低，根本无法时刻集中精力在监控画面观察分析上[8]。因此，很多发生的异常事件无法通过人工报警的方式进行预防。海量视频数据的实时观测与分析是一个困难极大地工作，即使是后期录像查询也极其耗费人力时间，难以获得全部重要信息。例如 2021 年惊动全国的周克华持枪抢劫案件中，犯罪嫌疑人周克华先后在南京和重庆持枪抢劫杀人，造成了严重的社会恐慌。犯罪现场附近的视频监控中拍下了周克华作案之前踩点过程、作案后逃离现场甚至是作案的画面。在案发后，南京、重庆的警方都派出数百名工作人员，根据案发时监控画面所记录下来的嫌疑人体貌和形态特征，连夜对案发前后全市所有监控录像画面进行甄别和排查，最终截取出周克华在南京和重庆出现的画面。又例如 2021 年北京10.28;金水桥暴力恐怖袭击案件中，警方在事件发生后对监控视频分析中，多次发现暴力恐怖份子在天安门广场上踩点。暴力恐怖份子在 10 月 7 号抵达北京后，在作案前一个多月时间内，多次出现在天安门广场上的监控视频画面中，然而这些异常的视频画面根本无法通过人去捕获分析。.........1.2 国内外研究现状及发展动态分析目标行为理解(Action Understanding)主要是对视频或图像中运动目标的动作使用自然语言进行解释，也就是对比测试视频序列和预定的视频参考序列，从而进行匹配[17]。因此，通过训练样本找到具有代表性的视频参考序列，保证测试序列在匹配时能够得到准确的行为理解结果。目标行为理解主要围绕着行为的特征描述与行为识别算法设计两方面进行研究。行为特征的提取与描述主要是针对视频图像中能够准确表述目标行为动作的具有代表性的数据进行提取，行为动作的不同以及外界环境的不同，决定了不同的表示方法[18]。当监控视频中运动目标距离摄像头较远时，要尽量提取视频中运动目标的运动轨迹；当监控视频中运动目标距离摄像头较近时，要针对目标本身建立模型进而识别。通常情况下，按行为特征的性质可将特征描述分为两类，一类是通过对底层图像信息进行提取处理，另一类是将高层的人体结构作为特征信息进行提取处理[19-21]。其中具有代表性的底层图像信息主要有：前景目标及其运动速度、运动轨迹信息[22]、光流[23]、前景目标的轮廓和侧影[24]等等，这些特征相对于高层人体结构特征较易提取，因此成为主要的行为特征描述方法。并根据相关的先验知识对目标进行建模，更好描述目标的行为。与底层图像信息相比，人体结构姿态属于高层结构信息[25-27]，高层结构信息可以获取更充分的运动信息，从而更精确的描述人的行为，但是通常情况下参数较多，增加了训练的复杂度和计算量。在对视频监控系统中人体行为特征提取过程中，针对不同的场景及应用目的可以建立不同的人体模型，不同的特征提取算法可以应用到对应的特征提取过程中。行为识别算法研究方面主要包括模板匹配法和现实空间法两种常用方法[28]。模板匹配法对视频图像的每一帧进行匹配，也可以对视频图像相互融合匹配。视频图像的每一帧进行匹配的方法[29]就是将测试集与参考集序列逐帧匹配；而融合匹配方法是建立若干个模板，通过对多模板匹配结果实现运动目标行为的识别。虽然模板匹配法计算量较小，但是其执行时间对模板匹配方法运行结果影响较大，对于同一行为执行时间的不同可能会带来不同的识别结果。动态时间规整DTW(Dynamic Time Warping)算法[30]针对此问题进行有效的改善，该算法利用动态规划的方法，通过计算得到两个长度不同的模板之间的一些共性，在测试序列与参考序列的时间尺度无法完全匹配一致的情况，根据时间序列约束，实现测试序列的模式匹配识别，是一种识别性能较好的一种算法。.........2 基于 GMM-STMRF 的视频目标检测方法2.1 概述在智能视频监控系统中，对目标行为的分析理解需要经过目标检测、目标跟踪、行为分类、行为识别等步骤。目标检测是第一个关键任务，也是其他处理步骤的重要基础，其检测效果影响到后续任务的完成效果[68]。因此，从视频序列中将目标提取出来，完整清晰地描述出目标特征，是行为识别理论关键研究内容，本章将针对视频动态目标检测方法做重点研究。马尔可夫随机场（Marov Random Field，MRF）是一种基于条件概率理论描述时空序列相关性的建模方法。在图像分割领域中，通过分析邻近像素空间关联性，构建二维图像的空间依赖模型，引入图论概念将图像定义为二维随机场，基于统计理论对图像进行分割。MRF 模型利用先验知识，对邻域像素构造闭合范围边界，估计模型参数，采用等价模型完成图像分割的工作，目前该领域的研究与应用极其广泛。传统的 MRF 模型中，各视频帧的 MRF 模型相互独立，没有考虑视频序列中相邻帧像素间颜色、灰度等信息的相关性。但是视频连续帧中的运动目标在时间维上有着连续性和一致性，各帧像素之间并非完全独立。本章提出一种基于 GMM的时空马尔可夫随机场（Spatial–Temporal Marov Random Field，STMRF）的视频动态目标检测方法，利用 MRF 的图像空间性，对目标像素建立描述标记场信息，通过 GMM 计算训练帧和监督区域的均值和方差，使用相邻视频帧的灰度变化均值构造新的能量函数，利用 Gibbs 模型算法实现最大后验概率（MAP）估算问题，完成对图像序列中运动目标的分割，从而提取出复杂背景环境中的运动目标。........2.2 基于模型的目标检测方法使用 GMM 进行背景建模时，将视频序列图像与建立的背景模型作差值，从而检测运动目标。对图像中每个像素建立多个高斯模型，模型参数的更新采用迭代方式[76]。使用多个高斯函数同时表示背景模型，能够更加准确的描述背景变化过程，从而消除场景中光照变化、噪声干扰等影响。根据当前图像高斯函数与背景模型的差分运算结果，根据设定的阈值能够判断出目标或背景像素。基于随机场理论的分割方法是将随机场数学模型应用到像素空间关系的描述上，使用 MRF 方法进行图像分割是目前随机场领域的重点研究方向[80]。1984 年S.Geman 和 D.Geman 首次提出 MRF 理论，证明该理论体系能有效描述图像像素空间邻域关系。利用 Gibbs 等价模型，实现 MRF 理论在图像分割领域的应用。目前MRF理论仍然是研究热点，Pappas[81]基于MRF对静态图像进行分割，Andrey[82]实现了纹理图像分割，Liu[83]将 MRF 结合模糊聚类方法后，对彩色图像进行分割，詹劲峰[84]在改进 MRF 模型后，将连续视频帧图像进行分割。下面对 MRF 理论进行介绍。............3 基于改进粒子滤波的视频目标跟踪方法.... 313.1 概述 .......... 313.2 标准粒子滤波方法 .......... 313.3 算法模型设计及流程 ...... 343.4 系统多现实空间模型 ...... 353.5 基于改进粒子滤波目标跟踪算法 .......... 363.6 实验及结果分析 .............. 433.7 本章小结 .............. 494 基于 CNN 和 MIL 的特征提取分类研究 ............... 514.1 概述 .......... 514.2 时空兴趣点提取及描述方法 ...... 524.3 基于卷积神经网络的特征提取 .............. 534.4 基于多示例学习的特征分类 ...... 584.5 实验及结果分析 .............. 626 本章小结 .............. 685 基于膜计算的目标快速识别方法研究........ 715.1 概述 .......... 715.2 膜计算 ...... 725.3 基于组织型 P 系统的目标快速识别方法.......... 765.4 实验及结果分析 .............. 835.5 本章小结 .............. 875 基于膜计算的目标快速检测方法研究5.1 概述在第二章中提到，智能视频监控中目标行为识别的首要任务就是发现视频及图像序列运动前景目标，包括各种位置、形态变化的人和物体，这个寻找过程就是运动目标检测[162]。常用的运动目标检测方法包括：（1）光流法：光流是指在目标运动时，图像亮度模式产生的运动分布规律，包括目标空间位置和速度变化等信息。光流法包括稠密光流（Dense Optical Flow）和稀疏光流（Sparse Optical Flow）[163]，两种方法的原理都是计算图像序列像素光流属性值，包括瞬间移动产生的速度大小和方向，以区分图像背景和前景目标。光流法对视频中时空量化较为宽泛，因此对图像噪声不敏感，健壮性较好。但是其计算较为复杂，因此，实现过程中为了简化运算，会将明显运动变化区域即光流检测区域直接做为前景。（2）帧差法：帧差法直接对相邻两帧或多帧进行差分运算，根据设定阈值判断差分后的值是否属于背景或前景，从而将目标分割出来[164]。帧差法可以计算相邻帧帧差，也可以计算间隔帧帧差。这种方法针对变化较为稳定的时序图像检测效果较好，但是在背景复杂、目标变化范围较大时，检测效果会受到很大影响。而且阈值的确定也是一个关键问题，阈值过大则会漏检目标，阈值过小则会错误的把背景当成目标，因此这种算法在不同环境下适用性较差。（3）背景差法：背景差法也叫做背景减除法，是一种较为常用的目标检测方法，该算法利用视频连续图像建立背景参数模型，用当前帧与背景模型做差分后与设定阈值比较，从而判断出像素匹配背景区域或是目标区域[165]。在当前帧判断过程中还会对背景模型更新，从而克服环境变化、噪声干扰等影响。背景差法有背景均值、运动均值、高斯混合模型、核密度估计、码本模型等算法。目标检测是行为识别的重要基础环节，也是实现智能监控系统行为分析的初始工作，因此其检测效果及运行效率对后续方法都会有重要影响[166]。但是以上的现有算法，在不同环境下应用都有一定的复杂性，而且处理视频和图像序列也会极大地耗费系统计算资源，所以它们无一例外都存在着运行时间效率问题。为了整个系统的实时快速响应，目标检测任务既要保证检测效果，又要尽量减少运行时间，为后续工作提供实时保证，因此研究目标检测的效率问题有着重要意义。

..........总结基于计算机视觉的目标行为识别是图像视频处理和模式识别领域的研究热点之一，能够应用在智能视频监控预警、视频图像检索、复杂人机交互等领域。尤其在国家大力推广开放式街区政策的环境下，视频传感器监控覆盖范围越来越大，采集获取的视频数据越来越多，目标行为识别在安防监控领域将会有极大的应用价值。本文以智能视频监控应用为依托，阐述了行为分析识别的研究背景和意义，总结了行为识别理论研究及技术应用现状。从特征提取表示、特征分类融合、特征分析识别方法存在的问题和难点出发，开展了行为分析的目标检测、目标跟踪、行为分类、行为识别的研究工作。本文主要的研究内容和创新分别如下：（1）本文提出了一种基于 GMM―STMRF 的视频目标检测方法，利用 MRF图像空间特性，通过增加时间维标记场信息，建立时空马尔可夫随机场（STMRF）模型。对前n帧图像划分多个区域，结合高斯混合模型训练过程，计算每块区域的均值和方差，从而初始化 STMRF 标记场。在 STMRF 标记场更新过程中，融合时间序列上监督区域的高斯混合模型均值及方差等参数。以时空邻域势团标记场均值为依据，构造能量函数时空表示方法，将势函数设定判断条件扩展为时空邻域标记场。依据 Gibbs 等价模型估算 STMRF 最大后验概率 MAP，从而分割出图像序列中运动目标。最后使用 TH 数据集中的视频片段和实际环境下视频数据，验证比较提出的 GMM―STMRF 算法和传统的目标分割算法，实验结果表明，GMM―STMRF 算法能有效的检测出运动目标，尤其在复杂场景下，比传统的视频目标检测算法效果更好，而且鲁棒性很强。（2）考虑目标跟踪时，容易受到视频图像背景噪声以及多目标相互遮挡问题的影响，为了在低信噪比条件下实时检测跟踪目标，本文提出一种改进粒子滤波的视频目标跟踪算法，构建多系统现实空间的预测更新模型。方法首先计算视频帧差，建立多系统现实空间模型。以帧差结果并集作为粒子采样的关键区域，提高粒子采样精确度。粒子加权计算过程融合多系统现实空间样本均值，依据中心偏移准则，提取目标偏移显著度特征，在多现实粒子加权融合的基础上，增加中心偏移度因子权值。粒子重采样过程中，在关键区域内复制新的粒子集，将粒子重采样范围限定为关键区域空间，改进了粒子重采样效率。在 TH、CAS-BADS、TRECVID 视频数据集上，分别采用 EF、UF、PF 以及本文算法进行实验对比。实验结果表明，针对不同场景下视频目标跟踪问题，改进的多现实空间模型及关键区域采样粒子滤波算法有着良好的目标跟踪效果，同时具有较高的时间效率。（3）通过提取单一图像视觉特征进行目标行为分类，识别精度不高。本文提出一种改进的 CNN―MIL 模型，将 3D Harris、3D Saliency 时空兴趣点与视觉特征融合，建立多维特征图像输入层。采用梯度反向传播及加权核函数进行卷积操作，在卷积核中增加向量参数，与输入层多维特征关联。设置不同显著度权值，提取出局部关键特征，降低干扰项影响。改进的 CNN 模型输出多维特征后，设计一种基于 MIL 方法进行特征分类。方法将特征矩阵分成多个区域，采用聚类算法对相似特征聚合，利用特征均值构造示例包，计算包中示例特征分量的 DD 函数值，从而确定包的标注信息。最后将 SVM 扩展为多示例非线性分类器，对示例包分类识别。通过实验对提出的算法进行验证，结果表明本文提出 CNN―MIL模型对目标运动区域更加敏感，分类识别效果较好。在噪声较多、目标遮挡的场景中具有更好的鲁棒性，特征表述和分类能力更强。..........参考文献（略）

标题：基于计算机视觉的目标检测跟踪及特征分类研究

链接：http://m.zhaichaow.cn/lunwen/jisuanji/429640.html