基于海量车牌识别数据的旅行时间计算问题研究
1绪论
1.1研究背景
交通是一个国家经济发展的命脉,中国经历了改革开放高速发展的30多年,城市化发展速度异常迅猛。城市化的发展使城市交通资源进一步紧缺。尽管我们国家道路交通基础设施建设不断发展,城市间与城市内部中的道路网络规模显著,但是由于出行车辆的增长,导致更个交通系统内的交通流量持续增长。以北京为例,最近两年每周新增车辆数达一万以上,严重挑战着城市道路的承载能力。
随着智能交通信息技术的发展,动辄达到数百甚至数十至数百PB规模的交通大数据已远远超出了传统的计算技术和信息系统的处理能力。因此,寻找有效的大数据处理技术、方法和手段已经成为当今各行业的迫切需求。未来越来越多的研究和应用领域将需要使用大数据并行计算技术,大规模数据和复杂计算的应用领域将处处可见大数据技术。
本文课题来源于某大型城市智能交通项目,该市道路网络中的数千个关键路口部署着自动车牌识别摄像头,每秒可对多个机动车车牌拍摄和识别,在高峰时段一小时就能能产生出上千万条的识别数据,然后将拍摄得到的照片、识别车牌号,时间和地点等多个信息属性打包为指定协议的结构,作为车牌识别数据发送给处理系统,并同时以文本的形式存储在文件系统中作为历史识别数据。
1.2研究问题
对于旅行时间研究需要有高质量的数据支持,传统旅行时间计算多采用浮动车数据,通过浮动数据求得车辆对象的行驶速度状况,再由路段长度除之求旅行时间值。该类计算中对象多直接面向单车,数据规模也不足以覆盖整个城市路网。另一类数据为城市路网上交通探头监测的车牌识别数据,该类数据来源于对城市道路中行驶车辆的实时监测,其包含有车辆牌号、监测釆集时间、釆集地理位置等时空属性,具有典型的位置可测、时间连续、时空相关的特征。此外,考虑到随着城市道路大范围部署车牌识别摄像头,车牌识别数据集的规模将远超传统采样方式所获得的数据。传统的计算方式已经不能适应此大规模的数据集下的计算。
同时由于每日交通流量变化,交通状况由于众多因素的影响,车辆对象每天同一时刻在同一路段的旅行时间不同,同一路段在一天中的不同时刻的旅行时间也不同。这些因素可划分为主观因素和客观因素,客观因素如:气候影响、道路特征和车辆健康状况等;主观因素如:出行人数的多少、驾驶员驾驶习惯等等。不难看出,这些因素或多或少都存在着不确定性,在某一时刻,人们无法完全准确的预测下一时刻有哪些人因为什么原因而出行,也无法预测在行驶中的驾驶员下一步会有什么样的动作。这些都决定了旅行时间预测研究中存在着很大的不确定性。
根据旅行时间在线流式计算中,为解决某些路段过车记录过少或者在特殊时段无过车记录的情况下数据缺失问题和保证结果数据平滑,需提供一种预测算法,获取预测旅行时间值来使得统计数据的平滑。
本文的工作则是以城市道路旅行时间为实际问题作为出发点,针对以上这些挑战,提出了如下两点问题:
(1)面对海量车牌识别数据集,如何实现一种高效的分布式旅行时间计算模型。该模型能够支持城市全路网中的路段旅行时间计算,并且能在离线计算和实时计算两种场景中应用,提高对于大规模数据集的计算效率。
(2)针对适应交通流无序变化,如何通过路段旅行时间历史统计结果给出一种分布式环境下旅行时间预测算法。在交通流的不确定性中提取交通流中平稳现象以及规律,并能针对海量车牌识别数据集上设计旅行时间预测方法模型。以上的问题和挑战不仅只针对于旅行时间的研究,对于其他基于大规模交通数据的交通应用都存在。
2相关工作分析
2.1旅行时间计算理论研究
2.1.1研究现状
旅行时间统计计算一直在智能交通研究领域中的占有重要位置。国内外也对旅行时间分布规律与短期内的预测做了大量研究。
文献在基于从十多个道路交叉口釆集到的车牌识别数据,应用概率中假设检验的方法研究城市中某些道路的旅行时间分布情况。然而上述工作使用的釆样数据仅为小时内数据,数据量较小,并且在考虑城市道路网段中所有路段全天多时间区间的旅行时间计算时,这种分布估计方法很难适用。
加州大学伯克利分校统计系提出了针对快速路上旅行时间进行较短时间内的线性预测方法。这种方法使用简易,计算效率高,但是基于的数据是短期内固定路段的相关数据,如果是面对大规模数据,该算法处理长时间的识别数据就会显露弊端。
北京交通大学针对高速公路断面检测数据密度不足的现状,釆用收费站过车数据引入分段线性插值方法构建卡尔曼滤波模型来预测收费站间车辆旅行时间,面对较平稳的交通流情况下,对旅行时间的预测具有不错的表现。
由以上内容可看出,旅行时间计算多采用浮动车数据,并且考虑车辆行驶速度的较多。但对于本文所用的大规模车牌识别数据集,需要通过大数据技术来处理。
2.1.2旅行吋间预测算法
对于旅行时间预测算法有很多,例如基于卡尔曼滤波的预测算法,基于统计回归计算的预测算法、分类学习算法和神经网络算法等。每种算法都有自己的优势和弱点。
卡尔曼滤波理论是通过现实方程和观测方程来组成现实空间模型,该模型为线性随机系统的现实空间模型,可以描述滤波器并且利用现实方程的递推性,通过线性的最小均方误差无偏估计,递推的对滤波器的现实变量进行最佳估计,从而对过滤后的有用数据进行一个最佳估计。所以最优估计也可看作是滤波过程。因此卡尔曼滤波算法预测精度相对较高,通过实时的数据来修正未来的预测,但是预测迭代次数较多,模型的基础是线性的,而对于交通流这种非平稳的现实,预测精度较低。
统计回归计算思想是考察具有因果关系的情况下,对自变量与因变量的影响变化所进行的数理统计分析处理。要使建立的回归方程有意义,只有保证变量与因变量确实存在着某种关系。同样此类算法细想对于稳定的交通流现实预测精度较高。
基于分类学习的预测方法主要通过历史样本数据,来找寻变化规律,通过对未来多种情况的分类来预测未来的发展趋势。分类学习方法对稳定和非稳定的交通流都能有较高的预测精度,但是其预测精度建立在大量的历史样本数据上,用来建立模式库。
2.2大数据计算相关工作
2.2.1大数据在智能交通领域研究现状
基于大数据技术的发展以及对于数据处理的不同需求,大数据处理技术可以通过返回结果时间上的快慢分为:离线处理、近实时分析和实时流处理。如表所示。
其中离线处理技术处理数据量相对较大,处理时间会比较长,往往是分钟到小时级别,其多用于对大量原始数据进行粗粒度的计算处理。
近实时分析技术处理数据量相对较少,处理时间相对于离线处理时间能达到秒级,其多用于数据分析、机器学习等分析处理。
实时流处理技术处理的数据量量级较小但是持续到达,一直连续不断的处理,持续响应,多用来处理不断持续到达的流式数据。
3时空划分的旅行时间计算模型..........16
3.1旅行时间计算定义.......17
3.2旅行时间实测模型.........17
4分布式旅行时间计算系统实现...........20
4.1旅行时间计算系统.........20
5实验与评估............28
5.1旅行时间实测实验.........28
5实验与评估
5.1旅行时间实测实验
通过分布式旅行时间计算系统对于时空划分计算模型的实现,实验中我们主要关注计算性能,关键参数的影响以及扩展性。为此,我们设计了如下一组实验来考察在旅行时间实测计算中路段数目(代表受测路网规模)、车牌识别数据记录数和Hadoop集群节点数三个参数对旅行时间计算的不同影响:
通过如图5-1所示实验1得到的实验结果。从图中可看出,随着参与计算的车牌识别数据集数据量的增加,两种计算方法的计算时间均呈线性的增加。但CMR方法在计算效率上比方法有较高的提升,并且CMR方法受时间周期差异的影响比LMR方法小很多,5分钟、15分钟和1小时三个不同时间周期下计算时间的差异均在100秒以内。
结论
分布式计算模型如今在大量应用领域面前表现出了高效的性能,并且海量车牌识别数据集上的旅行时间计算是已然成为智能交通计算应用中一类代表问题。如何将具有时空相关、时序连续、位置可测等征的数据集通过分布式计算思想解决旅行时间计算方面的问题愈发被关注。本文针对该问题,定义了基于车牌识别数据的旅行时间计算概念,提出一种基于时空划分的旅行时间计算模型,并给出了该模型基于海量车牌识别数据的分布式旅行时间计算实现。通过在一组海量真实车牌识别数据集上的实验表明,相对于传统的旅行时间计算方式,本文方法表现出了较高的性能,同时具有适宜细粒度划分及扩展性等特点。
同时利用路段旅行时间历史统计结果,满足基于车牌识别数据的路段旅行时间预测需求,应用朴素贝叶斯思想,对路段上旅行时间上下时间区间的变化率进行分类预测,设计一种全路网上旅行时间预测模型。通过实验表明,面对于分类粗细粒度的划分都能表现出较好的预测准确性,准确率均能达到85%左右。
同时本文对于旅行时间预测是基于前后两个时间区间变化率进行预测,预测范围多有局限,未来研究可以对于一个月或者一周中时间周期进行分析,预测旅行时间值并能通过实测值进行修正。
参考文献(略)