可视数据压缩及分析
第一章 绪论
1.1 研究背景与意义
数据有十分悠久的历史,最简易的数据莫过于数字,人们用数字记录下观察的结果便形成了数据,当然数据也可以是文字、图像、声音等。在过去的十年中,由于互联网技术的飞速发展和信息采集设备数量的快速增加,导致了数据量的激增,使世界处于一种信息爆炸的现实之中,现在人们所经历的数据增长速度已经远远超过了整个人类历史上的任何时候。也正因如此,大数据时代;已经到来了,大数据;也成为时下最热门的词汇。
伴随着大数据时代的到来,人们可以分析的数据量越来越多,但也面临着前所未有的大量挑战。从前的数据统计以及数据分析等工作由科研工作者、统计学方面的专家、数据分析师等全权负责,但在当今这个大数据环境下,大规模数据只有在被合理采集、解读和表述之后才能极致的展现这些数据背后所蕴藏的信息,所以如何对大规模数据进行有效的存储与合理的分析成为大数据时代下的一个热门问题。针对大规模数据的存储问题,其中一个比较好的解决方法就是对数据进行压缩以降低存储空间,在原有的硬件条件下存储更多的数据;针对数据的分析问题,可视分析技术可以形象的将原始杂乱的数据在二维空间或三维空间进行显示,为人们分析数据带来了极大的便利。
随着传感器以及其他数据采集设备的出现,数据采集的信息量越来越丰富,我们可以将这些数据信息以多变量体数据的形式呈现出来。体数据所采集的一般是三维空间中的信息,在对体数据分析时,可以利用数据可视化技术将三维体数据以二维图像的形式表现出来,有效的揭示了体数据内部的空间分布和结构关系等信息,为人们分析数据和科研工作带了来极大的便利。但是,随着多变量高维体数据的出现以及分辨率的提高,数据量急剧增加,如何有效及方便的存储、处理和可视化分析这些庞大而又复杂的数据,就成为了亟待解决的问题。传统的直接存储方式在存储数据时含有大量的数据冗余信息,造成了严重的空间浪费,并且对重新绘制以及网络传输造成了一定的困难。尽管可以升级硬件设备来暂时缓解这个问题,但是成本会大大增加。由于体数据之间往往存在很大的相关性,并且会有一定的冗余信息,所以解决数据空间占用率大的一个有效的办法就是利用压缩算法剔除数据之间的冗余信息,从而减少数据的存储空间。
1.2 国内外研究现状
随着信息化技术的发展以及信息采集设备的普及,所采集体数据的信息量越来越丰富,体数据的维度不断增高,导致体数据的规模越来越大。如何对多变量高维体数据进行有效的压缩以保障其存储效率已经成为近几十年国内外学者的研究热点。多个领域中均涉及到体数据的应用,例如,医学领域中采用计算机断层扫描技术获得的 CT数据,气象领域中雷达回波数据,飓风时序仿真数据,科学计算产生的核爆仿真数据等。因此对体数据压缩的研究对多个领域均有巨大的经济效益和社会效益。
1948 年香农在《通信数学理论》中提出了香农-范诺编码,这是近代压缩技术的开端。随着科技的发展,数据压缩算法也逐渐走向成熟稳重,被广泛应用在图像压缩与音视频压缩等研究领域。近年来在体数据压缩领域,也涌现出了许多新颖的压缩算法。比较常用的体数据压缩方法是使用主成分分析方法对体数据进行降维,通过保留少量的具有代表性的维度,保证其整体特性不变从而达到压缩的目的。另外在体数据压缩时,可以利用小波变换在多尺度上对数据进行多分辨率的分解,生成不同的频域和时域的子块数据,来达到压缩的目的,Sohn和Chaoli Wang分别在小波变换的理论基础上提出了不同的体数据压缩方法。1993年P.Ning和L.Hesselin 提出了基于矢量量化的体数据压缩算法。由于简易矢量量化算法获得的重构质量较差,2003 年 Fout 等人在牺牲压缩比的前提下对矢量量化算法进行了改进。2009 年赵利平,肖德贵,李肯立等人采用分类策略对体数据进行分类,然后对不同类别分别进行压缩和解压缩。以上针对多变量体数据压缩方面的研究基本上都是有损压缩的,在体数据无损压缩方面的相关研究还不是很多,本文的研究重点将放在多变量体数据的无损压缩上,提出了一种近似无损压缩算法。
第二章 多变量数据压缩与数据可视分析
2.1 多变量体数据压缩理论概述
2.1.1 多变量体数据概念
在目前的科研工作中多个领域均应用到了体数据,体数据也为科研工作带了极大的便利。体数据是三维空间中采取的离散数据点,采样的空间位置称为采样点,采样点处物质的某种物理属性的量化值称为采样值;体素(Voxel)是体数据的最小组成单元,在体数据中为一个立方体区域,其长、宽、高分别表示三个方向上的采样间距,一个体素包含多个采样值(图 2.1);如果在体空间中采样点之间有明确的拓扑相邻关系并且采样分布是等间距的,我们把这类体数据称为有结构的规则体数据(图2.2),否则为非规则体数据。
本文所要研究的压缩算法主要是针对多变量规则体数据,为了方便表示,我们用向量V(x,y,z,w)表示多变量规则体数据,其中x,y,z表示体素在三维空间内的坐标,w表示一个多维向量(w>=1),对应坐标系处体素的多个变量值。当w的值大于等于2时,代表多变量体数据,相对于单变量体数据,多变量体数据携带的信息量更为丰富并且更适用于科学研究。
2.2 数据可视分析理论概述
2.2.1 可视分析理论概述
现在人们已经进入大数据时代,数据爆炸所引发的问题是目前信息科学领域面临的重大挑战,随着信息量的增加,数据也从原来单一的图表、文字、数值等形式向着高维、多源、多态的形式发展,这不仅增加了数据的规模,还出现了数据获取的动态性、数据内容的噪声、数据关系的异构性等问题。大数据时代下的数据往往具有很高的复杂性,如数据的流模式获取、非结构化、语义的多重性等。为了能更好的对复杂数据进行分析,可视分析技术应运而生。可视分析处理的对象可以是任意数据类型、任意数据特性以及异构异质数据的组合,为数据的预测以及数据信息的探索提供了有效的技术手段。
2.2.2 可视分析研究方向与相关技术
虽然可视分析是近几年才发展起来的新兴学科,但经过研究者的不断探索,已经总结出了一些对于可视分析的理论和方法。下面将介绍几种可视分析的研究方向以及用到的相关技术。
(1)层次信息可视分析
抽象信息之间往往存在着层次关系,例如Linux 系统对目录的管理、图书分类、文档管理等都是具有层次结构的数据。因为层次关系普遍存在于数据信息中,所以层次化可视分析是可视分析领域的一个重要研究方向。一般用树状结构来描述层次关系,基于树状结构的层次化可视分析技术主要分为两类,分别是:空间填充法和非空间填充法。
Treemap是比较常见的空间填充法,Treemap 方法通过将屏幕空间划分为一个个的子空间来观察大规模层次数据,子空间的大小由该空间代表数据的大小决定,该方法能够有效的利用显示空间对层次信息进行显示。对于划分的子空间可以填充不同的颜色来进行标示以便于分析。图 2.6为Treemap可视分析2021年各国Web流量情况。
第三章 多变量体数据近似无损压缩...............18
3.1引言........................18
3.2机器学习的相关概念和方法..................18
3.2.1 线性回归模型.............................18
第四章 轨迹数据异常检测可视分析.........................34
4.1引言.........................................34
4.2轨迹数据......................................34
第五章 总结与展望.....................48
5.1本文工作总结......................48
第四章 轨迹数据异常检测可视分析
4.1 引言
近年来,随着廉价定位系统和传感器网络的发展,在各个领域都收集了大量移动对象的轨迹数据,如在交通管理领域收集的车辆行驶路径数据、海域管理领域收集的轮船轨迹数据等。面对如此丰富的信息量,研究人员也正在探索对轨迹数据的分析方法,试图通过有效的分析手段从数据中分析其规律从而获取有用的信息。针对轨迹数据,其分析的目标主要有两种:一种是从轨迹数据中发现具有相同运动方式的运动对象,即运动对象聚类;另一种是从轨迹数据集合中发现具有异常行为的运动对象,即运动对象轨迹异常检测。近年来对轨迹数据的相关研究大多集中在对运动对象的聚类分析上,但是对轨迹的异常检测也具有十分重要的意义,可以通过轨迹的异常检测发现大型运动轨迹集合中明显异于其他轨迹数据的运动对象,对人们的生活以及社会活动具有一定的指导意义,所以对轨迹的异常检测也是一个重要的研究方向。
本文结合了可视分析技术开发了一个针对轮船运动轨迹的异常检测系统。通过将收集到的轮船运动轨迹数据映射到空间地理坐标上,利用轨迹异常检测技术分析轨迹集合中可疑的运动对象,极大的方便了海域管理人员对可疑船只的管理。
第五章 总结与展望
5.1 本文工作总结
针对大数据时代下产生的大量数据,本文从数据的处理和分析两个方面进行了相关研究,提出了一种基于机器学习和极致哈希算法相结合的多变量体数据近似无损压缩算法,并设计了一个运动轨迹数据的异常检测可视分析系统。
多变量体数据因为其携带的信息量丰富,符合实际的研究需要,在各个领域都有广泛的应用。但是唯一的缺点就是其数据规模庞大,不利于存储、网络传输以及绘制。本文针对多变量体数据空间占用率大的缺点,提出了一种近似无损压缩的解决方案。首先利用机器学习的方法对多变量体数据进行初步的有损压缩,对压缩后的误差进行筛选,得到一个稀疏误差数据,然后根据极致哈希函数对误差数据建立哈希表,将机器学习的有损压缩结果与哈希表相结合对多变量体数据再次重构实现近似无损压缩。
另外,随着廉价定位设备的出现,积累了大量的运动轨迹数据,对这些轨迹数据的分析可以帮助人们更好的生活和进行社会活动。针对运动轨迹数据本文设计了一个轨迹异常检测可视分析系统。在对轨迹数据进行可视分析时,本文通过核密度估计方法充分考虑了局部的异常轨迹数据,并且采用了基于深度的光晕线条绘制方法对异常轨迹进行绘制,增强了可视效果,而且避免了视觉混乱。
参考文献(略)