时间序列数据挖掘的关键技术及其应用研究

国学论文硕士论文

时间序列数据挖掘的关键技术及其应用研究

通关基地围观:℉更新时间:12-19 09:08

时间序列数据挖掘的关键技术及其应用研究

第一章 绪论

1.1 研究背景

随着社会信息化的不断发展,信息技术应用领域的不断拓展,各个应用领域包括经济、医疗、建筑、环境等均积累了越来越多的数据。自上世纪八十年代开始,世界各地的数据总量飞速增长,每年甚至几个月便会增长一倍,然而,如何有效的利用、分析这些数据信息,并从中获取其隐藏的有用信息,则成了一个巨大的挑战。在这些海量的数据中,有一部分数据是按时间顺序有序排列的,这类数据便称之为时间序列 (TimeSeries)。各个应用领域中均存在时间序列,譬如在经济领域,在证券交易中股票的交易价格;在医疗领域,监测仪器所监视到病人各个时刻的心率的变化情况;在气象领域,某地区在各时刻的温度变化;在建筑领域,传感器所监测到桥梁某处的温度、湿度等的数据信息。通过深入研究这些时间序列,发现序列背后所隐藏的潜在规律以及有价值的信息,具有重大的社会意义和经济价值。在上个世纪 60 年代,数据分析技术主要是数据收集,通常使用计算机、磁带、磁盘,收集的是过去静止的数据,譬如,某商场在前年的总收入;随后在 80 年代,为了能够查询到过去某个时期的动态信息,便提出了一种数据访问技术,该技术主要利用RDBMS、结构化查询等,譬如,查询出某商场去年 2 月份的销售量;之后,为了能提供回溯的动态数据信息,在 90 年代又提出了 OLAP、数据仓库等技术,譬如,某商场 B地可以根据 A 地区去年 2 月份销售量得到某个结论;近年来,随着数据量的增加使之前的一些数据分析方法无法有效提取出有价值的数据信息,由此,一种新的数据分析方法数据挖掘(Data Mining)[1,2]技术便产生了,数据挖掘技术不仅能分析已有的数据,还可从原有的数据中预测到未来未知的信息,譬如,通过数据挖掘可以预测到下月某商场的销售量。因此,何为数据挖掘?数据挖掘可以以许多不同的形式被定义,简易来说,数据挖掘就是从海量的数据信息中提取出有价值的信息,而原有的数据可能含有大量的,有模糊噪声的数据,但是在这些数据中,又存在着很多有潜在价值的,事先不为人们所知道的信息。挖掘的过程是通过利用各个领域的技术知识对海量数据进行处理分析,进而挖掘出可以有益于人们进行更高层次的分析决策的信息。Agrawal[3]最早提出了时间序列的重新描述以及相似性度量的概念,时间序列的重新描述以及相似性度量又是对时间序列进行数据挖掘的前提基础,许多研究者们在此基础对时间序列数据挖掘技术,从时间序列的重描述技术[4]、时间序列相似性度量[5]到各种挖掘任务均进行了深入的研究,对这些热点问题的研究已经逐步从理论研究延生到实际应用当中。

.......

1.2 国内外研究现状

自上世纪 90 年代以来,时间序列数据挖掘便吸引了众多学者的广泛关注,并在各个书籍刊物上出现了许多对于时间序列数据挖掘的文章,通过对这些文章进行综合分析,可以得出其中几个核心的研究热点:首先是对时间序列的处理问题,该问题可分为两部分,第一部分是时间序列的重新描述,第二部分是时间序列的相似性度量;对数据处理之后进而可进行挖掘工作,数据挖掘常分为聚类、分类、异常检测、预测等,本节就这些问题对国内外的研究工作进行分析和总结。由于时间序列具有数据量大等特点,直接对原始序列进行挖掘会存在着一定的难度,因此,针对此问题,重新描述时间序列的思想被研究者们所提出,各种描述方法也相继出现,从最初的离散傅里叶变换(DFT)[10]、离散小波变换(DWT)[11],到常用的分段线性表示(PLR[12],包括 PLA[13]、PAA[14]、APCA[15])、符号聚合近似方法(SAX)[16]以及界标模型(Landmars)[17]等。随后,也有许多学者们根据序列的特征对經典的描述方法进行改进,以更好的完成后期的挖掘任务。文献[35]首先提出了分段线性表示方法,并且表明该方法可以进行数据压缩以及去除噪声,文献[36]则认为所有是时间序列数据输入的算法,将 PLR 模式作为输出数据的所有算法均可以称为线性分段算法。文献[37]论证了该方法可以在模式匹配中得以应用。Prat 和 Fin[18]提出了一种基于重要点的分段线性表示方法(PLR based on ImportantPoints),该方法中重要点表示为在局部范围内的且和端点的比率超过参数 R 的极值点。提取重要点之后,再将这些重要点用线段有序的连接起来,便产生一个新的时间序列,其表示方式由参数 R 决定。该方法不仅在保留了原有序列的重要点的基础上对时间序列进行了有效的压缩,而且还可以较为精准的拟合原始时间序列,但是在参数 R 的选取上如何能够做到拟合效果与计算代价相匹配且达到最优化还是一个问题。

.....

第二章 时间序列数据挖掘基础

2.1 引言

近年来,时间序列数据已经在数据挖掘领域引发了各种研究与尝试,对复杂时间序列数据进行预处理,使其能够更好的完成后期数据挖掘工作,已成为了在数据挖掘领域中一个新的研究课题。对时间序列进行相似性度量是时间序列数据挖掘中最基本的问题,其中,相似性度量又是以时间序列的重新描述为基础,因此,本章首先介绍时间序列的定义,随后再详细介绍时间序列的几种主要的重新描述方法以及时间序列之间的度量方法。

......

2.2 时间序列的定义

时间序列[32]是一系列的按时间顺序排列的,并且由时间间隔相同的数据点所组成的集合。时间序列通常是一个在潜在的过程中所观察出的结果,根据给定的采样速率,在等间隔的时间里所采集到的测量结果值。时间序列可分为离散型和连续型两类,离散型时间序列一般是通过在相同时间间隔上采样得到,通常研究的重点均是离散型的时间序列。时间序列数据之多,更新速度之快,直接对原始时间序列进行各种挖掘任务是十分困难的,不仅效率低下,其可靠性也得不到保证。因此选择的重新描述方法极大的影响了时间序列数据挖掘的难易程度和效率。考虑到这一点,研究者们提出了一个个时间序列的重新描述方法,通过对时间序列重新描述将时间序列的主要特征提取出,不仅保留了时间序列的重要信息,同时也实现对数据的有效压缩,提高数据挖掘的效率和准确性。对于不同的时间序列数据的变化特点,其重新描述方法也不尽相同,本小节将针对几种常用的时间序列重新描述方法进行详细阐述并对其优缺点进行分析。

......

第三章 基于区域极值点的时间序列分类......14

3.1 引言 ....... 14

3.2 LEP 分类方法的思想和策略 ........ 14

3.3 时间序列的区域极值点提取策略 .... 15

3.4 基于 LEP 的时间序列的分类方法 ........ 17

3.5 实验及分析 ..... 18

3.6 本章小结 .... 22

第四章 基于符号化表示的时间序列聚类......23

4.1 引言 ....... 23

4.2 LEP_SAX 聚类方法的思想和策略 ........ 23

4.3 符号化聚合近似方法的改进 ....... 24

4.4 基于 LEP_SAX 的时间序列聚类方法 ....... 26

4.5 实验及分析 ..... 26

4.5.1 实验数据介绍..... 26

4.5.2 聚类评价标准..... 31

4.5.3 实验及结果分析...... 32

4.6 本章小结 .... 34

第五章 基于LEP和基于LEP_SAX的时间序列异常检测

5.1 引言

近年来,国内外的研究者们对时间序列异常检测的研究还在发展中,并没有成熟稳重的研究工作。时间序列通常是大量的、高维的以及有噪声干扰的数据的集合,因此,直接对原始时间序列进行异常检测,不仅检测效率较低,同时也会影响算法的准确性和可靠性。针对上述不足,通过对异常检测方法的研究并结合前两章所提出的时间序列处理方法,提出了两种新的异常检测方法。选择合成数据集和实际数据集进行异常检测,并可视化输出,以此验证异常检测方法的有效性和合理性。异常检测是众所周知的一个数据挖掘问题,异常检测中的异常;通常是指一个数据对象因为一些特殊原因导致偏离了其他正常的数据对象,是孤立的一个对象,这些数据对象即为异常数据,这些异常数据,通常会被人们所忽略,当作噪声处理,但是这些异常的数据值却包含着重要的、有价值的数据信息,譬如在医疗领域,当病人出现心跳异常时,可以通过对心电图数据进行异常检测从而能够及时得知。在时间序列的相关文章以及实践中均提出了许多异常检测方法,下面将介绍几种较常用的异常检测方法。

.....

结论

近年来,时间序列数据挖掘作为一个新兴的研究方向,在各个领域中均有了广泛的应用,包括医疗,建筑,金融等领域。随着对时间序列数据挖掘的研究的不断深入,一些关键问题被研究者们视为关注的热点。其中包括:如何对时间序列进行重新描述以更好的对数据进行挖掘,其次,时间序列数据挖掘包括聚类、分类、异常检测等任务,如何对时间序列进行数据挖掘也成为关注的热点之一。本文针对这两种研究热点通过对国内外的参考文献进行分析和研究,完成了以下研究工作:

(1) 就本论文研究课题的相关意义背景进行简易介绍,对国内外的研究热点进行分析并确定本文的研究内容和各个章节的组织结构。

(2) 对时间序列数据挖掘的相关理论概念进行简易阐述,首先介绍了几种常用时间序列重新描述方法,并分析各自的特点;然后介绍了几种常用的时间序列相似性度量方法,并进行简要分析;最后再对几种挖掘任务进行了简易描述

。(3) 介绍了分类方法的关于概念,并针对传统分类算法在处理数据集时计算能力有限这一问题,提出了一种基于区域极值点的时间序列分类方法 C_LEP。根据提出的区域极值点提取策略将原始时间序列重新描述成极值点序列,并利用 DTW 距离度量各极值点序列之间的相似度,再将其应用到 NN 分类算法上。通过设计三组实验,结果表明该方法在对时间序列重描述过程中实现时间序列数据的有效压缩,并与其他方法相比,该方法的分类效果有了明显提高。

............

参考文献(略)

标签:的文章

标题:时间序列数据挖掘的关键技术及其应用研究

链接:http://m.zhaichaow.cn/lunwen/shuoshi/431922.html