隐私保护数据发布匿名技术研究
1引言
1.1研究背景及意义
改革开放以来,伴随着我国经济的快速发展,信息产业也呈现出高速发展的态势,特别是作为信息产业重要组成部分的互联网产业,发展速度更是惊人。据统计,截至2021年6月,我国互联网普及率为46.9%,网民数量已达6.32亿,成为世界上网民数量最多的国家。在网民快速增长,规模急剧扩大的同时,互联网不断深入到我国政治、经济、文化、医疗及教育等领域,并产生深远影响。网络的价值也在不断的提升,它在促进我国经济发展,提升人民群众生活水平等诸多方面,体现出越来越重要的作用,显现出与众不同的魅力与巨大的发展潜力。随着网络技术、数据存储以及高性能处理器等技术的快速发展,海量数据的收集、存储和管理分析变得更加方便,特别是数据库技术的诞生及发展,为互联网的海量数据和信息实现高度共享化提供了强有力支撑。知识发现和数据挖掘更是在某些深层次的应用中发挥了极大的作用。
隐私是人类文明持续发展的产物,隐私的含义也会随着人类社会的不断发展而逐渐变化。在我国,词语隐私;最早于周朝初年出现,其最原始的含义是通过树叶或衣物的遮挡,避免身体隐私部位暴漏在公共场合。伴随人类文明的不断向前发展,隐私的含义也变得更加丰富和完善。在现代社会中,从法理意义上讲,隐私应当这样定义:已经发生了的符合道德规范和正当的而又不能或不愿示人的事或物、情感活动等。随着人们生活水平的提高,对隐私信息的保护也越来越重视。而近年来隐私泄露事件则屡见不鲜,引起人们的广泛关注。
1.2隐私保护数据发布的研究现状
该节将对隐私保护数据发布的研究现状进行介绍,本文将从三个方面分为三种不同的数据类型进行介绍,分别是微数据的发布、社会网络的发布和超图的发布。通过这三个方面的介绍,可以使读者全方位的了解当前隐私保护数据发布的研究现状。
1.2.1微数据的隐私保护研究现状
近年来,国内外众多研究人员对数据发布隐私保护技术进行了大量的广泛而深入的研究,提出了多种多样的隐私保护数据发布模型和相关算法。这些方法包括泛化、压缩、数据交换技术、发布边缘数据在安全范围内和向原始数据中添加噪音数据等等。数据发布中的隐私泄露主要可以分为身份泄露和属性泄露。当个体与数据中的某条具体记录相对映时就发生了身份泄露;而属性泄露是指匿名数据会泄露个体的一些其他的新信息。
可以简易描述数据收集和数据发布的两个阶段如下:在数据收集阶段,大量的数据被数据持有者收集者从产生数据的机构或个人那里收集数据,组成数据集;在数据发布阶段,前一阶段所获得的数据集被数据持有者处理并对外发布,而数据接收者数据研究者分析者则获得这些被发布的数据,并依据不同目的对这些数据进行挖掘或分析研究。
数据发布模型根据可信度,可以将其分为信任和非信任两种模型。对于信任模型,顾名思义,即数据持有者是可以信任的,而且产生数据的机构或个人会因为信任而将个人信息提供给数据持有者收集者。但是,这些机构或个人并不信任数据接收者。非信任模型则与之不同,数据持有者不是可信的,因为数据持有者可能试图从收集的数据中窃取提供数据的机构或个人的隐私信息。针对非信任模型,学者们提出了统计、加密和匿名通信等多种方法,用于在收集数据过程中不透漏隐私信息。
2隐私保护数据发布背景知识相关概念
2.1常见攻击隐私的方式
数据发布后,攻击者会试图采用各种办法来窃取数据中的隐私信息,下面将对几种主要的隐私攻击方式进行介绍。
(1)近似性攻击
近似性攻击是指匿名等价组中的敏感属性值虽然不同但是语义却十分相近或相似。因此,攻击者只要能够确定目标个体在某个等价组中,虽然无法准确知道是该等价组中的哪一条记录,但是该等价组中的敏感属性值十分相近,则存在较高隐私泄露风险。
如表2-2所示,该表是经过匿名模型处理后所发布的数据表。该数据表中的第一个匿名等价组中三个病人所得的病都与肺部疾病关于,所以攻击者不必知道攻击目标具体患有什么病,但是该病一定属于肺部疾病,这也是一种隐私泄露。
(2)链接攻击
链接攻击是最常用的一种攻击方式,就像是数据库中使用外键将两个数据库表链接一起,链接攻击也于此相似。针对此种攻击,最原始的办法就是将数据中的标识符隐去,以达到隐藏身份的目的。这样的话,就能够破坏将个人与敏感属性之间的关联性,从而实现隐私保护的目的。后来攻击者利用准标识符来推断匿名后的个人身份,从而获取其敏感值,这样也能达到攻击的目的,这是一种有效且直接的攻击方式。
如图2-1所示,表示链接攻击的示意图。我们仍以表2-1为例。在该表中,性别、年龄和邮政编码为准标识符,疾病为敏感属性。假设隐匿其标识符属性不发布姓名,但是如果攻击者通过其他渠道如选举记录获得了某目标个体的年龄、性别和邮编,那么攻击者就可以有较髙的概率得知该个体的疾病情况。
2.2匿名化方法
原始未经匿名化处理的数据一般无法满足特定隐私需求,因此发布数据前需要对其进行必要的匿名化处理。数据匿名化操作许多种方式,典型的有泛化、抑制、置换、剖析以及扰动等。泛化和抑制操作是通过利用更加一般化或范围更广的属性值代替数据中确切的属性值来实现隐私保护;剖析和置换一般通过聚集和混乱某些准标识符组中的敏感属性值来隐藏敏感属性和准标识符原有的关联;扰动操作则是通过添加噪声、值交换、值聚集或根据原始数据的统计性质对数据进行扭曲来实现隐私保护。下面将详细介绍这几种匿名化方法。
1.泛化
泛化操作隐藏了准标识符的一些细节。对于类别型属性,根据给定的分类树使用更一般化的值来替代原来确切的值。对于数值型属性,使用包含特定值的区间值来替代特定的属性值,或者使用更大的区间替代较小的子区间。有五种常用的泛化方案:
(1)全域泛化,所有的属性值都被泛化到其分类树中的同一层次。该泛化方案的搜索空间较小,且数据扰动最大。
(2)子树泛化,对于属性分类树上任意的非叶子节点,其所有的子节点要么全部泛化要么都不泛化。
(3)兄弟泛化,该策略与子树泛化类似,但一个非叶子节点下部分子节点可以不进行泛化。
(4)单元泛化,又称局部重编码,具有某属性值的记录可以进行泛化也可以不处理。该方案更加灵活,可以在记录级别进行差别化的泛化处理,具有更小的数据扰动,但可能会对数据的可用性产生一定的影响。
(5)多维泛化,该策略是将多个属性值同时进行泛化。
3多维数值型敏感属性数据发布MNSAGM模型..........29
3.1数值型敏感属性发布近似攻击问题........29
3.2已有方法及存在的问题......30
4针对拉普拉斯序列攻击的超图隐私保护算法..........45
4.1预备知识............45
5总结与展望...........59
4针对拉普拉斯序列攻击的超图隐私保护算法
在第一章中,我们介绍了超图在数据关系表示等方面的应用,并举例进行了说明,而且我们对超图的隐私保护进行了总结。在这一章,我们将对超图的隐私保护进行更深入的研究探讨,指出了针对超图发布的无符号拉普拉斯矩阵攻击,并提出了相应的解决方法。下面我们对超图的相关知识进行介绍。
4.1超图的身份信息泄露
在4.1节我们介绍了超图的相关知识,这一节我们将提出超图的拉普拉斯序列的概念及相关攻击。首先,我们先对身份信息泄露加以介绍。社会网络中的隐私泄露主要可以分为三种:1)身份信息泄露,是指关联该节点的个人身份信息的泄露。2)连接信息泄露,是指两个个体之间敏感连接关系的信息泄露。3)内容信息泄露,是指与节点个体相关的敏感数据的泄露,如个体间联系的信息泄露。与之类似,本文所提出的针对超图的拉普拉斯序列攻击便属于身份信息泄露。更直接的说,身份信息泄露就是在图中虽然去除了个体的标签信息,但是由于个体的某些信息具有唯一性,导致攻击者可以根据这些唯一性的信息推测出该节点的身份。同样,在超图中也存在身份信息泄露的问题。对于图的身份信息隐私保护问题,许多学者进行了广泛而深入的研究,并且取得了大量的研究成果。而超图的身份信息泄露问题则处于起步阶段,成果较少,其中和等人提出的秩序列攻击和相应的隐私保护方法极具代表性。本文,我们提出超图的拉普拉斯序列攻击问题,并提出抵御该攻击的算法。
5总结与展望
随着信息技术的快速发展,数据发布已经成为信息交换的一种十分有效的手段,为数据共享和数据交换提供了强有力的支持。当收集与发布的数据包含敏感信息时,隐私泄露便成为一个无法回避和必须妥善处理的问题。而且随着隐私信息窃取方式的日益多样化,更使得隐私信息的保护面临的挑战越来越大。因此,数据发布过程中的隐私泄漏问题正变得日益突出,隐私保护己成为学者们越来越重视的研究课题,产生了以匿名化技术为代表的一系列研究成果。
正是在这样的背景下,本文对数据发布中的隐私保护问题进行研究。针对含有多维数值型敏感属性的微数据发布,因数值型数据的发布可能带来的近似攻击问题,本文基于匿名化技术,结合近似组划分与多维桶技术,提出了匿名模型和相应实现算法,并且通过数据实验证实了模型的可用性。随后,本文对数据发布的隐私保护匿名化技术进行扩展,将其引入超图的数据发布。介绍了超图的相关概念,指出了超图发布中存在的身份信息泄露问题。根据超图的拉普拉斯矩阵,提出超图拉普拉斯序列集的概念,并据此提出了超图的拉普拉斯序列攻击问题。针对超图的此种攻击方式,本文提出了相应的隐私保护算法并进行了实验分析。
由于作者知识水平有限,对许多问题的研究还不够广泛和深入。因此结合隐私保护数据发布的发展趋势和作者有限的研究成果,提出以下需要进一步研究的内容:
(1)数据动态发布中的隐私保护
隐私保护数据发布作为一个极具研究价值的领域,诸多研究者对其进行了大量研究,并取得了许多研究成果。但是多数成果,包括本文提出的针对多维数值型敏感属性的隐私保护发布以及超图的隐私保护发布匿名模型都是针对数据的静态发布情景。随着时间的推移,数据面临动态发布的问题。尽管目前已有研究者对数据动态发布的隐私保护问题进行了研究,并且也都取得了一定的成果,但相对于数据动态发布的需求,目前研究仍显不足。特别是对于含有多维敏感属性的数据动态发布问题,更是成果甚少,需要研究者们付出更大的努力。
(2)针对非关系型数据发布的隐私保护
目前大多数的隐私保护模型都是应用于传统的关系型数据的发布。而在现实数据中,有大量的非关系型数据也面临着隐私攻击导致信息泄露的风险。直接应用己有隐私保护模型必然存在诸多问题。因此针对非关系性数据的发布的隐私保护方法具有重要研究价值。
参考文献(略)