网络表格间的关联关系发现
1引言
随着信息技术的迅猛发展,互联网上涌现出大量的数据,人们逐渐意识到其中结构化数据覆盖面广且信息量大,因此给予其更多的关注。网络表格在结构化数据中具有代表性,只有检测出网络表格间潜在的关联关系,方能更好地利用网络表格中的数据。Anish Das Sarma等人在2021年首次提出了网络表格间关联关系这一概念,利用其发现的关联关系可以有效地提高搜索质量。本文将进一步深入地研究与发现网络表格间的关联关系。
1.1研究背景和意义
这些系统的建立主要为了能够充分地融合来自不同源的数据,有助于数据再利用以及发现新的数据源的目的。例如,一个用户要填写国家经济指标的表格,若他想要查询出指定国家中国;的信息,那么系统可以利用己有的数据容易地发现对于中国;的人口和GDP等相关数据,并添加到用户的调查表格中,同样系统也可以发现与中国;关于的其它国家的一些数据,以行的形式添加到表中。
事实上,要想有效地利用网络中的结构化数据,达到数据的再利用,就必须要探测数据之间的关系。只有探测出数据间潜在的关系,方能更好地让这些数据发挥其本身的作用。Xin Luna Dong等人尝试发现网络数据间的复制关系,以便找到数据的真正来源,从而检测数据的真假。Anish Das Sarma等人已经发现表格之间的合并和连接关系,合并关系可以实现实体级的补充,而连接关系可以实现实体属性级的补充,这两种关联关系的发现不仅有助于表格内容的扩展,也给搜索带来了很大的帮助。
1.2国内外研究现状
在开放数据平台兴起的热潮中,政府等公共机构逐渐意识到向公众公开自己数据的必要性,所以纷纷建立起自己的数据平台,如美国政务公开数据网站、联合国公开数据网站等,而这些数据多数是结构化。为了融合这些数据,在2021年出现DrillBeyond系统。DrillBeyond是一个开放的信息检索系统,用户可以完成本地和开放数据源两种方式结合的数据查询。
为了实现本地数据和开放数据的结合,就要求必须事先检测出它们之间存在的关联关系。只有先明确两个数据间是何种关系,方能用之有道。网络表格是结构化数据的一种,于是,网络表格间的关联关系发现成为数据融合系统中一个新兴的研宄课题。然而,网络表格间的关系发现在国内外仍处于起步阶段,目前只发现了合并和连接两种关系,尚存在其它可以利用的关联关系。此外,记录间的复制关系也己被发现,但目前的发现方法并不适用在表格上。
本文首次提出了网络表格间的快照和参照关系,对于这两种关联关系,目前尚无相关研究。但我们的方法仍然可以从现有方法中得到一些启发,包括合并、连接和复制关系,下面小节将详细介绍这些关系的发现机制。
图1-1和图1-2所示的两张表格互为实体补充表,因为我们可以认为存在一张虚拟的表记录前200名男子网球比赛成绩。方法中考虑了表格的实体和模式两方面因素,其中在实体因素方面,用现有的知识库为表中每个实体加上标签,标签能够标识该实体所属的归类,然后为每个标签分配权重,根据推导出的数学公式计算出表格在实体方面的相关性。文中实体的标签是通过不同的知识库得到的,包括webisa、freebase、webtable并在实验中给出了使用不同知识库的效果。
2网络表格间的关联关系发现问题概述
2.1网络表格
随着信息时代的迅猛发展,互联网上的数据也在日益增多,这些数据横跨各个领域,包括医疗、卫生、教育、地理等。丰富的数据资源在受益于人类的同时,也在实现数据本身的价值。
互联网中的数据有三种表现形式:结构化数据、非结构化数据和半结构化数据。结构化数据是指数据有着十分明显的特征,如按照一定规则建立起来的数据库。结构化数据主要以表格的形式存在,方便读取数据的内容。非结构数据包括网络中的视频、图片、文档、音频、文本、图像等不同媒体形式存在的数据。非结构化数据形式多样,内容多变,格式不统一。半结构化数据是在结构化数据和非结构化数据之间的数据模型。和普通的文本相比,半结构化数据有一定的结构,通常以XML的形式存在。
近年来,虽然非结构化的数据在所有数据中的占有率近80%,但是结构化数据也在潜移默化中有着不可轻视的作用,如可与本地表格数据结合,继而打破传统数据库的封闭性,从而完成原本不可能的查询,最终实现人们open-world;的设想。网络表格是结构化数据的主要表现形式。人们平时在网上冲浪时会看到各种模式且内容丰富的数据。此外,这些数据具有鲜明的特征,一般情况下会以二维表格的形式展现在网页上,图2-1所展示的网络表格来自北京交通大学官方网站。
2.2本章小结
本文首次尝试发现网络表格间的快照关系和参照关系,为了更好地理解本文后续章节所使用的方法,我们在本章介绍了网络表格间关联关系发现的相关的知识。分别介绍了网络表格的概念,目前国内外主流的语义数据库,包括freebase、probase和How,然后概述了GOOGLE公司发布的acsDB属性相关数据库,最后介绍了关系发现中所使用的Bayes数学模型。
3网络表格间的快照关系发现...........19
3.1问题描述.............19
3.2快照关系定义..........21
4网络表格间的参照关系发现...........41
4.1问题描述........41
5总结与展望.........65
5.1研究工作总结.......65
4网络表格间的参照关系发现
数据间的关系对我们能够充分地利用信息时代下产生的庞大的数据至关重要。目前对网络表格间的关联关系的研究知之甚少,尚局限在可以对表格进行实体扩充的合并关系,以及可以对表格进行属性扩充的连接关系。我们在第章重点研宄了网络表格间的快照关系,快照关系可以优化表格上的查询,此外,在大数据环境下,也可以用于实时地返回部分查询结果。我们将在本章对表格间的参照关系进行详细的论述。
4.1问题描述
目前的一些数据融合系统己经将关系表的概念淡化,无需限定表间的约束关系,同时用户输入的查询句子也并不必严格遵守关系型数据库中查询句子语法的规定,如允许查询任意的不在查询表内的属性,这种open-world;的查询方式给数据融合系统带来巨大的挑战。
参照关系是网络表格间潜在的可以被充分利用的关联关系,其可作为有效地解决上述示例中査询失效的关键问题。当有查询失效属性时,通过分析失效属性的语义信息可以找到其所属的概念,若此概念与查询表实体的概念一致,则可以按照文献的方法发现与査询表有模式补充关系或连接关系的网络表格,从而查询到相关内容。若不一致,说明失效的属性可能不是描述查询表中概念的特性,若要完成查询任务,需要探测出失效属性所属的概念,然后将其转移到以该概念为实体列的表中。
5总结与展望
5.1研究工作总结
随着信息技术的发展,网络上的数据资源日益增多,高效地利用这些数据成为重中之重。但是,数据的价值不仅在于数据自身,也在于数据间的关系。目前网络表格间的关联关系发现仍处于起步阶段,本文探讨网络表格间新的关联关系,主要工作表现在以下四方面:
(1)首次提出发现网络表格间的快照关系和参照关系。快照关系可以提高表格上的查询速度,并且在大数据环境下,也有利于优先返回给用户部分结果。参照关系可以使SQL句子实现开放化的查询,继而真正实现open-world;设想。
(2)针对快照关系和参照关系,本文分别设计了不同的用于评分的理论模型和算法。算法根据关系类型,权衡表中的实体和属性重合度两方面因素,能够发现较高质量的满足上述关系的网络表格。
(3)在网络表格的快照关系发现中,我们提出实体新鲜度的概念,并给出表中实体新鲜度的计算方法。在同样的匹配条件下,我们的快照关系发现算法会更多地关注能提供新鲜实体的表,并给予这样的表格以较高的得分。其次,除了实体和属性两方面因素,我们还引入了实体在属性上内容的因素,进一步设计基于Bayes模型的表格内容增强算法,能更加准确地判断属性列上值的一致性,从而提高快照关系发现的准确率。最后,我们将快照关系发现的算法应用在真实的网络表格上,大量实验表明,本文提出的评分模型可以高质量地发现网络表格间的快照关系,且在快照的查询精度和召回率上表现较好。
(4)在网络表格的参照关系发现中,我们不单纯将实体覆盖率作为表格在实体因素方面的得分,而是为表中每个实体分配权重,再结合实体的最大相似度,继而得到实体的相关度。其中实体权重由实体对所属概念的权重和实体对表的权重两部分组成,可以对参照列内重复出现的实体给予更多的重视并且降低噪声数据的影响。最后我们将参照关系发现的算法应用在真实的网络表格上,大量实验结果表明,本文提出的算法和使用的模型能够在真实的数据集中发现较高质量的参照表,也表现出了较好的降噪效果。
参考文献(略)