面向专利文本的语义依存分析
第1章 绪论
1.1 研究背景及意义
当今社会,随着计算机科学领域的快速发展,出现了大量需要处理的语言文字信息。而对于自然语言处理来说,为了达到更好的处理效果,需要引入相关的语义信息。在自然语言处理(Natural Language Processing)领域,语料库作为基本的资源,对相关的研究具有十分重要的意义,在自然语言处理系统中更是起着至关重要的作用。有了基础资源的支持,对句法分析、信息抽取、机器翻译等系统的性能提升将具有很大的好处。无论是在基础研究还是实际应用中,构建语义知识库成为了一项关键性的工作。
随着我国科学技术的不断发展,知识产权的重要性越来越得到关注和认可。国际间技术交流的不断加强,使得专利技术的交流和学习成为科技领域中的一部分。专利是世界上最大的信息源,其包含了世界科技信息的90%~95%。对于自然语言处理领域来说,对专利文本的处理既是一种机遇同时也是一种挑战。能够高效合理的翻译专利文本,分析专利文本,充分挖掘其中的专利信息,对推动我国专利技术的发展将起到十分关键的作用。专利文本不同于普通文本,本身具有其特殊之处。专利文本中的经典话语是比较复杂的,经典话语结构和表述的意义都比通用领域难于区分和理解。而且,专利文本中含有很多的专业领域术语,还会有新的术语不断出现。但是,专利文本也具有自身与众不同之处。专利文本大多是在描述实物的一些现实或者它们之间的关系,而人类的意识或者情感的内容较少。专门针对其特点进行分析研究,将会提高语言处理系统的效果。因此,本文构建面向专利的汉语语义树库并在此基础上进行语义依存分析研究和探索。
本文的研究内容是语义依存分析。宗成庆指出:自然语言处理的最终目的应该是在语义理解的基础上实现相应的操作。在自然语言处理中,简易的词法和句法分析还是不够的,不能够满足越来越高的应用要求。语义分析能够提高自然语言处理系统的性能。但是对于计算机来说,如何能够正真的理解语义和运用语义,像人脑一样思考分析问题将是一个十分难于突破的挑战。
1.2 主要研究内容
本文面向专利文本进行自动的语义依存分析,需要解决以下两个最基本的问题:第一,语义分析的基本单位以及语义描述体系的选择,在此基础上构建基于语义依存分析语料库;第二,实现语义块的识别,这是进行下一步语义分析的基础;第三;语义依存分析,即依存弧的确定以及语义关系的判断。
1. 语义依存树库的构建
2. 语义块的识别
语块为本文进行语义依存分析的单位,因此,语义块的识别是语义依存分析的基础。本文将语块分为四类,运用各自的识别标记,在自动分词和词性标注的基础上,进行语块的边界确定。根据经典话语的结构特征,本文提出了自顶向下的语义块识别方法,分别对外层语义块和内层语义块进行识别,分别选取外层语义块语料和内层语义块语料训练模型。
3. 语义依存分析
本文最终目的是要实现语义依存分析。通过分析已经识别出的语块特征,我们总结归纳出了确定依存弧的规则。运用这些规则,可以确定每个语块所依存到的核心语块。进一步,运用规则和统计相结合的方法进行语义依存分析。
第2 章 相关研究及其现状
2.1 树库构建研究现状
随着计算语言学的发展,完全依赖于语法规则进行语言学研究已经难于满足要求。而统计学习方法的兴起,使人们能够从真实语料中发现一些有用的信息资源。因此,语料库的构建成为了自然语言处理领域一项比较基础的内容。树库是根据特定的规范将语料进行结构化处理形成的语料库。一条经典话语在语法或者语义上来讲具有嵌套性,因此体现出经典话语的层次性。这样,我们可以用树;的结构来描述经典话语;大规模的树;型结构的经典话语构成了我们想要的树库。
经过几十年的研究发展,目前国内外已经形成了许多大规模的可以使用的树库。比较典型的有:美国宾夕法尼亚大学的 U2Penn树库;英国的Lancaster2Leeds 树库;德语的NEGRA 树库与TIGER 树库;捷克语有PDT 树库;西班牙语有 UAM 树库;在汉语树库方面,美国宾夕法尼亚大学的U2Penn 汉语树库与中国台北中研院的 Sinica汉语树库等。国内也有一些成型或小规模的树库,如:北京大学汉语树库;清华汉语树库;国家语委现代汉语树库;中科院计算所构建的机器翻译句法树库;哈工业的汉语依存树库。
在英语的语义分析方面,常见的浅层语义分析资源有 FrameNet与 PropBan。FrameNet 是以框架语义作为标注的理论基础,描述一个词汇单元的框架以及框架之间的关系。在每个经典话语中,标注了像动词、名词或者形容词这样的目标谓词,以及语义角色、短语类型和句法功能。PropBan 是在PennTreeBan 基础上进行的浅层语义信息标注。PropBan 标注的对象只是目标动词(非系动词)。其中,包括50多个语义角色,而且,由于目标动词的不同,相同的语义角色可能会有不同的语义含义。
2.2 语块识别研究现状
语块分析属于浅层句法分析的一部分,可以简化完全句法分析的复杂性。先对语块进行句法分析,进而可以将分析出的句法块整理组合成句法树,语块之间可以有相互关系,语块和这些关系一起可以组成完整的句法分析树。为了降低句法分析的难度,Abney(1991)最早提出了语块理论,对语块做出了描述。为语块描述体系打下了基础,指出语块都有一个实义词和相应的修饰它的功能词所组成,语块在句中出现的顺序比较灵活,不受语法的约束,但是块的内部依然和语法关于系。
CONLL 语块体系的提出,强调自底向上分析经典话语,在Abney 的语块理论的基础上把语块分解为更细的单位,把经典话语分解成不同的短语和小句,但是CONLL 体系中的介词短语通常只包含一个介词。
语块识别被越来越多的学者所研究。文献[22]中是运用基于分类的监督学习方法,基于记忆的学习算法通过储存一个样例集,每个样例相关联一个特征向量和一个有限数量的类。对于一个新的特征向量,分类器从记忆里的大量相似的特征向量里抽取出该向量的类。好的相似性可以很好的适应手头的工作。基于记忆的浅层句法分析构建了一个分类器,句法分析过程是把一个主要的向量和其周边环境输入一个分类器,从而输出一些基于记忆的模板。这种方法对于动词语块的识别率比较高,但是对主语和宾语语块的识别率不是很好。
英语语块识别技术已经取得了一定的成果,但是汉语语块识别却刚刚起步,其中包括自动识别汉语短语、用支持向量机来识别汉语语块和汉语短语的定义与识别。
梁颖红、曹军在文献中,对 WINNOW、支持向量机和感知器三种识别方法进行了比较和分析。使用了词、词性、语块标记以及增强语言特征等比较多的特征来对文本语块进行识别。虽然为了提高识别效果而使用比较多的特征进行语块的识别,但是这样会使数据稀疏的现象加重,同时也会在数据的查询方面耗费太多的时间,识别的速度减慢。
第3章 语义依存树库的构建.....................10
3.1 引言.......................10
3.2 标注集的确定......................10
3.2.1 语块标注集.......................11
第4章 基于 CRF 的语义块识别..............17
4.1 引言...................17
4.2 特征选择.........................18
第5章 语义依存分析..................27
5.1 引言...................27
第 5章 语义依存分析
5.1 引言
在上一章中,详细论述了语义块的识别工作。在此基础上,本章结合规则和统计的方法,研究语义依存分析的方法。先确定语块的依存核心,即依存弧的确定,然后,进行语义关系的分析。其中,本文语义关系体系中认为,动块是语义理解的核心,角色块、情景块和虚块是围绕动块来表述语义信息。无论是经典话语的外层分析,还是内层分析,都是通过以上四种语块来描述它们之间的语义关系。在本文中,不对虚块和动块之间的语义关系讨论。
通过分析实际语料,能够总结出一些依存规则,这些规则可以找到大部分存在依存关系的语块。因此可以通过规则来确定语块的依存核心。在确定依存核心以后,基于CRF进行语义关系的分析。最后,再利用规则,修正语义关系分析结果,使语义关系准确率更高。
经典话语中的大多数外层语义块符合正常主谓结构语序,但是内层语义块经常会有动词名词化一些情况出现,使经典话语语序出现变化,尤其是两者核心动块出现的位置不同,使得语义关系的判断需要分开判断。在训练时,分别选取外层语义块的语义关系语料和内层语义块的语义关系语料进行训练。
结论
在许多高层次的研究和应用上,语义依存分析都大有用武之地。如果语义依存分析问题得到有效的解决,将对包括自动问答、信息抽取、机器翻译、信息检索、自动文摘等在内的许多研究和应用产生巨大的帮助。语义依存分析是建立在依存理论基础上,是深层的语义分析理论。它能够从经典话语的依存结构以及语义信息两方面来分析经典话语,更好地表述出经典话语的结构以及隐含的语义信息。本文重点研究了面向专利文本语义依存树库的建设以及语义依存分析方法。
全文的主要工作及得到的主要结论总结如下:
本文的理论基础是三维动概念模型和《基于语块和块句的构式语义关系体系》。目的是对以上理论的实践和检验验证。以其作为理论指导,对树库构建方法进行研究,构建出了面向专利文本的汉语语义树库。在此基础上,实现自动语义依存分析过程。
本文中语义分析的语言单位是语块,因此,在实现自动语义依存分析之前,首先需要找出动块、角色块、情景块和虚块这四类语块。根据经典话语的结构特征,本文提出了自顶向下的语义块识别方法,分别对外层语义块和内层语义块进行识别。语义块的识别是进行语义依存分析和确定语义关系的基础,同时也为自动树库构建提供了技术方法的支持。
参考文献(略)