基于语言模型的文本分割研究
第一章 绪论
1.1 文本分割的研究意义
文本分割的基本思想是按照文本语义之间的联系,将一篇文本切分成若干个语义段落,每个段落描述的子主题都各不相同,都是各自独立的。将文本中描述相似内容的部分聚合在一起,使得语义段落内部具有最大的语义一致性。对文本的分析可从原先对篇章的研究,缩小到对语义段落的研究。这种分割的形式与对文章划分自然段类似,旨在从大量的文本中快速准确地获得所需要的信息。
文章的结构大致可分为语义和形式两种。一般的,较长的文本中会描述若干个主题,或是从不同角度描述同一个主题。虽然文章本身的自然段也在一定程度上划分了文章的结构,但是文章的内容、情感、作者的写作手法等因素会影响一个自然段的划分,而且自然段并不是总用来暗示作者情感的改变,话题的切换,而仅仅是为了另起一段,以辅助人们阅读。因此,自然段落不能成为一个完整主题的代表,即不能被切分成一个主题段落。之前对文本的研究只是在分析文本的中心思想、文本所属类别、情感等方面,如果可以对语义结构也进行一些研究,将语义段落作为一个基本的研究单元,对信息处理的能力将大大提高,本文所讨论的文本分割技术就能很好处理上述问题。文本分割深入剖析文本的内容,在此基础上分析文本的组成结构,广泛的应用在很多常见的自然语言处理领域中。如在信息检索中,文本分割能缩小检索的范围,有效提高检索的准确度。之前,信息检索对文本的处理,检索单位主要以篇章为主,查询结果都是整一篇的相关文档。而这样的结果往往不能让用户满意,用户所需的结果仅仅是文本的一部分,而不是整篇文本。若能将文本分割结合到信息检索中,检索的最小单位将不在是篇章,而是语义段落。这样用户在查询时能更快速准确的定位到其所需的位置,不仅提高了检索的效率,而且满足了用户的需求。
1.2 文本分割的研究现状
目前,在理论思想上,文本分割技术主要分为四类:基于词汇聚的思想、基于统计的思想、基于语言特征信息的思想以及将三者结合的思想,这些思想为很多分割算法奠定了坚实的基础。
1.2.1基于词汇聚的思想
基于词汇聚的思想源自 Halliday和Hasan的研究 ,他们提出了一种假设,出现在同一语义段落内的词汇之间必然存在着一定的相关性。他们将汇聚定义为词汇之间的一种文本网络关系,其中的网络节点由包含的信息及经典话语语法所构成。并且对词汇聚思想的表现形式作了定义,大致分为两种情况: 一种是词的重复或变相重复;另外一种是词间的语义联系。于是, 根据不同的汇聚计算的侧重点,可将分割方式归为三大类:基于词汇的重复性,基于词汇间的语义相似度,以及将两者综合考虑。目前,有很多的分割算法都是考虑了词汇的重复性, 这里所指的重复性包括同义词,具有上下文联系的词等这类变相的重复性。词汇重复性的使用方法也有所区别, 有些算法利用了词重复出现的次数, 有些则利用了词频繁出现的位置。比较早使用的方法是由 Hearst 提出的 TextTiling,该方法认为,在一个给定的主题段落中,一个词汇集合会固定出现在该段落,词汇随着主题的变化而变化,是一个基于词汇重复出现的线性分割算法。算法通过计算主题变化率最大的位置,判别主题的边界。Eisenstein等人提出的 Bayesian unsupervised topic segmentation 模型(BU)是一种将文本的相似性置于贝叶斯上下文的模型。这种方法考虑了多个主题模型,并结合了文本分割的方法,通过最大似然估计法分析词语汇聚,借此得出分割策略。Fragou等人提出,可以将动态规划的思想应用于文本分割中,即 Frag_DP 法。该方法分析语段内部词汇的相似情况,以及语段长度的先验概率,将其作为分割条件应用到动态规划中,使得分割段落内部的词汇相似度最大,段落的平均分割差异度最小。
第二章 语言模型技术分析
2.1 语言模型概述
2.1.1语言模型分类
语言模型按照形式不同大致可分为两种,文法型语言模型和统计型语言模型。文法型语言模型中,构成模型的文法是人为制定的,文法的规则源自学者对该领域的认知及语言学知识,但这类模型在面对大量的真实文本时,略显乏力,处理能力不足。为了能够处理大量的文本,诞生了统计型语言模型。这种语言模型没有人为制定的文法,仅利用概率分布和统计学原理来阐述字、词、经典话语的性质和三者之间的联系,它将数学和统计学的规则很好的应用在了自然语言处理中。任何一种自然语言,不管是中文还是英文,单词量都十分庞大,而且句型语法十分复杂,经典话语数量也十分多。就空间复杂度而言,要想计算出所有经典话语的概率理论上是不可能的。因此,统计语言模型的做法是将经典话语拆分成各个单词,计算出单词的条件概率,然后将其两两相乘,计算的值即可代表经典话语的概率。自然语言在模型建模中被当作是随机的过程,其所包含的词语,经典话语,段落都被当作是随机变量,拥有某种概率分布,模型建模的目的就是估计模型中随机变量的这种概率分布。计算机利用估计出来的概率分布,推算出每个经典话语出现的位置及分布情况,而不是像文法型语言模型那样,利用语法简易的判断这个经典话语。
2.1.2文法型语言模型
文法型语言模型对词语的检索通常是使用文档中出现的词作为检索的条件 query。因此,如果一篇文档与查询词相关,那么这篇文档的模型可以生成这个query,于是,检索模型从P(R=1|q,d)变成了P(q|Md),Md即为文章的模型。但是这种处理的方法很大程度上依赖于语言学家掌握的语言知识,无法对大量的真实文本进行建模。
2.1.3统计型语言模型
统计语言模型的产生是由于早期对自然语言的处理主要是基于人工制定的规则,这种处理方法不仅效率低下,而且十分片面,不足以覆盖所有语言现象。上个世纪 80 年代末,机器学习被引入到自然语言处理中,主要集中研究统计语言模型,这种方法训练了大量的语料来对模型的参数进行自我学习,鲁棒性比文法语言模型更好。
2.2 统计语言模型的应用
在文本处理的各个领域中,统计语言模型都扮演着十分重要的角色。上世纪70年代末,..Bae 和E elinef首次将隐马尔可夫模型(HMM)应用于语音识别领域。他们通过分析大量的语音数据,建立统计模型,利用该模型提取数据特征,最后通过比较特征匹配的得分获得实验结果。在此应用之后,统计语言模型快速发展,逐渐应用于自然语言处理的各个领域中,也涌现了许多新的语言模型。在词性标注中,Adwait和onathon等人用HMM 模型和最大熵模型对词汇进行词性标注,建立了统计学习词性标注的模型。在机器翻译中,他们利用 N-gram模型计算词汇出现的概率,并估计了机器翻译之后的条件概率,以此寻找最佳的译文。Och等人对IBM 模型进行了改进,将最大熵思想应用其中,提出了一种利用最大熵模型进行统计的方法。在信息检索领域,在 TREC6 和 TREC7 的信息检索任务中,Milier和Lee提出的语言模型的性能比常规的检索算法要好得多。在文本分割领域,David等人利用统计模型,结合经典话语的语法信息进行文本分割。该方法统计了字和词单独出现的概率,字与字同时出现的概率及词与词同时出现概率,将三者结合构造了汉语语用统计库。利用这些统计信息,建立了基于语言识别的统计模型,选取最大的后验概率值作为实验结果。
国内对统计语言模型同样有着很深入的研究,并已经应用到实际的分词系统中。山西大学的 ABWS 系统,使用联想-回溯;方法进行二次扫描,词库中包含了许多句法、词法规则。北京师范大学研制的书面汉语自动分词专家系统,该系统的知识库包含了启发性和常识性两种知识库,并首次将分词技术与统计语言模型方法极致的结合在一起,把分词过程表示成一种推理的过程。清华大学的 SEG 汉语自动分词系统,提出了全切分的概念,提供了评价全切分算法和带回溯的全向最大匹配法。之后推出了系统的升级版 SEGIAG,该系统采用了全切分搜索+叶子评价;和动态规划;两种搜索算法。复旦大学研制的分词系统,采用基于 Trigram模型索引机制,加强了对新词的识别及交集型歧义的消解。北京大学的自动分词系统,不仅提高了分词效率,而且增加了词性标注功能,运用HMM 模型排除歧义。该系统已经对《人民日报》进行了分词和词性标注语料库的开发,性能优良广受好评。哈尔滨工业大学研制的分词系统,根据语义信息能够识别大多数新词,并利用对分词方法的统计来解决分割歧义问题。中科院研究所张华平、刘群开发的 ICTCLAS系统,集分词与词性标注为一体,使用层叠的HMM 模型,提出了基于角色标注的新词识别策略和最短路径的歧义排除策略。融合了分词、歧义排除、词性标注、新词识别等等,将其结合到一个理论模型中,取得了十分好的分词效果。
第三章 基于改进的Bigram模型的特征提取方法.................17
3.1 文本特征提取过程................. 17
3.2 常用的文本特征提取方法............. 18
第四章 基于Dotplotting的文本边界搜索策略...................26
4.1 Dotplotting 概述 .................... 26
4.2 传统 Dotplotting 算法存在的问题 .................... 27
第五章 实验结果与分析......................32
5.1 评测语料介绍....................... 32
第五章 实验结果与分析
5.1 评测语料介绍
文本分割技术的一大难题就是如何构建评测语料。对于同一篇文章,不同的评价方法,不同的语料选择可能会导致不同的分割结果,无法形成一个统一的标准结果,具有较强的主观性干扰。Litman指出,不同的学者对语义段落有着不同的分割方式,有的学者认为应尽量细化语义段落,有的则觉得仅仅需要大块的切分语段即可。另外,应用的场景不同,对分割的精确程度要求也不同,学者们为了解决上述问题,提出了许多可行的方法,构建了不同的评测语料来降低人为评判的主观性。
5.1.1真实文本
真实文本就是研究者主观的制定一个评判标准,利用大量的真实文本构建评测预料,并利用人工标注的方式,人为给定标准的分割方式。但是,这种构建方法过于依赖主观性,人为干扰较大,无法统一所有研究者的意见。在某些文章中,已拥有一些子标题或是明确的段落标识,这样的标识信息也可以作为文本分割的一个评价方案。例如在技术性的文章中,层级结构较为清晰,子标题往往就代表了这一章节描述的内容。
5.1.2合成文本
Choi利用自动合成文本的技术来构建评测预料。该方法利用了第三方语料库,从库中随机选择了 10 份测试文档,提取文档中前 n 个经典话语,组合成一个语义段落,然后将各个语段首尾相接,形成一个新的测试文档。由于经典话语来源于不同的文档,其主题必然不同,因此新文档中的主题边界即可用其自然边界确定。这样构建的语料的优点就是可以消除人为构造边界的主观性。Choi 利用该方法在网上发布了一个评测数据库,库中共拥有700多篇英文语料。该语料库可根据n 值的不同分为4个子库,不同 n 值下各样本的数目如表(5.1)所示:
Choi 构建的评测数据库提供了一个较为客观的测试平台,避免了人为因素的影响,并被广泛地应用于各类分割算法的相互对比和评测。
第六章 总结与展望
6.1 工作总结
本论文在翻阅大量文献的基础上,对基于语言模型的文本分割进行了研究,主要完成的工作有以下几个部分:
(1)研究了语言模型。语言模型是一种概率统计模型,已被广泛应用于字符识别、机器翻译、信息检索等技术中,能很好的解决文本中词汇出现的概率问题。本文总结了前人提出的文本相似性度量方法,依次讨论了隐马尔科夫模型,最大熵模型及N-gram模型,通过分析发现Bigram模型,即N=2时的N-gram模型最适宜作为本文的文本特征提取模型。然后针对该模型的无法对三字及三字以上的词汇进行分割的缺点,提出了一种基于关联矩阵的改进 Bigram 方法。利用词汇之间的约束力来描述经典话语的相关性并进行特征提取,进而确定子主题的相似性。
(2)选取了合适的 Bigram模型平滑处理方法。由于语言中存在大部分低频词,存在严重的稀疏问题。所以必须对模型进行平滑处理,减少数据稀疏造成的影响。本文分析了当前较为流行的数据平滑技术的方法和特点,结合 Bigram 模型的特性,采用 atz 算法进行平滑处理,对词汇出现次数进行了折扣计算,消除了数据稀疏造成的实验误差,得到了预期的效果。
(3)研究了Dotplotting算法,该算法是一种确定文本主题边界的算法,本文在充分分析了该算法的特性之后,针对其密度函数不对称及未能充分考虑之前已经确定的边界的缺陷,对Dotplotting算法进行了改进,增加了后向的密度值,保证前后向扫描得出的结果相同。又考虑了过于短小的语义段落无法很好的描述一个子主题,增加了一个长度惩罚因子对段落进行约束,实验证明,上述的改进方法提高了 Dotplotting算法的分割效果。
参考文献(略)