面向交互翻译的动态词对齐技术研究及应用

国学论文计算机论文

面向交互翻译的动态词对齐技术研究及应用

喵客信条围观:℉更新时间:12-18 12:42

面向交互翻译的动态词对齐技术研究及应用

第 1章 绪论

1.1 研究背景及意义

在这样的背景下,双语语料库(Bilingual Corpus)的应用也越来越为广泛。在双语语料库(Bilingual Corpus)中,包含了两种不同语言间的互译信息,无论是基于统计(Statistic-Based)的机器翻译、还是基于实例(Example-Based)的机器翻译,都把互译的双语语料库作为翻译知识库的重要来源之一,它还被广泛应用在双语词典的编纂、词义消歧以及命名实体的自动抽取等自然语言处理领域。然而,未经任何处理的双语语料库(即生语料,Raw Corpus)不能直接应用在相关的自然语言处理领域,因此,需要对生语料进行技术上的处理。

依据互译片段的大小,双语语料库对齐分为多个层次:篇章对齐、经典话语对齐、短语对齐和词对齐等。词对齐是生语料处理技术之一,所谓词对齐,是指从源语言和目标语言中匹配词语级别的对应关系,其研究对于诸多自然语言处理领域的应用具有重要的意义。由于词语一级的对齐互译片段最小,含有更细粒度的双语互译信息,所以需要丰富的资源和多种方法的融合,处理过程相比其他层次的对齐也更加复杂。

词对齐是机器翻译系统中一个十分重要的处理环节,许多机器翻译方法(如:基于统计的机器翻译、基于实例的机器翻译等)都以词对齐为基础,词对齐的效果直接影响了机器翻译系统输出译文的质量。机器翻译系统分为基于规则(Rule-Based)的机器翻译系统和基于语料库(Corpus-Based)的机器翻译系统,其中基于语料库的机器翻译系统又可分为基于统计的方法和基于实例的方法。

1. 基于规则的机器翻译。早期的机器翻译系统几乎都是采用基于规则的方法,该翻译系统需要人工建立语言规则,用于描述源语言与目标语言之间的词法、句法等关系,其翻译过程可分为如下三个阶段:(1)对源语言文本进行分析,获取源语言内部的抽象表述;(2)将源语言内部的抽象表述转换为目标语言内部的抽象表述;(3)将目标语言内部的抽象表述转换为目标语言文本。其实该方法的主要环节为独立分析<->独立生成<->相关转换;,最具有代表的系统是 ARIANE 翻译系统,该翻译系统是由格勒诺布尔大学的信息与应用数学研究院的机器翻译组研发。基于规则的机器翻译可以很好地保证源文结构,生成的译文结构与源文结构密切相关。但是不足之处在于语言规则是由人工编写的,不仅工作量巨大,而且规则的主观性很强,语言规则的一致性无法得到保证,不利于翻译系统的扩充。

1.2 本文的主要工作

探索并实现高效的词对齐算法,在翻译的过程中通过双语词对齐信息,一方面帮助翻译人员提高翻译译文的质量和翻译效率,另一方面获得高质量的词对齐结果,为自然语言处理的许多任务提供基础性的、有价值的词对齐资源。

第一,对双语语料库对齐技术进行调研和总结,对当前流行的词对齐方法加以概述,重点阐述基于统计的词对齐方法和基于语言学的词对齐方法;

第二,基于统计翻译模型方法的技术理论比较完善,不足之处是双语语料库规模的限制,难以避免数据稀疏的问题,并且算法时间开销大,不适宜小规模双语语料库、时间性要求高的应用。因此,本文提出一种基于双向词典和动态组块切分的词对齐算法;

第三,由于英语和汉语分别属于印欧语系和汉藏语系,各自语言独有的特点导致词对齐存在多种复杂的对应关系,所以,在双向融合过程中本文采取最大匹配冲突消解原则、最近匹配原则和剪枝消歧策略加以处理;

第四,为了解决由于汉语分词不当产生的不完全对齐问题,降低汉语分词过程中增加的一对多、空对等现象,本文的解决办法是不对中文句子进行预先确定性分词处理,而是使用词典驱动的动态组块切分匹配的方法,避免使用分词工具或人工分词产生不当的词或词组而无法使用词典进行对齐的问题,提高了双语词典对文本的翻译覆盖率;

第五,结合实际翻译中语言表述的多样性和翻译的灵活性,词典不可能完全收录词语的所有解释。针对该问题,算法在进行双向融合处理之后,基于知网对未对齐的组块进行语义层面的相似度扩展对齐,提高了对齐的召回率;

第六,在翻译的过程中,利用本文提出的高效词对齐算法,通过实时的、动态的双语词对齐信息,进而对翻译译文进行检错、纠错。具体做法是根据译员输入译文长短的不同,实时的对当前的译文与源文进行词语级别的对齐,向译员反馈当前的对齐情况,以提示用户当前未翻译的源文和已对齐的内容。

第 2章 相关研究概述

2.1 双语语料库对齐技术的研究

1967 年美国布朗大学构建的 100 万词的现代英语语料库标志着现代语料库的诞生,语料库语言学逐渐得到国内外学者的青睐。语料库的出现为计算机处理自然语言提供了强有力的支持。然而,未经任何处理的双语语料库(即生语料,Raw Corpus)不能直接应用在相关的自然语言处理领域。因此,需要对生语料进行技术上的处理。

当前,围绕语料库的研究主要包括以下两个方面:一、对语料库的加工处理,主要是对齐技术的研究,即实现双语语料库之间各层次的对译关系;二、从已对齐的双语语料库中自动或人工抽取知识进而加以利用。

对齐技术的研究是加工双语语料库的核心。依据互译片段的大小,双语语料库对齐技术分为多个层次:篇章级别对齐、段落级别对齐、经典话语级别对齐、短语级别对齐和词语级别对齐等。下面几节主要介绍段落级别对齐(Paragraph Alignment)、经典话语级别对齐(Sentence Alignment)和词语级别对齐(Word Alignment)。

2.1.1 段落级别对齐

在双语语料库对齐中,段落对齐是指从源语言和目标语言中匹配段落级别的对应关系,段落对齐上承篇章对齐,下启经典话语对齐,在双语语料库对齐中起着承上启下的作用。

段落的自动对齐技术主要难点在于:(1)待对齐的双语语料库中不存在明显的段落边界标志,甚至根本不存在段落之分;(2)即使待对齐的双语语料库中有明显的段落边界,但是由于段落级别的颗粒度大,翻译人员在翻译的过程中,很大程度上会对译文段落进行段落重组;(3)另外,由于翻译人员的背景文化和语言习惯的不同,对译文的段落理解也不尽相同,因此也将出现多种复杂的翻译模式。

2.2 现有词对齐方法

2.2.1 基于统计的词对齐方法

基于统计的词对齐方法主要包括两种:基于统计机器翻译模型的词对齐方法和基于同现的启发式词对齐方法。

1. 基于统计机器翻译模型的词对齐方法

IBM 的 Brown P F 和 Della-Pietra S A等人提出利用统计的思想进行机器翻译,称为统计机器翻译(Statistical Machine Translation),基于信源信道模型的词对齐算法是最为經典的词对齐方法。Brown P F 引入信息论中的噪声通道原理,并提出利用噪声信道模型把源文S 到译文T 的翻译看做是T 经某个噪声信道畸变为S ,然后通过S 再恢复为T 的过程。Brown P F 实现了一个基于解码(Decoding)的统计翻译过程,根据贝叶斯公式:

由于式 2.1 的分母 SP)( 与T 无关,因此,求解式 2.1 的最大值等价于求等式右边分子的两项乘积的最大值,即:

式2.2中概率 TP)( 是目标语言的语言模型(Language Model),概率 TSP)|( 是翻译模型(Translation Model),表示在已知T 的情况下S 的翻译概率。语言模型 TP)( 和源语言无关,它只和目标语言关于,语言模型表示一个经典话语在目标语言中出现的可能性。翻译模型 TSP)|( 不仅与源语言相关还同目标语言相关,表示两个经典话语相互翻译的一种可能性。一个统计机器翻译系统的结构可以用图 2.3表示:

第 3章 基于双向词典和动态组块切分的词对齐算法研究 ........................ 18

3.1 词对齐的问题描述 ................... 18

3.2 双向融合词对齐算法研究 ......................... 19

第 4章 基于语义相似度计算的扩展对齐算法研究 .............. 30

4.1 知网(HowNet) .................... 30

第 5章 实验部分及算法应用 ................ 37

5.1 评价指标 ....................... 37

5.2 实验测试集 ................... 37

第 5章 实验部分及算法应用

5.1 评价指标

针对经典话语或段落级的实时性对齐需求,本文提出的基于双向词典和语义相似度计算的高效词对齐算法,实现了一种即时性词对齐方法,使用英汉、汉英两部词典进行词对齐,基本思想是双向融合的思想。另外,针对词典的完备性问题,本文基于知网对未对齐的组块进行语义层面的相似度扩展对齐,明显提高了对齐的召回率。为了全面地评价词对齐的效果,本文使用准确率、召回率和 scoreF- 三个指标对实验结果进行评价,定义公式如下所示:

结论

全文的主要工作和得到的主要结论总结如下:

双语语料库的出现为计算机处理自然语言提供了强有力的支持,然而,生语料不能直接应用在相关的自然语言处理领域,需要对生语料进行技术上的处理。双语语料库对齐包含多个层次,主要有篇章级别对齐、段落级别对齐、经典话语级别对齐、短语级别对齐和词语级别对齐等。

1.英语和汉语分属于印欧语系和汉藏语系,各自语言独有的特点导致词对齐存在多种复杂的对应关系。本文提出基于双向词典和动态组块切分的词对齐算法,采取最大匹配冲突消解原则、最近匹配原则和剪枝消歧策略来解决多种复杂的对应关系:

2.为了解决汉语分词不当产生的不完全对齐问题,降低汉语分词过程中增加的一对多、多对多等现象,算法不对中文句子进行预先确定性分词处理,而是使用词典驱动的动态组块切分匹配方法。对齐过程不需要利用分词工具或人为的对汉句子子进行分词,使用词典驱动的动态组块切分方法,通过把英汉经典话语划分为最小切分单位,并描述所有可能的词或词组,提高了双语词典对文本的翻译覆盖率;

3.虽然目前词典的规模比较庞大,并能很好的处理词对齐问题,但是由于英汉双语各自语言独有的特点,如何再提高词对齐的召回率,本文进行了进一步的探究;

4.针对经典话语或段落级的实时性对齐需求,本文提出基于双向词典和语义相似度计算的高效词对齐算法,实现了一种即时性词对齐方法。算法首先使用英汉、汉英两部词典进行词对齐,基本思想是双向融合的思想。在进行双向融合处理之后,基于知网对未对齐的组块进行语义层面的相似度扩展对齐,有效解决了词典的完备性问题,明显提高了词对齐的召回率。在基于知网的语义扩展对齐中,为了避免过对齐现象,在实验环节对相似度阈值λ进行合理的设置;

5.双语词典含有丰富高质量的源语言和目标语言之间的互译信息,是诸多自然语言处理任务的基础资源。目前,随着词典规模的不断扩充,充分利用现有的双语词典来解决词对齐问题已成为一种最直接可靠的选择。本文提出的方法在只有小规模语料和实时性对齐方面具有更好的适用性,也可为自然语言处理任务提供高质量的词对齐资源。

参考文献(略)

标题:面向交互翻译的动态词对齐技术研究及应用

链接:http://m.zhaichaow.cn/lunwen/jisuanji/429477.html