基于多策略融合的英汉术语自动翻译技术研究
第 1 章 引言
随着科学技术的快速发展,语言也在发生的变化,尤其在当今互联网时代下,每个学科领域新术语不断涌现。特定学科领域中的术语是表述该专业领域信息的核心词汇,它的改变在一定范围内映射出了某个学科领域的改变。因此,术语自动翻译技术的研究对科学技术传播与交流,以及快速了解和探索一个专业范畴的国内外研究现状、发展趋势等具有十分重要的应用价值。
1.1 课题的提出
术语被当作定义科学理论的约定性语言符号,涵盖了大量特定学科领域的技术信息,是不同文化间知识交流的主要载体,术语翻译逐渐成为人类科学研究领域重要的一部分。专利文献是对特定科学研究领域中的文化知识、科学技术以及专业理论等进行阐述的文章资料。作为记录科学研究信息的介质,专利文献拥有用词准确、陈述客观和内容详细的特点。专利文献中经常包含大量术语,越是水准高的科学文章里,使用的术语次数也越频繁。所以专利文献逐渐成为快速获得国内外最新专业科学知识的首要来源。
如今处于信息化社会,在互联网快速发展和全球信息一体化的背景下,可以接触到很多有用的专利文献,但语言障碍的存在,造成了国家和地区之间科技文化知识沟通的困难,术语作为科技文化知识的承载者,是专利文献翻译的重要数据单元。伴随着国际间交流和合作的日益频繁,越来越多的专利文献需要被翻译,翻译人员的增长速度远远低于需求的增长,通常,使用人工的方法翻译文章逐渐不能够满足当前迅速增长的对专利文献翻译的需要。而且,现在科技领域各个学科之间相互渗入和穿插,一个领域里的专利文献或许会包含另外一部分相关联领域的专业科学信息,在专利文献中频繁出现的术语也遭到了这些学科之间相互渗入和穿插现象的影响,这就为专业翻译人员增加了更多的任务,不只是需要翻译人员拥有全面的业务水准,还需要拥有优秀的学科知识,这样就为专利文献里术语翻译形成了相当大的难题,在一定程度上为科技知识的沟通和发展创造了阻力。因此,人们迫切需要实用的机器翻译技术来打破语言之间的屏障,为不同文化之间信息交流提供方便、有效、快捷、自然的服务。术语自动翻译技术正是解决这个问题的有效途径,它不但可以减少翻译人员的任务量,并且能够迅速、准确地翻译大量专利文献中的专业术语。
1.2 本文的研究意义
在对专利文献进行机器翻译时,因为专利文献是对科学知识的概述,其中会包括很多含有抽象定义的科学术语,导致翻译水平严重下降,术语翻译作为机器翻译中重要的内容,目前已经从专利文献的翻译中独立出来,它能够降低翻译里的歧义率和错误率,提升机器翻译的译文水平。文献[1]曾指出专利翻译中存在两种因素影响其译文的正确性和翻译效率:长经典话语和术语;。可见专利文献中术语的翻译对其译文质量具有重要影响。例如下面有一部分专利内容,在这段内容里面斜体部分是术语:
本专利提供一种铸型涂料,它由液体溶剂、粉状耐火骨料以及一种还原剂等成分组成。涂料中的还原剂可以在铸型与金属液之间创造还原性气氛,从而防止铸件上气孔的形成,该涂料的还原剂最好用亮碳剂。
对术语自动翻译技术的研究不仅可以运用到机器翻译领域,同时对计算词典编撰学、跨语言信息检索以及名词短语翻译也具有十分重要的应用价值。
(1)计算词典编撰学(putational lexicography):术语词典编撰是词典编撰的一种类型,双语术语词典是专业词典中最重要的一部分,手工编撰双语术语词典损耗很多的时间和精力。术语自动翻译技术确保了词典的涵盖层面,减少了词典编撰工作人员的任务量,成为术语词典构建过程中必不可少的一门技术。
(2)跨语言信息检索(Cross-Language Information Retrieval,简称CLIR):主要是用户使用自身熟练的语言来建立和上交搜索提问式,模型自动搜索适宜用户需求的含有多个语种的关联信息。在跨语言信息检索中,引入术语自动翻译方法,可以减少一词多义、歧义等情况的发生,去除冗余信息,提高搜索精度。
第 2 章 相关研究
术语翻译作为专利文献翻译的一部分,由于术语具有很强的专业性和领域性,所以造成它的翻译区别于普通词语,本文分析的术语重点为名词性术语,归到名词短语领域。
2.1 相关概念介绍
本文所涉及的概念有:专利文献、名词短语以及术语。在专利文章里出现较多的术语往往是名词性的术语,其它类的术语,例如形容词性术语,动词性术语等很少出现在专利文章里。其中名词词性术语属于名词短语的领域,从而介绍名词短语的定义。本文主要对专利文献中的术语进行英译汉的翻译,所以在给知名词短语和术语相关定义之前先引出专利文献的概念。
(1)专利文献
专利文献[4]是包含已经申请并被确认为发现、发明、实用新型和工业品外观设计的研究、设计、开发和试验成果的关于资料,以及保护发明人、专利所有人及工业品外观设计和实用新型注册证书持有人权利的关于资料的已出版或未出版的文件(或其摘要)的总称。它是记载和传递各类科技成果及其信息的重要载体。
(2)名词短语
名词短语在人类对经典话语进行理解的过程中起到了十分重要的作用。从人类认知学的角度出发,人类理解一个经典话语含义,最先需要找出经典话语中所包含的实体或概念,然后才可以快速地领会经典话语的含义,然而自然语言句子里的实体或概念多数是被名词短语所概述。所以,只要理解经典话语里的名词短语,就能够在一定程度上理解经典话语表述的含义。名词短语在当代汉语语法描述里即指名词性的结构,不仅包含以名词为中心、句法表述类似于名词的短语,还包含不以名词为中心、句法表述类似于名词的结构,例如汉语里的地;字短语,还能够包含以单个名词或者名词性代词组成的单元。名词短语作为自然语言经典话语里的重要组成单元,对它的自动翻译技术研究在自然语言处理方面具有很高应用价值。
2.2 术语自动翻译方法
当今互联网技术的迅猛发展已经把人类推入了信息社会,使得国际间交流合作日趋紧密,国外大量科技文献涌入我国,术语作为科技文献中核心知识的载体,术语翻译质量的好坏成为影响人们学习国外最新专业知识的重要因素。因此,这促使我国术语自动翻译技术不断发展,陆续出现了英汉,日汉,俄汉,德汉等术语翻译系统。同时,经过这些年的研究,术语学已经成为一门独立的综合学科,大学里也已经开设了术语学相关课程以便让更多的人了解术语、学习术语知识。鉴于术语学的发展也激起了研究人员的高度重视,从对术语中浅层语法结构的分析到更深层次语义表述的分析,都体现着术语学在当今各个学科领域中举足轻重的地位。
目前对术语的翻译采用的方法主要有基于统计的方法、基于实例的方法和基于网络的方法等,具体介绍如下。
基于统计的术语翻译方法主要是利用噪声信道模型以及对数线性模型作为基础模型,对术语进行翻译的方法。下面对这两种模型进行详细介绍。
第3章 基于多特征的术语译文质量估计技术 ................. 13
3.1 术语的特点 .................. 13
3.1.1 术语的语言学特点 ..................... 13
第4章 基于实例库的术语译文优化技术 ........... 25
4.1 相似术语实例获取 ...................... 25
第5章 系统设计与实验 ................. 34
5.1 系统设计与实现 ................................ 34
第 5 章 系统设计与实验
5.1 系统设计与实现
为了验证本文中提出的相关理论和方法并对专利文献中的术语进行英到汉的翻译,作者开发出了基于多策略融合的英汉术语自动翻译系统;。系统的总体设计流程图如下图5.1所示:
由系统设计图5.1可知,系统实现主要由三部分组成,下面分别介绍:
第一部分是译文获取。本系统的输入是英文术语,采用百度、谷歌提供的在线翻译服务以及开源统计机器翻译系统摩西(Moses)对英文术语进行英到汉的翻译,获取相应译文。系统中百度和谷歌的翻译主要采取调用 API 接口数据和网页抽取两种方式从它们在线翻译系统中获取翻译结果。
结论
用机器翻译的方法对专利文献进行翻译时,由于专利文献中含有大量的术语,使得其翻译效果直接受术语翻译效果的影响,专利文献的译文质量很大程度上决定于术语翻译的好坏,因此术语翻译成了专利文献翻译的一大难点。
为了解决上述问题,本文实现了基于多策略融合的术语自动翻译系统,主要对专利文献中术语进行英语到汉语方向的翻译。通过实验结果的对比,证明了本文系统对专利文献中术语翻译的有效性。
全文的主要工作及得到的主要结论总结如下:
1. 本文通过对术语自身特点的分析,在机器译文质量估计方法中引入了能充分刻画术语译文流利度、紧密度和忠实度的三类特征,即术语构词特征、互信息特征和术语实例库特征,将其与基础特征进行组合,利用SVM 回归模型对多个翻译系统的术语译文质量进行估计,选出译文质量最优的术语译文。
2. 通过设定阈值来判断得到的最佳术语译文是否要进行优化处理,如果最佳术语译文得分低于阈值,采用基于实例库的术语译文优化方法对术语译文进行修改。通过编辑距离算法在术语实例库中找到与最优术语译文源语言匹配的术语翻译实例,根据翻译实例的目标语言和最优术语译文搭建出一个翻译网格,结合翻译模型和语言模型特征,采用Viterbi 解码算法对最优译文进行优化,生成一个新的术语译文。
3. 通过以上两步骤设计本文实现了基于多策略融合的英汉术语自动翻译系统,实验结果表明该系统与本文中选用的多个翻译系统中的翻译性能最好的那个系统相比翻译效果有一定改善,系统的 HTER 评测值降低了 13.72%,由此证明了本文术语自动翻译方法的有效性。
4. 在基于多特征的术语译文质量估计方法中,为了验证与术语自身特点关于的特征对译文质量评价结果和人工评价结果一致性的影响,本文对系统中的特征进行实验。从实验结果来看,术语构词特征对系统一致性的提高影响最大,其他的特征对系统性能也有一定影响。
参考文献(略)