【资料】跨语言、多语言信息检索
2021-08-14 08:28:22 Author: mp.weixin.qq.com(查看原文) 阅读量:38 收藏

摘要

本文介绍了跨语言信息检索(CLIR)、多语言信息检索(MLIR)、机器翻译方法和技巧。跨语言信息检索(CLIR)处理用一种语言查询和用另一种语言检索文档。多语言信息检索(MLIR)处理以一种或多种语言提问和以一种或多种不同语言检索文档。机器翻译是实现跨语言信息检索(CLIR)和多语言信息检索(MLIR)系统的重要组成部分。

跨语言信息检索(CLIR)允许用户查询不同语言的文档集。它允许用户以一种语言输入他们的查询,并以其他语言重新获得文档集。跨语言信息检索(CLIR)的主要优点是用户可以在不受语言障碍限制的情况下搜索信息。在跨语言信息检索中,查询语言与文档语言不同。跨语言信息检索(CLIR)系统是一种用户不仅仅局限于一种语言,还可以用一种语言进行查询,然后再用另一种语言进行文档返回的系统。与双语系统相同的跨语言信息检索(CLIR)简化了对多语言用户的搜索过程,并使那些只知道单一语言的人能够以他们的语言提供查询,然后利用机器翻译检索其他语言的文档。

一、跨语言信息检索(CLIR)系统中的术语

1.机器翻译

机器翻译是计算语言学中语言处理的一部分。机器翻译方法通过使用机器翻译系统翻译文档或查询。机器翻译(MT)指的是利用计算机自动完成人类语言之间的部分或全部翻译任务。谷歌在线翻译目前支持108种语言的机器翻译服务。然而,从最终用户的角度来看,这些搜索引擎本质上是一个单语搜索引擎的数据库。没有一家大型搜索引擎将MLIR技术作为一项服务。机器翻译的主要缺点是计算费用昂贵。

2.双语词典

可以使用双语词典将文本和单词从一种语言翻译成另一种语言。基于词典的方法使用双语词典。通过在双语词典中查找术语,用于查询和翻译。由于它的简单性和机器可读字典的广泛可用性,这是最受欢迎的方法。

3.平行语料库

与基于字典的翻译相比,基于语料库的翻译通常具有更好的性能。平行语料库的形成既复杂又昂贵。为某些语言找到并行语料库可能是非常复杂的,或者是足够大到可以使用的。无论是基于语料库还是基于词典的翻译,其主要问题是翻译的覆盖面和质量。糟糕的类语料库和字典会极大地降低系统的性能。双语机器可读字典比平行语料库更容易获得。

4. 类型分析器

分析给定文本的语言类型被称为类型分析器,它是一个软件组件。它感知输入词的语言类型。类型分析器通过结合统计POS标记器和Chunker来检查其对性能的影响,从而确认其作为NLP应用基础的可用性。

5.音译

如果查询词在双语字典中找不到,那么必须用音译。对于音译,基于规则的方法可以用于像Devanagari这样的语言,因为它是一个语音脚本。对于查询的音译/翻译结果,基于术语共现信息的迭代页面排名样式算法产生最可行的翻译。

6词义消歧

在词义消歧中,一个词的词义是根据它所保留的词语来推断的,也就是根据与它共存的词语来推断的。类似地,查询中的单词为选择正确的翻译/音译提供了重要的思路,尽管数量较少。例如,对于印地语查询“nadi jal”,这里nadi的翻译是{river},而jal的翻译是{water, to burn}。在这里,根据上下文,我们可以看到第二个词的翻译选择是water,因为它更有可能与river同时出现。

二、机器翻译方法

机器翻译(MT)方法分为基于规则的、基于语料库的、基于词典的、基于示例的

1.  基于规则的

通过使用基于规则的简单方法,可以翻译词典中未找到的单词的音译。基于规则的机器翻译(RuleBased Machine Translation, RBMT)与源语言和目标语言的句法、形态和语义信息密切相关。根据这些信息制定语言规则。另外,该语言对使用了数百万本双语词典。基于规则的机器翻译(RuleBased Machine Translation, RBMT)是处理各种语言现象,具有可扩展性和可维护性。然而,增加了系统语法异常的困难,因此,研究过程需要高投资。基于规则的机器翻译(RBMT)的主要任务是将源语言(语义和句法)结构转换为目标语言(语义和句法)结构。这一方法可以有若干办法,如图1所示。

图1.基于规则的机器翻译的不同方法

2. 基于语料库的方法

基于语料库的翻译方法,通过分析比较语料库或并行语料库来构建统计翻译模型。为了克服基于规则的机器翻译的知识获取问题,基于语料库的机器翻译又称数据驱动机器翻译,是机器翻译的一种替代方法。基于语料库的机器翻译使用双语并行语料库,获取输入语言的翻译。在CBMT中使用了大量的并行语料库形式的原始数据。这些原始数据包含文本及其翻译。这些语料库用于获取翻译知识。基于实例的机器翻译方法是一种基于语料库的机器翻译方法。

3. 基于词典的机器翻译

这种翻译方法基于语言词典的条目。为了发展经翻译的诗歌,使用了这个词的同等词。机器可读或电子词典是第一代机器翻译的基础。在某种程度上,这种方法仍然可以完全翻译短语,但不能完全翻译句子。最后,在或多或少利用双语词典和语法规则的基础上,提出了大多数翻译方法。

4.  基于示例的机器翻译

机器翻译是以并行语料库为主要知识的双语语料库,以类比翻译为主要思想实现了EBMT系统的点到点映射。它把源语言中的一组句子和目标语言中每一个句子对应的翻译产生。这些例子是用来把源语言中相似类型的句子翻译成目标语言的。在EBMT中,有四个任务:示例获取、示例库与管理、示例应用与合成。在基于实例的机器翻译的基础上提出了类比翻译的思想。类比翻译规则被编码为基于实例的机器翻译

结论

以上是多语种和跨语种信息检索中的机器翻译技术。跨语种和多语种信息检索(IR)为全世界不同语种检索文档提供了新的范式,不仅可以作为两种语言检索的基础,而且可以作为多种语言检索的基础。机器翻译是人工智能和信息检索系统的一个研究热点。机器翻译(MT)是一个难题,因为自然语言非常复杂。很难说,一种办法足以处理翻译过程,因为语言本质上是进化的。以上是各种跨语言信息检索(CLIR)和多语言信息检索(MLIR)系统实现的机器翻译方法。

原文PDF及机器翻译文档已上传小编知识星球

长按识别下面的二维码可加入星球下载

里面已有近千篇资料可供下载

越早加入越便宜哦


文章来源: http://mp.weixin.qq.com/s?__biz=MzI2MTE0NTE3Mw==&mid=2651123786&idx=1&sn=e6f8f27fd5a7b2020c5e93f49c6eb68e&chksm=f1ae8770c6d90e66ad1497dfcfd70ac5d14b11df15469da1774b9162b564f4896dc522f3e532#rd
如有侵权请联系:admin#unsafe.sh