不知道你有没有意识到,当下跨语言的交流已经成为我们日常生活的一部分。走在路上,一些英语、日语的文字随处可见。随手掏出手机,查找翻译一下,这已经成为一种下意识的动作。这种动作大而化之即机器翻译已经成为了现代社会中一种不可或缺的工具。
在过去几十年的发展中,机器翻译已经从最初的规则机器翻译、统计机器翻译,发展到了如今神经网络机器翻译。诸如 Google、微软、百度、腾讯等各大厂商都推出了各自的翻译工具。然而,尽管在这几十年的发展中机器翻译表现出了相当的能力与潜力,但其翻译的质量与准确性一直是人们关注的焦点。此前我派作者 HarveyJanson 就曾在文章《 多种类型文本的中英互译考验:2020 年的机器翻译能用了吗?》(下文中简称《 2020 年的机翻》)中探讨过这一问题。不过,在当时的语境之下,ChatGPT 等并未出现。
ChatGPT 即 Chat Generative Pre-trained Transformer 的缩写,翻译过来就是聊天生成预训练转换器。
2022 年 11 月 OpenAI 推出了 ChatGPT;2023 年 3 月,OpenAI发布了功能更为强大的 ChatGPT 4。ChatGPT 推出后大受欢迎,赢得无数用户的芳心。根据相关的报道,仅在其推出的次月初,其用户就已经超过了 100 万。
作为人工智能领域的重要研究方向,随着 ChatGPT 为代表的自然语言处理技术的发展,机器翻译领域最近也迎来了新的发展机遇。在 ChatGPT 模型引起了广泛关注的今天,想要绕开它是一件并不太现实的事情。而很凑巧的是,在写这篇文章的时候,我也拿到了百度文心一言的使用邀请。所以,不妨我们就一起来看一下在大型语言模型的加持之下的机器翻译工具会有怎样的表现。
不管是人工翻译还是机器翻译,他们都是将一种语言的文字翻译成另一种语言的文字,所以他们也都有一个绕不开的问题——那就是翻译的质量到底「好不好」?针对这一个「好」字,清末翻译家严复提出过一个著名的标准「信」「达」「雅」。「信」,译文准确,忠实原文;「达」,译文通顺明白;「雅」,译文选词得体,简明优雅。这看似简单的三个字被严复称为「译事三难」。
除了「人」「机」共性的「译事三难」之外,机器翻译还有一些自身需要面对的难题。这些难题有不少在《2020年的机翻》都提到过。
文化差异:文化差异可能是最重要的因素。不同的文化背景会对语言额表达方式产生一定的影响,在使用机器翻译的时候,翻译工具可能并不会妥当地处理相关的文化差异。方言俚语、典故等也是翻译时涉及文化差异中的一个比较典型的难点,在翻译时需要进行相应的转化。比如在《2020年的机翻》中曾提到过的「院坝」「半腿把」等。
专业领域与术语:在不同领域,语言的使用和表达方式会有所差异。常规来讲,机器翻译可能无法准确处理专业术语和领域知识,在处理这些领域的翻译任务时可能会出现错误或不准确。针对这个问题,厂商将翻译工具进行了进一步地细分,推出了特定领域的翻译工具。比如《2020年的机翻》中提到的百度翻译,它就提供了适用领域的选项,用户可以选择通用领域、生物医药、电子科技、水力机械等特定领域。
语言自身上的一些问题:源语言与目标语在语言习惯、语法结构、语序等方面有细微的差别,容易导致翻译之后出现不自然乃至错误的情况。这里有一个经常见到的梗「武汉市长江大桥」,一共七个字,可以读出两种意思。
全文的理解与掌控:联系到上文中的梗,人工翻译的时候可以联系上下文进行感知,从而更好地理解文章想要表达的意思;而在机翻时,往往缺乏对上下文的理解,闹出一些笑话。此类的情况在《2020年的机翻》中也有提到,比如「人长布缩」。不过针对于上下文的感知问题,ChatGPT 却认为这其实是它相比传统机翻工具的优势所在,它「可以根据用户输入的上下文信息进行上下文感知,从而提供更加精准的翻译结果」。
在《2020年的机翻》中,作者围绕着表达型、信息型、感召型三大类文本对六种机翻工具 DeepL、 百度、微软、Google、有道、腾讯进行了一番对比。有关此前对比的具体情况,读者可以通过链接回看一下,这里不做过多地展开。
常言道没有对比就没有伤害,但是本文的初衷不就是为了「伤害」?所以为了更好的进行对比,本文参照《2020年的机翻》的方式继续进行翻译效果的对比。为了能够更有效地进行对比,在文本的选择上,本文依旧采用了《2020年的机翻》中所提供的表达型、信息型、感召型三大类文本。具体的文本内容读者也可以访问《2020年的机翻》中提供的网址进行下载。
这里就三大类文本的具体内容简要介绍如下:汉译英部分所采用的表达型文本为路遥《平凡的世界》中的选段,感召型文本为几家国产手机厂商官网的部分介绍文字,信息型文本为《二〇一六年中国知识产权保护状况》中的选段;英译汉部分所采用的表达型文本为 Jack London 的 The Call of the Wild,感召型文本为几家外国手机厂商官网的部分宣传文字,信息型文本为 The Lancet 上 van der Pluijm et al. (2020) 的摘要部分。
在翻译工具的选择上,本文除了采用了 ChatGPT 、ChatGPT 4 和文心一言之外,还使用了《2020年的机翻》中提到的 DeepL 进行对比参照。当然读者也可以自行采用 Google、有道、腾讯等《2020年的机翻》中提到的其他翻译工具进行对比。
相对于传统的机翻工具而言,无论是ChatGPT 还是文心一言,在使用的过程中,用户可以根据自己的喜好多次生成回答,同时用户也可以根据场景来进行引导,比如提示 ChatGPT 这一段文字为小说、医药领域等。
这里需要指出的是,本文中译文部分提到 ChatGPT 时,默认使用的是 ChatGPT-3.5。另外在本文实际的处理中,如无特殊说明文中使用的均是第一条回答,同时也未进行引导。
接下来,我们来一起感受一下,在同样的文本之下,不同的翻译工具之间到底能拉开多少差距……
我们先来看表达型文本。表达型文本是机器翻译中的「老大难」问题,尤其是涉及中文自身的灵活与一词多义时。
关于「菜」「饭」的对比是一件很有意思的事情。在《2020年的机翻》中,有的机翻工具将「菜盆」中「菜」硬翻为「菜」;有的则将「饭」搞成「米饭」。在这里「菜盆」与「饭」几乎可以完美代表了上文中提到的机翻中存在的问题。我们能看到,虽然在「菜盆」之「菜」的处理上要好了不少,但是「饭」的问题却依然有所偏向于「米饭」。毕竟某种意义上来讲,「饭」可以算是一个方言词汇,它因地域而有不同的理解;在一些地方说到吃饭就意味着是吃米饭。
在 ChatGPT 不同模型之间进行对比的时候,显然 ChatGPT 4 的处理就要好很多了。无论是否引导,ChatGPT 4 均未在「饭」「菜」上出问题,且引导前后的译文差别不大。
从某种意义上来讲,上文中提到的「饭」其实也可以把它归类于方言。巧了,接下来我们就来看一下那些更纯粹的方言,那些容易造成麻烦的方言土语。
关于「院坝」的问题,此前在《2020年的机翻》的时候,当时除了有道成功之外,其余的全军覆没。在这里我们能够看到 DeepL 依然执着于「dam」,而这并没有难倒文心一言和 ChatGPT。
进一步对比 ChatGPT 的各个版本,不管是「大院坝」与 the large courtyard,还是就整句话而言,进行引导后的 ChatGPT 4 是不是翻译得有点传神?
在上文中,我提到过机翻当中对全文理解与把控,从而更好感知文章,进行「推定」。这也就是此前在《2020年的机翻》中提到的一个很严重的问题——时态问题。因为一般的文学作品会默认推定为过去时,机器没有「推定」的能力,因而就会在这个问题上犯错。不过,现在在这个问题上,显然不管是文心一言还是 ChatGPT 看起来都有了不少的进步,即便是 DeepL 看起来也比之前有所进步。
我们再继续往下看。对机器翻译而言,汉语中多音字问题处理起来也算是一个难点之一。此前,机翻在这个问题,「人长(zhǎng)布缩」的问题上,全军覆没。这里我们再来看一下相关的表现。关注点依然是「人长(zhǎng)布缩」与方言「半腿把」。在这里,整体而言,ChatGPT 的翻译显然要胜出一筹,而引导后的 ChatGPT 4 的译文表现的更佳,整个句子呈现出精炼地感觉了。
上文的表达型文本对机器而言已经很难了,即便是对于从事翻译的人来讲,也要琢磨一会儿。接下来,在表达型文本的基础之上,再给机器翻译难上加难,看看它们在感召型文本上的表现。这里我此前提到的那些「高大上」的手机厂商宣传语为例,看看在豪华的叙事之下机翻之后的「独特魅力」。
作为一种常态,宣传语中会经常出现大量的无主句,就像上文中的这份手机宣传语。而在常规的机器翻译中,就像上文举例的 DeepL,「机器也不会擅自添加一个主语」。但是在这里,我们能够看到 ChatGPT 竟然「擅自添加」了一些哟。而到了 ChatGPT 4 这里,它甚至把中文「远」「近」的韵味用「from afar」「up close」给传达出来了。坦白地说,在翻译这样的句子时,我是要坐在那里想半天的,而 ChatGPT 4 几乎就是立等可取。
在手机宣传语中,我们经常会见到各种超豪华的文字。这些超豪华的文字看着每个字都认识,但是想搞清楚讲的是什么还是有些难度的。把这些豪华的文字丢给机翻,结果会怎样呢?
不管是各类的宣传语,还是我们的日常阅读,在遇到一些难以理解或者是一些「听君一席话胜听一席话」的文字时,不妨看看他们相应的英文翻译。很多时候,整个人会豁然开朗。
看过了前面提到的两种类型的文本,接下来我们来看第三种,也就是信息型文本。相比较而言,信息型文本对于机翻更为友好。即便是在《2020年的机翻》当中,机翻也处理得不错。此前的文章当中针对这一部分提到过「有些元素可以抽出合并」等,在下文给出的译文中,其实 ChatGPT 做得还真的不错。
马德里体系 也是《2020年的机翻》中提到的一个全体翻车的地方。毕竟这也是一个涉及专业的细分领域。就目前来看,随着技术的发展,一切都在进步,即便是文中作为对比用的 DeepL。随着相关语料库的进一步丰富,这更值得期待一下。
对于大部分以汉语为母语的人来讲,日常当中英译汉的概率比汉译英的概率要大不少。而且作为汉语母语者,相比于汉译英而言,也更能够看出英译汉中的问题。
与《2020年的机翻》一致,我们先从表达型文本看起。
在《2020年的机翻》的时候,这一部分的翻译结果就让人摸不着头脑。如今在这里,也同样是极具挑战性。整体上看引导后的 ChatGPT 4 竟然做得要好一些。
这里也是此前提到的啼笑皆非之处,不管是文心一言还是 ChatGPT 在此处的表现也还是让人啼笑皆非。不过当时提到有道做到了,有道使用了「挡雨」。在《2020年的机翻》的时候,将这种啼笑皆非的原因推断为「机器想像不到」;考虑到模型方面的因素,也许在大量喂中文的语料之后或许表现会好一些。ChatGPT 4 在此处的表现就可圈可点了,不管是「手肘放膝盖」还是「手臂挡雨」都翻译出来了,画面感也有了。
这一部分就显得有点意思了。DeepL 和 ChatGPT 做得都还是可以,甚至 ChatGPT 还略微有点文采的味道了。但是文心一言在这里翻车了,有点意外。同样,有点意外的是 ChatGPT 4 的翻译在后半段翻车了,似乎机器不能正确推理到是棍子「悬在空中」。
接下来,我们再看一下手机宣传语的翻译。上文中,我们见到了豪华的中文宣传语,相比华丽丽的中文手机宣传语,英文的显得有点「干」。相应地,在将英文翻译成中文之后,往往就会得到一个「更干巴」的中文译文。
在这一段介绍中,不管是 DeepL,还是文心一言和ChatGPT,它们所提供的译文都没有太多的修饰语,句子的结构也比较简单,也就是前面提到的「干吧」。当然,就具体的翻译结果而言,除了抒情不足,其他地方还是可以接受的。而 ChatGPT 4 的译文,经过引导之后,它的译文中不仅使用了敬语「您」,而且无论是情感还是内容还相对更准确了一些。
接下来,我们再看一下专业性更强、术语满天飞的领域。我们通过《2020年的机翻》中提到的这段医药类的信息型文本来看一下。
Google:恶性疟原虫中的青蒿素和伙伴药物耐药性是控制和消除疟疾的主要威胁。
考虑到在这段文字的实际情况,文心一言、 ChatGPT 「沟通」的过程中,我都进行了引导。当我提示这是一段医药类的翻译之后,它们给出的译文和之前的又有所不同,即便是 ChatGPT 4 给出的也是有所区别。
在《2020年的机翻》中,Google 等把译文的逻辑理顺了,这里我把《2020年的机翻》中 Google 的翻译搬运过来了。整体而言,在这段医药类文字的处理上,虽然 ChatGPT 4 的句子本身处理的比较通顺,但 Google 还是要更胜一筹。
在使用 ChatGPT 和文心一言翻译之余,我问了它们一个问题:那就是相比传统的翻译工具,它们自身的优势在哪里?ChatGPT 主张自身的优势主要体现在「更加自然流畅、更高的翻译准确率、更强的多语言处理能力和更强的上下文理解能力」,而文心一言则认为自己的优势主要体现在「高效性、多语言支持、智能化、多样化的翻译场景和个性化服务等方面具有明显的优势」。通过本文当中汉译英与英译汉的对比,我相信大家多少会有一点印象。
回到本文的初衷,纯粹的机器翻译工具。到底能不能用?
简单地来讲,这取决于使用工具的人和使用翻译工具的场景(处理的文本内容)。翻译工具必须服务于翻译本身;依靠它,使用者可以通过付出最少的努力,用最简单的方式完成翻译的工具才是一个好工具。在使用者具有一定的英语基础的前提之下,使用 ChatGPT 或者其他 AI 工具可以事半功倍。毕竟机器翻译的效率是人工不能比拟的。而对于文中所提到的那些感召型文本、特定领域的文本(如文中提到的医药领域),这些场景在使用的时候就要慎重。
机器翻译作为一种自然语言处理技术,它的出现和发展得益于人工智能和计算机技术的迅速发展,它的翻译质量与其背后的翻译理论、技术和数据密切相关。通过文中的对比,我们也能看到即便是传统的机器翻译工具 DeepL 它也在不断地进步。然而,就目前来看,即便是在最先进的技术下,机器翻译仍然无法替代人工翻译。人工翻译(人类智慧)与人工智能相结合或许是未来机器翻译的发展方向。
> 下载 少数派 2.0 客户端 、关注 少数派公众号 ,解锁全新阅读体验 📰
> 实用、好用的 正版软件 ,少数派为你呈现 🚀
© 本文著作权归作者所有,并授权少数派独家使用,未经少数派许可,不得转载使用。