机器翻译(Machine Translation),又叫自动翻译,是指利用计算机将一种自然语言转换为另一种自然语言的过程。
作为比人工智能这个词诞生的还早的自然语言处理任务(1954),机器翻译经历了漫长的发展过程,大致可以分为三个阶段。
第一个阶段是基于规则的翻译方法(RMT)。与人类类似,这种方法会先分析句子中单词的词性,将每个词翻译成目标语言,再根据语法规则等进行调整,输出结果。
可想而知,这种翻译方法效果并不好,因为语言表达的方法非常灵活,有限的语法和规则无法覆盖所有的语言现象。
第二个阶段是基于统计的翻译方法(SMT)。即根据词或短语找到所有可能的结果,再在庞大的语料库中进行搜索,统计每种结果出现的概率,将概率最高的结果进行输出。
这种方法较规则方法效果有很大提升,不过对语料库的依赖较大。
第三个阶段是基于神经网络的翻译方法(NMT),通过学习大量成对的语料(平行语料库)让神经网络自己学习语言的特征,找到输入和输出的关系,端到端的输出翻译结果,取得了不错的效果。
不过这些方法并不是非此即彼的。比如在成对语料较少的语言之间,用统计方法效果比较好;或者干脆没多少语料,就要靠中间语言进行转换;有些约定俗成的成语短语,用基于实例的翻译方法能更好的解决。
现在的机器翻译系统,基本上会将几种方法的优点进行融合,不过距离翻译的标准——信、达、雅,还有很远距离。