1 翻译发展概述
翻译学曾经历语言学转向、文化转向、社会学转向、生态转向等不同转向。机器翻译技术发展至今大体经历了 3 个阶段: 基于规则的机器翻译、基于统计的机器翻译和神经网络机器翻译( Neural Machine Translation,NMT)。前两个阶段的机器翻译技术始终无法突破翻译质量瓶颈。
李奉栖(2022)采用错误记分法,从忠实度、流利度、术语翻译、风格、文化接受度 5 个维度对比研究英语专业翻译学习者与神经网络机器翻译系统的英汉翻译质量,结果发现机器翻译在 5 个维度上的错误总分和忠实度上的错误分值均显著低于学习者的平均值,但是在流利度上的错误分值则显著高于学习者的平均值。因此,本文基于神经网络智能模型,对机器翻译系统模型进行说明,并提出了一种联合EM算法的自动语料扩充方法,以此提高了翻译的准确性、流利度等方面的问题。
2机器翻译模型的选择与使用
机器翻译规则系统一般可分为两大类:二元翻译规则系统和三元翻译规则系统。机器翻译系统的基本模型是自然语言处理系统,基本原理是要素合成原理。在机器翻译过程中,模型首先扫描文本,再依次进行语法分析、语义分析、语境分析等排除不适当的歧义形成原文的机器内部表示,再在结构层次上进行转换,得到译文的结构,选择适当的译词后再进行次序调整、虚词删减、语气词补充,最终得到译文表层的句子。机器翻译系统除了可执行程序之外,还需要备有相关的语言知识数据库,语言知识数据库存储惊呆的词典、语法规则等,同时还需要一个单独的数据库动态存储上下文相关信息,三者协同操作,才能使系统正常运转。
在机器翻译模型中,语言规则和算法是相互独立的,算法成为系统的控制器和规则的解释器,同时也是整个系统的核心。但是,一个好的翻译系统,不能只依靠一个好的算法,同时还需要依靠完备高效的语言知识数据库的支持。对语言知识数据库存储的信息,在此使用了GT编码技术和自然语言建模方法进行存储,将表达式设计为带标记的树形结构,节点上的标记主要有三级:语法范畴、句法功能和逻辑语义,如此做不但可以使得句子加工更加灵活,当句子缺少某些成分信息时,语言知识数据库还能保证算法运行的连续性和健壮性。
语言知识数据库中存储的语法规则,是语法、文法等规则的静态集合。语法和文法本身不影响规则的执行,但是整个算法的分析过程需要各部分相互勾连牵制,不断组合以探测语义的各种结构,随着语言知识数据库规模的不断扩充,以及处理的数据量不断增大,极易引起组合爆炸的问题,从而产生歧义、内存溢出、程序开销增大等一系列问题。为避免组合爆炸的产生,我们在使用文法分析句子时尽量避免利用二分法和多级索引法加快翻译处理的速度,故引入神经网络技术协助处理。
引入神经网络(neuralnetwork)是为了利用其具有大规模并行分布式处理功能、连续时间非线性分析和全局集体作用,实现知识获取自动化,克服了“组合爆炸”等困难。由神经网络具有并行联想和自适应推理功能,在不使用大规模数据库的前提下,可以利用训练好的模型、语言知识数据库以及输入的需要翻译的句子,进行启发式推理,有效提高了机器翻译系统的智能水平、实时性和鲁棒性,并且还能依靠不断的翻译训练,自主获取新的知识。但是NN还存在一些固有的缺点:①NN尚不适用于解决规模较大的问题。②NN的性能很大程度上受样本训练集的影响③上下文相关知识的获取是目前机器翻译系统共同的限制。④NN在处理复杂问题时,易吸纳如局部最小值。为解决上述问题,特引入GT编码的预处理和翻译模块前置的解释模块,将问题规模细化,以避免问题规模过大引发上述问题。
神经网络在机器翻译系统中的主要应用包括:第一,神经网络贯穿于整个算法当中,一般采用多层神经元构成网络。机器翻译系统运行时,根据相关量判定输入层单元是否被激活,被激活的单元向下一级神经网络层发送信号,信号在网络中一层层向前传递,最后在输出层上输出结果。第二,神经网络要与传统的数据搜索方法相结合,具体有以下三种方式:(1)拼接方式,各自保持原有的结构,各自解决应处理的问题。(2)以传统的数据搜索为主,NN为辅。(3)以NN为主,传统的数据搜索为辅。
3EM算法在模型中的应用
在模型训练过程中,我们需要大量的双语平行语料,分别作为训练集、验证集和测试集。为了解决平行语料不足的问题,在模型设计之时,将EM算法融于模型之中,用于协助模型的训练。联合EM优化方法学习源语言到目标语言的翻译模型,在训练过程中,从这两个单向的弱翻译模型(初始性能较差的模型)开始,使用小规模的双语平行语料进行初始的预训练,并通过逐渐减少训练数据的翻译损失来迭代更新这两个模型。每个迭代过程中,一个模型用于将单语数据从一种语言翻译成另一种语言,形成另一个模型的训练数据,然后根据原始的双语数据和生成的单语训练数据重新构架九年数据集训练这两个新的模型,在新一轮的迭代中,可以产生更高质量的训练数据进行模型的训练。根据EM算法的特点,会随着算法的收敛得到性能最好的强模型并且生成高质量的新语料,从而达到语料扩充和模型改进的双重效果。
在低资源情况下,神经网络翻译模型性能弱于统计机器翻译模型,因为在数据稀疏时,神经网络翻译模型易于出现过拟合,但是神经网络翻译模型可以直接从数据中学习特征,故将EM算法与模型选用的Transformer模型相结合。首先初始化预训练两个相反方向的Transformer模型,即源语言到目标语言和目标语言到源语言单向任务上的模型。在预训练中,首先对双语平行语料,包括源语言和目标语言,进行预处理。双语词典用于完成源语言与目标语言的对其翻译,以达到训练模型的目的,使用处理过的Transformer模型的训练语料,用于初始化训练模型。
随着训练不断进行,语料会不断得到扩充。在语料扩充的过程中,对于真实语料和翻译过程中新生成的语料,赋予相应的权重,以便算法在下一轮迭代训练中更加关注新生成的语料。真实语料的权重赋值为1,模型生成语料的权重值为生成译文的翻译概率。在训练的过程中生成语料的权重值会得到提升,直至整个训练过程结束,生成语料的权重值越接近1,则表示语料生成的效果较好。
通过对Transformer模型和EM算法的调参,可以优化算法的迭代收敛过程,利于模型的训练。使用EM算法,单语语料搭配部分的双语平行语料也可提高机器翻译模型的性能,如此,可以降低双语平行数据的需求量,同时还可以保证获得显著效果,降低了模型的训练负担,并且与完全按采用单语数据的无监督机器翻译相比,训练代价更低,性能更优。EM算法在迭代趋于收敛后,生成语料的困惑度不会再有大规模下降,有效避免了模型陷入局部最优的可能。
结束语
人工智能极大推动了翻译服务的发展,在一定程度上可以不再依赖人工翻译,基于神经网络的智能翻译模型也能基于预先训练好的模型和存储的数据库,联系有限的上下文,翻译分析句子,并且在处理一些结构复杂的长难句上也游刃有余。但是机器翻译是语言学与计算机科学的交叉研究方向,如今的有些机器翻译系统已达到可以实用化的价值,但面对有时出现不可控的问题,还有待我们不断进行研究、优化。使用EM算法协助训练模型,与目前流行的强基线系统相比,使用EM算法协助训练的模型翻译性能更佳,但是EM算法仍然不可避免地使用到了双语平行语料,下一步将尝试将双语数据的需求降至最低,甚至只使用单语数据,并尝试进行嵌入式开发,扩大本翻译模型的应用领域和使用前景。
参考文献:
[1] Bassnett, S. & A. Lefevere. Translation, History, and Culture[M]. London: Pinter Publisher, 1990.
[2] Pym, A. The return to ethics in translation studies[J]. The Translator, 2001(2): 129-138.
[3] Snell-Hornby, M. The Turns of Translation Studies: New Paradigms or Shifting Viewpoints? [M]. Amsterdam/ Philadelphia: John Benjamins Publishing Company, 2006.
[4] 胡庚申. 生态翻译学解读[J]. 中国翻译, 2008(6): 11-15, 92
[5] 张成智,王华树. 论翻译学的技术转向[J]. 翻译界, 2016(2):104-118, 139.
[6] 尹金芳.从科技英语翻译实例看基于神经网络的机器翻译[J].南昌师范学院学报(综合),2019,40(6):58-61.
[7] 李奉栖.人工智能时代人机英汉翻译质量对比研究[J].外语界,2022(04):72-79.
[8] 孙晓,刘宽平.基于神经网络技术的机器翻译模型[J].株洲工学院学报,2004,18(1):118-120
[9] 杨云,王全.EM算法在神经机器翻译模型中的应用研究[J].计算机应用与软件,2020,37(8):250-255