基于CNN-CorrNet网络的汉缅平行句对抽取方法

基于CNN-CorrNet网络的汉缅平行句对抽取方法

毛存礼1，2 吴霞1，2 朱俊国1，2 余正涛1，2 李云龙1，2 王振晗1，2

生成PDF 清样下载

复制成功

摘要:

构建双语平行语料库是提升低资源语言机器翻译质量的一种有效方法。该文提出了基于CNN-CorrNet网络的汉缅平行句对抽取方法。具体而言，该文首先利用BERT得到汉语、缅语词向量表征，并将汉语、缅语两种语言句子用卷积神经网络进行句子表征，以捕捉句子重要特征信息；然后为了保证两种语言跨语言表征的最大相关性，利用已有的汉缅平行句对作为约束条件，使用CorrNet（相关神经网络）将汉缅的句子表征投影到公共语义空间；最后计算公共语义空间中汉语、缅语句子距离，并根据距离判断汉—缅双语句子是否为平行句子。实验结果表明，相比最大熵模型、孪生网络模型，该文提出的方法F1值分别提升了13.3%、5.1%。

关键词: 汉缅双语；平行句对；卷积神经网络；相关神经网络；公共语义空间；

DOI:

基金资助:

查看本期封面目录

中文研究

ISSN：3007-9896

所属期次： 2020.6

为你推荐

学术共建