基于数据增强的藏文改写检测研究

基于数据增强的藏文改写检测研究

赵小兵1 鲍薇2 董建2 包乌格德勒3

1.中央民族大学信息工程学院；2.中国电子技术标准化研究院；3.呼和浩特民族学院计算机系

生成PDF 清样下载

复制成功

摘要:

该文针对藏文语料稀缺的问题，在藏汉双语、藏文单语文本改写检测任务中使用数据增强的方法，在一定程度上解决了低资源语言训练语料规模小的问题。在藏汉跨语言文本改写检测任务中，该文使用数据增强方法，有效利用目前公开的藏汉平行语料，扩充藏汉跨语言文本改写检测训练语料，当扩充至20万句对时，藏汉改写检测模型的皮尔森系数(pearson correlation)达到0.547 6，比基线系统的皮尔森系数提升了0.397 1，表明藏汉改写检测模型检测出的句对相似度值与人工标注的相似度值已达到中等程度相关。在藏文单语言任务中，该文采用训练藏文音节向量的方法，以缓解语料稀缺带来的词向量稀疏问题。实验结果表明，基于藏文音节向量的藏文改写检测模型的皮尔森系数可达到0.678 0，比相应的基于藏文词向量实验的结果提升了0.1，使得藏文单语言文本改写检测模型的检测结果与人工标注的结果达到了强相关程度。

关键词: 改写检测；数据增强；孪生网络；低资源语言；

DOI:

基金资助:

查看本期封面目录

中文研究

ISSN：3007-9896

所属期次： 2019.10

为你推荐

学术共建