基于神经网络的藏文正字检错法
1.青海师范大学计算机学院;2.青海省藏文信息处理与机器翻译重点实验室
摘要: 在缺乏标注数据的条件下,该文将藏文正字检错任务视为一个分类问题:首先从语言学知识中构建音节混淆子集并给每个原句加噪,然后建立深层双向表征的BERT作为分类模型,最后为了证明该方法的有效性,构建两个基线模型和三种不同领域的测试集,实验结果表明,该方法的结果优于两个基线模型。该文方法在相同领域测试集上句子分类的正确率达到93.74%,不同领域测试集上也能达到83.6%。对错误音节的识别率为74.53%,同时对无错误音节的误判率只有2.30%。
关键词:
藏文正字检错;加噪算法;BERT模型;
藏文正字检错;加噪算法;BERT模型