利用领域外数据对口语风格短文本的相近语种识别研究
1.中国科学院声学研究所语言声学与内容理解实验室;2.中国科学院大学;3.信息工程大学洛阳校区
摘要: 该文以维吾尔语和哈萨克语这一组相近语言为例,在哈语语料受限的情况下,使用领域外语料增补原始语料,经同化后提高了在口语风格短文本上进行语种识别的精确度。该文分析了维、哈两种语言的词形学特点,设计了多种特征,构建了一个最大熵分类器,在测试集上识别维语和哈语口语风格短文本的精确度达到95.7%,而CNN分类器的精确度仅为69.1%。实验结果证明该系统对其他语种口语风格短文本的语种识别亦具有适用性。
关键词:
相近语种识别;领域外数据;口语风格短文本;字符的形态学特征;
相近语种识别;领域外数据;口语风格短文本;字符的形态学特征