利用领域外数据对口语风格短文本的相近语种识别研究
DOI,PDF 下载: 41  浏览: 510 
作者何峻青1,2黄娴3赵学敏1张克亮3
摘要:
该文以维吾尔语和哈萨克语这一组相近语言为例,在哈语语料受限的情况下,使用领域外语料增补原始语料,经同化后提高了在口语风格短文本上进行语种识别的精确度。该文分析了维、哈两种语言的词形学特点,设计了多种特征,构建了一个最大熵分类器,在测试集上识别维语和哈语口语风格短文本的精确度达到95.7%,而CNN分类器的精确度仅为69.1%。实验结果证明该系统对其他语种口语风格短文本的语种识别亦具有适用性。

版权所有 © 2025 世纪中文出版社  京ICP备2024086036号-2