基于解码多候选结果的半监督数据挑选的语音识别
DOI,PDF 下载: 79  浏览: 438 
作者王兮楼郭武解传栋
关键词置信度半监督学习多候选低资源
摘要:
基于资源稀少情况下的语音识别,提出针对大量无标注数据的半监督学习的挑选策略,应用到声学模型和语言模型建模.采用少量数据训练种子模型后,解码无标注数据.首先在解码的最佳候选结果中采用置信度与困惑度结合的方法挑选高可信的语句训练声学模型及语言模型.进一步对解码得到的格进行转化,得到多候选文本,用于语言模型训练.在日语识别任务上,相比基于置信度挑选数据的方法,文中方法在识别率上具有较大提升.

版权所有 © 2025 世纪中文出版社  京ICP备2024086036号-2