PDF下载
基于解码多候选结果的半监督数据挑选的语音识别

王兮楼 郭武 解传栋

中国科学技术大学语音及语言信息处理国家工程实验室

摘要: 基于资源稀少情况下的语音识别,提出针对大量无标注数据的半监督学习的挑选策略,应用到声学模型和语言模型建模.采用少量数据训练种子模型后,解码无标注数据.首先在解码的最佳候选结果中采用置信度与困惑度结合的方法挑选高可信的语句训练声学模型及语言模型.进一步对解码得到的格进行转化,得到多候选文本,用于语言模型训练.在日语识别任务上,相比基于置信度挑选数据的方法,文中方法在识别率上具有较大提升.
关键词: 置信度;半监督学习;多候选;低资源
DOI:
基金资助:
文章地址: