基于多阶段数据生成的自循环文本智能识别
马新强1 刘丽娜2 李雪维4 顾晔4 黄羿3 刘勇2
1.贵州大学计算机科学与技术学院;2.浙江大学智能系统与控制研究所;3.重庆文理学院大数据智能计算与可视化研究所;4.国网浙江省电力有限公司物资分公司
摘要: 在复杂多样场景下,极少存在同时对英文和中文都具有较优识别效果的大数据标注方法.因此文中提出针对复杂多样文本识别场景的数据生成和多阶段自循环训练算法.按照定义的生成数据参数随机生成文本数据,免去数据标注过程.在卷积循环神经网络的基础上,进行多阶段自循环训练,在循环过程中通过控制数据生成策略不断提升样本的识别精度.实验表明,文中算法在多个公开英文数据集及中文特定的复杂文本场景下都具有良好的识别性能.
关键词:
大数据标注;数据生成;文本识别;卷积循环神经网络(CRNN);
大数据标注;数据生成;文本识别;卷积循环神经网络(CRNN)