基于BiDAF多文档重排序的阅读理解模型
杨志明1,2,3 时迎成3 王泳2 潘昊杰3 毛金涛3
1.中国科学院软件研究所;2.中国科学院大学;3.深思考人工智能机器人科技(北京)有限公司
摘要: 随着互联网的兴起和发展,数据规模急速增长,如何利用机器阅读理解技术对海量的非结构化数据进行解析,从而帮助用户快速、准确地查找到满意答案,是目前自然语言理解领域中的一个热门课题。该文通过对机器阅读理解中的深度神经网络模型进行研究,构建了RBiDAF模型。首先,通过对DuReader数据集进行数据探索,并对数据进行预处理,从中提取出有利于模型训练的特征。其次在BiDAF模型的基础上提出了基于多文档重排序的RBiDAF机器阅读理解模型,该模型在BiDAF模型四层网络框架的基础上添加了ParaRanking层。其中在ParaRanking层,该文提出了多特征融合的ParaRanking算法,此外在答案预测层,提出了基于先验知识的多答案交叉验证算法,进而对答案进行综合预测。在"2018机器阅读理解技术竞赛"的最终评测中,该模型表现出了不错的效果。
关键词:
机器阅读理解;多文档投票;ParaRanking;
机器阅读理解;多文档投票;ParaRanking