模仿排序学习模型
1.中国科学院计算技术研究所网络数据科学与技术重点实验室;2.中国科学院大学;3.中国人民大学高瓴人工智能学院大数据管理与分析方法研究北京市重点实验室
摘要: 文档排序一直是信息检索(IR)领域的关键任务之一。受益于马尔科夫决策过程强大的建模能力,以及强化学习方法强大的求解能力,近年来基于强化学习的排序模型被提出并取得了良好效果。然而,由于候选文档中会包含大量的不相关文档,导致基于"试错"的强化学习方法存在效率低下的问题。为解决上述问题,该文提出了一种基于模仿学习的排序学习算法IR-DAGGER,其基于文档标注信息构建专家策略,在保证文档排序精度的同时提高了算法的学习效率。为了测试IR-DAGGER的性能,该文基于面向相关性排序任务的OHSUMED数据集和面向多样化排序的TREC数据集进行了实验,实验结果表明IR-DAGGER在上述两个数据集上均提升了文档排序的精度和效率。
关键词:
排序;模仿学习;强化学习;
排序;模仿学习;强化学习