摘要:
基本篇章单元(elementary discourse units,EDU)识别是构建篇章结构的基础,对篇章分析意义重大。从篇章衔接性视角来看,篇章话题结构理论认为,每个EDU都由要表达信息的起始点(主位)和传达的新信息(述位)两部分构成。因此,EDU识别与主述位识别任务的关系密切。基于此,该文给出了一个基于多任务学习的汉语基本篇章单元和主述位联合识别方法。该方法利用双向长短时记忆网络和图卷积网络对基本单元进行序列化和结构化拓扑信息的表征,再利用多任务学习框架让两个任务共享参数,借助不同任务间的相关性来提升模型的性能。实验结果表明,基于多任务学习的EDU和主述位识别性能均优于单任务学习模型中各自的性能,其中基本篇章单元识别的F1值达到91.90%,主述位识别的F1值达到85.65%。