基于联合学习的跨领域法律文书中文分词方法

PDF下载

基于联合学习的跨领域法律文书中文分词方法

江明奇严倩李寿山

苏州大学计算机科学与技术学院

摘要: 中文分词任务是自然语言处理的一项基本任务。但基于统计的中文分词方法需要大规模的训练样本，且拥有较差的领域适应性。然而，法律文书涉及众多领域，对大量的语料进行标注需要耗费大量的人力、物力。针对该问题，该文提出了一种基于联合学习的跨领域中文分词方法，该方法通过联合学习将大量的源领域样本辅助目标领域的分词，从而提升分词性能。实验结果表明，在目标领域标注样本较少的条件下，该文方法的中文分词性能明显优于传统方法。

关键词: 中文分词；法律文书；联合学习；

DOI:

基金资助:

文章地址: