基于深度学习和迁移学习的领域自适应中文分词-文章-世纪中文出版社

基于深度学习和迁移学习的领域自适应中文分词

成于思1 施云涛2

生成PDF 清样下载

复制成功

摘要:

为了提高专业领域中文分词性能，以及弥补专业领域大规模标注语料难以获取的不足，该文提出基于深度学习以及迁移学习的领域自适应分词方法。首先，构建包含词典特征的基于深度学习的双向长短期记忆条件随机场(BI-LSTM-CRF)分词模型，在通用领域分词语料上训练得到模型参数；接着，以建设工程法律领域文本作为小规模分词训练语料，对通用领域语料的BI-LSTM-CRF分词模型进行参数微调，同时在模型的词典特征中加入领域词典。实验结果表明，迁移学习减少领域分词模型的迭代次数，同时，与通用领域的BI-LSTM-CRF模型相比，该文提出的分词方法在工程法律领域的分词结果F1值提高了7.02%，与预测时加入领域词典的BI-LSTM-CRF模型相比，分词结果的F1值提高了4.22%。该文提出的分词模型可以减少分词的领域训练语料的标注，同时实现分词模型跨领域的迁移。

关键词: 深度学习；迁移学习；领域分词；工程法律；

DOI:

基金资助:

查看本期封面目录

中文研究

ISSN：3007-9896

所属期次： 2019.3

为你推荐

学术共建