基于Lattice-LSTM的多粒度中文分词
张文静1,2 张惠蒙1,2 杨麟儿1,2 荀恩东1,2
1.北京语言大学语言资源高精尖创新中心;2.北京语言大学信息科学学院
摘要: 中文分词是中文信息处理领域中的一项关键基础技术,而多粒度分词是中文分词领域较新的研究方向。针对多粒度中文分词任务,该文提出一种基于Lattice-LSTM的多粒度中文分词模型,在传统基于字的多粒度中文分词模型基础上,加入了多分词粒度的词典信息。与传统模型相比,所提出的模型在网格结构的辅助下,对不同粒度的分词标准都有较强的捕捉能力,且不局限于单一的分词标准。实验表明,该文提出的方法在多粒度中文分词方向取得了目前最好的结果。
关键词:
中文分词;多粒度;Lattice-LSTM;
中文分词;多粒度;Lattice-LSTM
DOI:
基金资助:
文章地址:https://ccnpub.com/wenzhangd-2-92639