基于古汉语语料的新词发现方法

基于古汉语语料的新词发现方法

刘昱彤吴斌谢韬王柏

生成PDF 清样下载

复制成功

摘要:

新词发现,作为自然语言处理的基本任务,是用计算方法研究中国古代文学必不可少的一步。该文提出一种基于古汉语料的新词识别方法,称为AP-LSTM-CRF算法。该算法分为三个步骤。第一步,基于Apache Spark分布式并行计算框架实现的并行化的Apriori改进算法,能够高效地从大规模原始语料中产生候选词集。第二步,用结合循环神经网络和条件随机场的切分概率模型对测试集文档的句子进行切分,产生切分概率的序列。第三步,用结合切分概率的过滤规则从候选词集里过滤掉噪声词,从而筛选出真正的新词。实验结果表明,该新词发现方法能够有效地从大规模古汉语语料中发现新词,在宋词和宋史数据集上分别进行实验,F1值分别达到了89.68%和81.13%,与现有方法相比,F1值分别提高了8.66%和2.21%。

关键词: Apriori的改进算法；长短时记忆网络；条件随机场；过滤规则；并行化；

DOI:

基金资助:

查看本期封面目录

当代中文学刊

ISSN：3008-0282

所属期次： 2019.3

为你推荐

学术共建