PDF下载
基于JCWA-DLSTM的法律文书命名实体识别方法

王得贤1 王素格1,2 裴文生3 李德玉1,2

1.山西大学计算机与信息技术学院;2.山西大学计算智能与中文信息处理教育部重点实验室;3.北京市律典通科技有限公司

摘要: 对于法律文书中证据名、证实内容和卷宗号等实体的正确提取,可以有效提升法官的办案效率。然而,这些实体与一般实体不同,具有字符长度较长和相互关联性较强的特点。因此,该文提出了一种基于JCWA-DLSTM(join character word and attention-dual long short-term memory)的法律文书命名实体识别方法。该方法利用字级语言模型获取词语的表示,同时,利用自注意力机制获得句子的内部表示。在此基础上,采用双向LSTM将句子内部表示和基于字级语言模型词语表示分别与词向量拼接编码,再将两种语义表示拼接融合,获得最终的句子语义表示。最后利用CRF将句子的语义表示解码,得到最优标记序列。实验结果表明,该文提出的方法可对法律文书中的证据名、证实内容和卷宗号等实体边界进行有效的确定,提升了命名实体识别的结果。
关键词: 法律文书;命名实体识别;双向LSTM;自注意力
DOI:
基金资助:
文章地址: