请选择 目标期刊

用于社交媒体的中文命名实体识别 下载:60 浏览:227

李源 马磊 邵党国 袁梅宇 张名芳 《中文研究》 2020年11期

摘要:
社交领域的中文命名实体识别(NER)是自然语言处理(NLP)中一项重要的基础任务。目前基于词粒度信息或者外部知识的中文命名实体识别方法,都会受到中文分词(CWS)和溢出词(OOV)等问题的影响。因此,该文提出了一种基于字符的使用位置编码和多种注意力的对抗学习模型。联合使用位置编码和多头注意力能够更好地捕获字序间的依赖关系,而使用空间注意力的判别器则能改善对外部知识的提取效果。该文模型分别在Weibo2015数据集和Weibo2017数据集上进行了实验,实验结果中的F1值分别为56.79%和60.62%。与多个基线模型相比,该文提出的模型性能更优。

融合空洞卷积神经网络与层次注意力机制的中文命名实体识别 下载:24 浏览:477

陈茹1,2 卢先领2,3 《中文研究》 2020年11期

摘要:
该文针对现有的命名实体识别(named entity recognition,NER)模型未考虑到文本层次化结构对实体识别的重要作用,以及循环神经网络受其递归性的限制导致计算效率低下等问题,构建了IDC-HSAN模型(Iterated Dilated Convolutions Neural Networks and Hierarchical Self-attention Network)。该模型通过迭代的空洞卷积神经网络(ID-CNN)充分利用GPU的并行性大大降低了使用长短时记忆网络的时间代价。然后,采用层次化注意力机制捕获重要的局部特征和全局上下文中的重要语义信息。此外,为了丰富嵌入信息,加入了偏旁部首信息。最后,在不同领域数据集上的实验结果表明,IDC-HSAN模型能够从文本中获取有用的实体信息,和传统的深度网络模型、结合注意力机制的命名实体识别模型相比识别效果有所提升。

部首感知的中文医疗命名实体识别 下载:69 浏览:433

李丹1,2 徐童1,2 郑毅3王喆锋3 陈恩红1,2 《中文研究》 2020年9期

摘要:
人工智能技术的发展推动了医疗领域的智能化,为提升医疗效率、改善医疗水平提供了新的助力。同时,这一新的趋势也催生了海量的电子病历文本,其所蕴含的丰富信息具有巨大的潜在挖掘与应用价值。然而,当前中文电子病历的命名实体识别研究工作并没有全面考虑中文及中文医疗领域的特殊性,而是将面向通用数据集的模型迁移到医疗领域的实体类型中,分析效果较为有限。针对这一问题,该文设计了长短期记忆网络与条件随机场的联合模型并引入BERT模型;在此基础之上,考虑到医疗领域命名实体鲜明的部首特征,通过将部首信息编码到字向量中,并且结合部首信息修改条件随机场层得分函数的计算方式,有效地提升了医疗领域命名实体的抽取能力。通过两项电子病历数据集的实验结果表明,该文提出的模型整体效果略高于通用的实体识别模型,并对疾病诊断等特定类型的实体词的识别效果具有较为明显的提升。

结合字形特征与迭代学习的金融领域命名实体识别 下载:23 浏览:184

刘宇瀚 刘常健 徐睿峰 骆旺达 陈奕 吉忠晟 应能涛 《中文研究》 2020年6期

摘要:
针对中文金融文本领域的命名实体识别,该文从汉字自身特点出发,设计了结合字形特征、迭代学习以及双向长短时记忆网络和条件随机场的神经网络模型。该模型是一种完全端到端且不涉及任何特征工程的模型,其将汉字的五笔表示进行编码以进行信息增强,同时利用迭代学习的策略不断对模型整体预测结果进行改进。由于现有的命名实体识别研究在金融领域缺乏高质量的有标注的语料库资源,所以该文构建了一个大规模的金融领域命名实体语料库HITSZ-Finance,共计31 210个文本句,包含4类实体。该文在语料库HITSZ-Finance上进行了一系列实验,实验结果均表明模型的有效性。

基于JCWA-DLSTM的法律文书命名实体识别方法 下载:54 浏览:424

王得贤1 王素格1,2 裴文生3 李德玉1,2 《中文研究》 2020年4期

摘要:
对于法律文书中证据名、证实内容和卷宗号等实体的正确提取,可以有效提升法官的办案效率。然而,这些实体与一般实体不同,具有字符长度较长和相互关联性较强的特点。因此,该文提出了一种基于JCWA-DLSTM(join character word and attention-dual long short-term memory)的法律文书命名实体识别方法。该方法利用字级语言模型获取词语的表示,同时,利用自注意力机制获得句子的内部表示。在此基础上,采用双向LSTM将句子内部表示和基于字级语言模型词语表示分别与词向量拼接编码,再将两种语义表示拼接融合,获得最终的句子语义表示。最后利用CRF将句子的语义表示解码,得到最优标记序列。实验结果表明,该文提出的方法可对法律文书中的证据名、证实内容和卷宗号等实体边界进行有效的确定,提升了命名实体识别的结果。

基于细粒度词表示的命名实体识别研究 下载:26 浏览:333

林广和1 张绍武1,2 林鸿飞1 《中文研究》 2018年12期

摘要:
命名实体识别(NER)是自然语言处理中的一项基础任务,其性能的优劣极大地影响着关系抽取、语义角色标注等后续任务。传统的统计模型特征设计难度大、领域适应性差,一些神经网络模型则忽略了词本身所具有的形态学信息。针对上述问题,该文构建了一种基于细粒度词表示的端到端模型(Finger-BiLSTM-CRF)来进行命名实体识别任务。该文首先提出一种基于注意力机制的字符级词表示模型Finger来融合形态学信息和单词的字符信息,然后将Finger与BiLSTM-CRF模型联合进行实体识别,最终该方法以端到端、无任何特征工程的方式在CoNLL 2003数据集上取得了F1为91.09%的结果。实验表明,该文设计的Finger模型显著提升NER系统的召回率,从而使得模型的识别能力显著提升。

中文嵌套命名实体识别语料库的构建 下载:66 浏览:359

李雁群1,2 何云琪1,2 钱龙华1,2 周国栋1,2 《中文研究》 2018年3期

摘要:
嵌套命名实体含有丰富的实体和实体间语义关系,有助于提高信息抽取的效率。由于缺少统一的标准中文嵌套命名实体语料库,目前中文嵌套命名实体的研究工作难于比较。该文在已有命名实体语料的基础上采用半自动化方法构建了两个中文嵌套命名实体语料库。首先利用已有中文命名实体语料库中的标注信息自动地构造出尽可能多的嵌套命名实体,然后再进行手工调整以满足对中文嵌套实体的标注要求,从而构建高质量的中文嵌套命名实体识别语料库。语料内和跨语料嵌套实体识别的初步实验表明,中文嵌套命名实体识别仍是一个比较困难的问题,需要进一步研究。

家谱文本中实体关系提取方法研究 下载:33 浏览:309

任明1 许光2 王文祥2 《当代中文学刊》 2020年10期

摘要:
实现家谱资源的高效的组织和利用,需要从非结构化的家谱文本中提取实体及关系,进行结构化的表示。实体和关系的提取通常被作为序列标注任务来解决,输入的句子被映射到标签序列。针对家谱文本中实体和关系高度密集、关系重叠很常见的特点,该文构建了相应的概念模型来指导整个提取过程。在序列标注部分,该文在真实数据上检验了常用的深度学习模型的表现。实验结果显示,BERT-BiLSTM-CRF模型的精确率、召回率和F1值均优于所对比的其他模型,该文所提出的方法能够有效地解决家谱文本中的实体关系提取问题。

基于深度神经网络的维吾尔文命名实体识别研究 下载:42 浏览:226

王路路1,2 艾山·吾买尔1,2 吐尔根·依布拉音1,2 买合木提·买买提1,2 卡哈尔江·阿比的热西提1,2 《当代中文学刊》 2019年8期

摘要:
现有的维吾尔文命名实体识别主要采用基于条件随机场的统计学习方法,但依赖于人工提取的特征工程和领域知识。针对该问题,该文提出了一种基于深度神经网络的学习方法,并引入不同的特征向量表示。首先利用大规模未标注语料训练的词向量模型获取每个单词具有语义信息的词向量;其次,利用Bi-LSTM提取单词的字符级向量;然后,利用直接串联法或注意力机制处理词向量和字符级向量,进一步获取联合向量表示;最后,用BiLSTM-CRF深度神经网络模型进行命名实体标注。实验结果表明,以基于注意力机制的联合向量表示作为输入的Bi-LSTM-CRF方法在维吾尔文命名实体识别上F值达到90.13%。

基于细粒度词表示的命名实体识别研究 下载:43 浏览:247

林广和1 张绍武1,2 林鸿飞1 《当代中文学刊》 2018年12期

摘要:
命名实体识别(NER)是自然语言处理中的一项基础任务,其性能的优劣极大地影响着关系抽取、语义角色标注等后续任务。传统的统计模型特征设计难度大、领域适应性差,一些神经网络模型则忽略了词本身所具有的形态学信息。针对上述问题,该文构建了一种基于细粒度词表示的端到端模型(Finger-BiLSTM-CRF)来进行命名实体识别任务。该文首先提出一种基于注意力机制的字符级词表示模型Finger来融合形态学信息和单词的字符信息,然后将Finger与BiLSTM-CRF模型联合进行实体识别,最终该方法以端到端、无任何特征工程的方式在CoNLL 2003数据集上取得了F1为91.09%的结果。实验表明,该文设计的Finger模型显著提升NER系统的召回率,从而使得模型的识别能力显著提升。

基于强化学习协同训练的命名实体识别方法 下载:51 浏览:392

程钟慧1 陈珂1,2 陈刚1,2 徐世泽3 傅丁莉3 《软件工程研究》 2020年3期

摘要:
命名实体识别是一项从非结构化大数据集中抽取有意义的实体的技术。命名实体识别技术有着非常广泛的应用,例如从轨道交通列车产生的海量运行控制日志中抽取日期、列车、站台等实体信息进行进阶数据分析。近年来,基于学习的方法成为主流,然而这些算法严重依赖人工标注,训练集较小时会出现过拟合现象,无法达到预期的泛化效果。针对以上问题,本文提出了一种基于强化学习的协同训练框架,在少量标注数据的情况下,无须人工参与,利用大量无标注数据自动提升模型性能。在两种不同领域的语料上进行实验,模型F1值均提升10%,证明了本文方法的有效性和通用性。同时,与传统的协同训练方法进行对比,本文方法F1值高于其他方法5%,实验结果表明本文方法更加智能。

基于BERT+BiLSTM+CRF深度学习模型和多元组合数据增广的渔业标准命名实体识别 下载:37 浏览:357

杨鹤1 于红1,2 刘巨升1 杨惠宁1 孙哲涛1 程名1 任媛1 张思佳1,2 《中国水产学报》 2021年5期

摘要:
为解决渔业标准命名实体识别任务中部分实体语料分布稀疏导致的效果不佳问题,提出了基于多元组合数据增广(data augmentation method based on multiple combination, MCA)的渔业标准命名实体识别方法,该方法融合了基于领域词典的联合替换算法(joint replacement algorithm based on domain dictionary, DDR)、基于槽点保护的随机删除算法(random deletion algorithm based on slot protection, SPD)和基于槽点保护的随机插入算法(random insertion algorithm based on slot protection, SPI)进行语料库的数据增广,首先构建"水产品名称"同类词词典和领域同义词词典,通过两个词典分别对"水产品名称"类实体和随机词进行同类词替换和同义词替换,生成新的句子,以增加目标实体数量和句子的多样性,然后在基于槽点保护的情况下对原句子分别进行随机删除和随机插入操作,在保留实体及上下文特征的情况下进一步丰富语料的多样性,提高模型的泛化能力。结果表明,采用基于融合注意力机制的BERT+BiLSTM+CRF网络模型和多元组合数据增广方法进行渔业标准命名实体识别,准确率、召回率、F1值分别达到了91.73%、88.64%、90.16%,具有较好的效果。研究表明,基于多元组合数据增广的渔业标准命名实体识别方法有效解决了部分实体样本稀疏问题,提升了渔业标准命名实体识别的整体效果。

基于注意力机制和深度学习模型的外来海洋生物命名实体识别 下载:68 浏览:358

贺琳 张雨巴 韩飞 《中国水产学报》 2021年3期

摘要:
为解决因外来海洋生物领域实体复杂且实体间存在嵌套导致命名实体识别效果较差等问题,提出基于融合注意力机制的卷积神经网络(CNN)-双向门控循环单元网络(BiGRU)-条件随机场(CRF)网络模型进行外来海洋生物命名实体识别,并构造词向量、词性特征向量等特征作为网络模型的联合输入,以提升网络模型识别效果。结果表明:使用融合多特征向量的CNN-BiGRU-CRF网络模型对外来海洋生物名称实体、时间实体、地名实体3类实体上的命名实体识别结果平均准确率达到了90.62%,平均召回率达到了89.50%,平均F1值达到了90.05%,较传统命名实体识别方法均有较大提高。研究表明,本研究中提出的网络模型可以充分提取文本特征,解决了文本的长距离依赖问题,对外来海洋生物领域的命名实体识别具有较好的识别效果。
[1/1]
在线客服::点击联系客服
联系电话::400-188-5008
客服邮箱::service@ccnpub.com
投诉举报::feedback@ccnpub.com
人工客服

工作时间(9:00-18:00)
官方公众号

科技成果·全球共享