请选择 目标期刊

面向问句复述识别的多卷积自交互匹配方法研究 下载:36 浏览:235

陈鑫 李伟康 洪宇 周夏冰 张民 《中文研究》 2019年4期

摘要:
问句复述识别旨在识别两个自然问句是否语义一致。目前,基于表示学习和深度神经网络架构的复述识别技术已取得较好效果。但是,这类方法往往面临复杂度较高且训练难度较大的瓶颈。针对这一问题,该文提出一种快速的多卷积自交互匹配方法。该方法融合了多种句子特征和词义特征,并由此形成分布式表示。在此基础上,这一方法利用卷积神经网络获取短语级的句子向量表示,并利用自交互融合技术将词级与短语级的向量表示进行充分融合,借以获得多粒度句子向量表示。该文将这一方法应用于判定自然语句是否互为复述的二元分类任务中,利用Quora标准问句复述识别语料进行测试。实验结果证明,在不引入外部数据的情况下,该文所提方法与基于双向多视角匹配的基准模型具有可比的性能,但在空间复杂度上具有较高的优越性,并且获得更快训练速度。具体地,该方法训练所需的物理显存比基准模型方法下降80%,训练迭代速度快19倍。

基于联合学习的问答情感分类方法 下载:42 浏览:320

安明慧1 沈忱林1 李寿山1 李逸薇2 《中文研究》 2019年4期

摘要:
面向问答型评论的情感分类在情感分析领域是一项新颖且极具挑战性的研究任务。由于问答型评论情感分类标注数据非常匮乏,基于监督学习的情感分类方法的性能有一定限制。为了解决上述困境,该文提出了一种基于联合学习的问答情感分类方法。该方法通过大量自然标注普通评论辅助问答情感分类任务,将问答情感分类作为主任务,将普通评论情感分类作为辅助任务。具体而言,首先通过主任务模型单独学习问答型评论的情感信息;其次,使用问答型评论和普通评论共同训练辅助任务模型,以获取问答型评论的辅助情感信息;最后通过联合学习同时学习和更新主任务模型及辅助任务模型的参数。实验结果表明,基于联合学习的问答情感分类方法能较好融合问答型评论和普通评论的情感信息,大幅提升问答情感分类任务的性能。

基于弱标注数据的汉语分词领域移植 下载:46 浏览:221

朱运 李正华 黄德朋 张民 《中文研究》 2019年4期

摘要:
近年来,基于神经网络的分词模型在封闭领域文本上取得了很高的性能。然而,在领域移植场景下,即测试数据与训练数据的领域差异较大时,分词的性能会显著下降。该文尝试利用自动获取的弱标注数据来提升领域移植场景下的分词性能。首先,对目前性能最好的BiLSTM-CRF分词模型进行扩展,引入适用于弱标注数据的损失函数;进而提出一种简单有效的数据筛选方法,从海量弱标注数据中筛选和目前领域更相关的数据;最后,该文发现数据预处理和在神经网络中引入传统特征均可以有效提高分词性能。在SIGHAN Bakeoff 2010和ZhuXian标注测试集上的实验结果表明,该文所提方法可有效提升汉语分词领域移植性能,平均F值提高了3.6%。

基于联合学习的跨领域法律文书中文分词方法 下载:32 浏览:332

江明奇 严倩 李寿山 《中文研究》 2019年3期

摘要:
中文分词任务是自然语言处理的一项基本任务。但基于统计的中文分词方法需要大规模的训练样本,且拥有较差的领域适应性。然而,法律文书涉及众多领域,对大量的语料进行标注需要耗费大量的人力、物力。针对该问题,该文提出了一种基于联合学习的跨领域中文分词方法,该方法通过联合学习将大量的源领域样本辅助目标领域的分词,从而提升分词性能。实验结果表明,在目标领域标注样本较少的条件下,该文方法的中文分词性能明显优于传统方法。

一种面向生文本的事件同指消解神经网络方法 下载:42 浏览:503

方杰 李培峰 朱巧明 《中文研究》 2019年3期

摘要:
事件同指消解在自然语言理解中是一项复杂的任务,它需要在理解文本信息的基础上,发现其中的同指事件。事件同指消解在信息抽取、问答系统、阅读理解等自然语言任务中均有重要作用。该文提出了一个事件同指消解框架,包括事件抽取(ENSNN)、真实性识别(ENSNN)和事件同指消解(AGCNN)三个部分。事件同指消解模型(AGCNN)利用注意力池化机制来捕获事件的全局特征,利用门控卷积抽取复杂语义特征,提高了事件同指消解的性能。在KBP 2015和KBP 2016数据集上的实验结果表明,该文提出的方法优于目前最优的系统。

面向机器学习的流式文档逻辑结构标注方法研究 下载:78 浏览:492

刘倩 李宁 田英爱 《中文研究》 2019年2期

摘要:
针对采用机器学习方法识别流式文档结构时语料库稀少、语料标注复杂的问题,该文在研究文档的逻辑结构和编辑语义特征的基础上,确立流式文档逻辑结构标注体系,并提出一种三段式的半自动文档逻辑结构标注方法:第一阶段通过机助人工实现文档元数据的分离式标注,第二阶段自动重建逻辑结构,第三阶段自动填充特征向量。实验结果表明,该文提出的文档逻辑结构标注方法能够节省人工成本、提高机器学习算法对文档结构识别的准确率与召回率,F值达到97.5%。

融合图结构与节点关联的关键词提取方法 下载:20 浏览:212

马慧芳1,2 王双1 李苗1 李宁3 《中文研究》 2019年2期

摘要:
单篇文本的关键词提取可应用于网页检索、知识理解与文本分类等众多领域。该文提出一种融合图结构与节点关联的关键词提取方法,能够在脱离外部语料库的情况下发现单篇文本的关键词。首先,挖掘文本的频繁封闭项集并生成强关联规则集合;其次,取出强关联规则集合中的规则头与规则体作为节点,节点之间有边当且仅当彼此之间存在强关联规则时,边权重定义为关联规则的关联度,将强关联规则集合建模成关联图;再次,综合考虑节点的图结构属性、语义信息和彼此的关联性,设计一种新的随机游走算法计算节点的重要性分数;最后,为了避免抽取的词项之间有语义包含关系,对节点进行语义聚类并选取每个类的类中心作为关键词提取结果。通过设计关联图模型参数的选取、关键词的提取规模、不同算法对比3个实验,在具有代表性的中英文数据上证明了该方法能够有效提升关键词提取的效果。

结合注意力机制与双向LSTM的中文事件检测方法 下载:28 浏览:257

沈兰奔 武志昊 纪宇泽 林友芳 万怀宇 《中文研究》 2019年2期

摘要:
事件检测是信息抽取领域的重要任务之一。已有的方法大多高度依赖复杂的语言特征工程和自然语言处理工具,中文事件检测还存在由分词带来的触发词分割问题。该文将中文事件检测视为一个序列标注而非分类问题,提出了一种结合注意力机制与长短期记忆神经网络的中文事件检测模型ATT-BiLSTM,利用注意力机制来更好地捕获全局特征,并通过两个双向LSTM层更有效地捕获句子序列特征,从而提高中文事件检测的效果。在ACE 2005中文数据集上的实验表明,该文提出的方法与其他现有的中文事件检测方法相比性能得到明显提升。

图像标题生成中的人物类名实体填充方法研究 下载:47 浏览:369

张家硕 洪宇 唐建 程梦 姚建民 《中文研究》 2019年1期

摘要:
得益于深度学习的发展和大规模图像标注数据集的出现,图像标题生成作为一种结合了计算机视觉和自然语言处理的综合任务得到了广泛关注。受到神经机器翻译任务的启发,前人将图像标题生成任务看作是一种特殊的翻译任务,即将一张图像视作源端的信息表述,通过编码解码过程,翻译为目标端的自然语言语句。因此,现有研究引入了端到端的神经网络模型,并取得了较好的生成效果。然而,图像标题生成研究依然面临许多挑战,其中最值得关注的难点之一是解决确切性文字表述的问题。一条确切的标题往往是有形且具体的表述,例如"梅西主罚点球",而目前机器生成的标题则较为粗浅和单调,例如"一个人在踢球"。针对这一问题,该文尝试开展标题生成的有形化研究,并在前瞻性实验中聚焦于标题中人名实体的识别与填充。在技术层面,该文将机器自动生成的图像标题作为处理对象,去除其中抽象人名实体的名称(例如,一个人、男人和他等)或错误的称谓,并将由此形成的带有句法空缺的表述视作完型填空题目,从而引入了以Who问题为目标的阅读理解技术。具体地,该文利用R-NET阅读理解模型实现标题中人名实体的抽取与填充。此外,该文尝试基于图像所在文本的局部信息和外部链接的全局信息,对人名实体进行抽取。实验结果表明,该方法有效提高了图像标题的生成质量,BLEU值相应提升了2.93%;实验结果也显示,利用全局信息有利于发现和填充正确的人名实体。

基于文本和用户信息的在线评论质量检测 下载:50 浏览:405

吴璠 王中卿 周夏冰 李寿山 周国栋 《中文研究》 2019年1期

摘要:
随着互联网的迅速发展,越来越多的用户评论出现在社交网站上。面对迅速增长的评论数据,如何为阅读评论的消费者提供准确、真实的高质量评论就显得尤为重要。评论质量检测旨在判断在线评论的质量,在传统的研究中,文本信息通常独立地被用于预测评论质量。但是在社交媒体上,每个文本之间不是独立的,而是可以通过发表文本的作者与其他文本相关联,即同一个用户或相近的用户发表的评论质量具有一定的相似性。因此,为了更好的构建文本的表示和研究文本之间基于用户的关联,该文基于神经网络模型分别构建用户和文本的表示,同时,为了放大用户信息的作用,我们进一步将基于注意力机制的用户信息融合到文本中,从而提高文本评论质量检测的效果。在Yelp 2013数据集上进行实验的结果表明,该模型能有效地提高在线评论质量检测的性能。

融合社交网络用户自身属性的信息传播数学建模与舆情演化分析 下载:80 浏览:62

刘小洋 唐婷 何道兵 《中文研究》 2019年1期

摘要:
针对传统的社交网络信息传播模型极少将用户属性和信息特征这两个因素纳入到信息传播模型研究中的不足,该文提出了一种基于用户自身属性的信息传播模型。首先该文抽取用户影响力、用户态度、用户年龄、信息能量、信息价值等特征并构建交互规则;其次,根据这些特征建立信息传播的数学模型,模拟社交网络舆情演化过程;最后,为验证模型的有效性,开展了与真实事件的实证分析对比实验。实验结果表明:仿真结构与真实数据的相似度大于0.97,因而该模型符合社交网络舆情信息传播的特性,能够较为准确地描述社交网络中的舆情传播过程。

基于循环实体网络的细粒度情感分析 下载:55 浏览:462

贾川 方睿浦东 康刚 《中文研究》 2019年1期

摘要:
目前,深度神经网络模型已经在文本情感分析领域取得了较好的效果,但是对于属性相关的细粒度的情感分析任务,现有研究方法的效果仍有待改进。该文提出了一种基于循环实体网络来进行细粒度情感分析的方法,在网络中嵌入预定义的评价属性类别信息,利用扩大的内部记忆链来抽取与每个属性类别相关的情感特征,并通过动态记忆单元控制与属性相关情感信息的远距离依赖,然后,对于给定的单个属性类别,利用注意力机制从内部记忆链中抽取该属性类别的情感特征进行分类。该文提出的方法在Sentihood数据上与目前精度最高的方法相比,取得了近1个百分点的提升,而且模型的收敛速度更快。

基于小波分析的特征提取文本分类方法研究 下载:61 浏览:343

朱晋1 怀丽波1 崔荣一1 尹慧2 《中文研究》 2018年12期

摘要:
该文提出了基于小波分析的文本特征提取方法,对传统TF-IDF向量空间模型下的特征向量进行了该文的小波变换、逆小波变换。使用KNN分类方法检验这两空间下的文本分类准确率。实验结果表明,该文的小波变换方法在减少了TF-IDF向量空间模型近一半的维度下在各种实验条件中都能和向量空间模型保持一致的分类准确率;该文的逆小波变换方法在大幅度降低TF-IDF向量空间模型维度的基础上,同实验中其他特征提取方法相比,在特定条件下有着卓越的特定文本类别分类优势,这也在一定程度上检验了压缩感知理论的正确合理性。

基于BiLSTM-CRF模型的汉语否定信息识别 下载:17 浏览:208

1.重庆大学计算机学院;2.上海拍拍贷金融信息服务有限公司 《中文研究》 2018年12期

摘要:
否定信息识别是将自然语言中的肯定信息与否定信息分离,它对信息检索、文本挖掘、情感分析等都有重要作用。该文主要对汉语否定信息中的触发词识别和覆盖域识别进行研究,采用双向长短期记忆网络结合条件随机场(BiLSTM-CRF)为模型,预训练的词向量为输入特征对触发词进行识别,在此基础上添加已知触发词特征对覆盖域进行识别。中文否定与不确定信息语料上,触发词识别取得F1值为91.03%,覆盖域识别在该语料的子语料财经新闻上取得F1值最高为73.91%。实验结果表明,这一模型在汉语否定触发词识别和覆盖域识别上取得的效果优于CRF模型和BiLSTM模型。

基于细粒度词表示的命名实体识别研究 下载:26 浏览:346

林广和1 张绍武1,2 林鸿飞1 《中文研究》 2018年12期

摘要:
命名实体识别(NER)是自然语言处理中的一项基础任务,其性能的优劣极大地影响着关系抽取、语义角色标注等后续任务。传统的统计模型特征设计难度大、领域适应性差,一些神经网络模型则忽略了词本身所具有的形态学信息。针对上述问题,该文构建了一种基于细粒度词表示的端到端模型(Finger-BiLSTM-CRF)来进行命名实体识别任务。该文首先提出一种基于注意力机制的字符级词表示模型Finger来融合形态学信息和单词的字符信息,然后将Finger与BiLSTM-CRF模型联合进行实体识别,最终该方法以端到端、无任何特征工程的方式在CoNLL 2003数据集上取得了F1为91.09%的结果。实验表明,该文设计的Finger模型显著提升NER系统的召回率,从而使得模型的识别能力显著提升。

ACMF:基于卷积注意力模型的评分预测研究 下载:64 浏览:435

商齐1 曾碧卿1,2 王盛玉1 周才东1 曾锋1 《中文研究》 2018年11期

摘要:
评分数据稀疏是影响评分预测的主要因素之一。为了解决数据稀疏问题,一些推荐模型利用辅助信息改善评分预测的准确率。然而大多数推荐模型缺乏对辅助信息的深入理解,因此还有很大的提升空间。鉴于卷积神经网络在特征提取方面和注意力机制在特征选择方面的突出表现,该文提出一种融合卷积注意力神经网络(Attention Convolutional Neural Network,ACNN)的概率矩阵分解模型:基于卷积注意力的矩阵分解(Attention Convolutional Model based Matrix Factorization,ACMF),该模型首先使用词嵌入将高维、稀疏的词向量压缩成低维、稠密的特征向量;接着,通过局部注意力层和卷积层学习评论文档的特征;然后,利用用户和物品的潜在模型生成评分预测矩阵;最后计算评分矩阵的均方根误差。在ML-100k、ML-1m、ML-10m、Amazon数据集上的实验结果表明,与当前取得最好预测准确率的PHD模型相比,ACMF模型在预测准确率上分别提高了3.57%、1.25%、0.37%和0.16%。

基于多篇章多答案的阅读理解系统 下载:43 浏览:415

刘家骅1,2 韦琬2 陈灏2 杜彦涛2 《中文研究》 2018年11期

摘要:
机器阅读理解任务一直是自然语言处理领域的重要问题。2018机器阅读理解技术竞赛提供了一个基于真实场景的大规模中文阅读理解数据集,对中文阅读理解系统提出了很大的挑战。为了应对这些挑战,我们在数据预处理、特征表示、模型选择、损失函数的设定和训练目标的选择等方面基于以往的工作做出了对应的设计和改进,构建出一个最先进的中文阅读理解系统。我们的系统在正式测试集ROUGE-L和BLEU-4上分别达到了63.38和59.23,在105支提交最终结果的队伍里面取得了第一名。

T-Reader:一种基于自注意力机制的多任务深度阅读理解模型 下载:47 浏览:383

郑玉昆1 李丹2 范臻1 刘奕群1 张敏1 马少平1 《中文研究》 2018年10期

摘要:
该文介绍THUIR团队在"2018机器阅读理解技术竞赛"中的模型设计与实验结果。针对多文档机器阅读理解任务,设计了基于自注意力机制的多任务深度阅读理解模型T-Reader,在所有105支参赛队伍中取得了第八名的成绩。除文本信息外,提取了问题与段落精准匹配等特征作为模型输入;在模型的段落匹配阶段,采用跨段落的文档级自注意力机制,通过循环神经网络实现了跨文档的问题级信息交互;在答案范围预测阶段,通过进行段落排序引入强化学习的方法提升模型性能。

适应多领域多来源文本的汉语依存句法数据标注规范 下载:24 浏览:227

郭丽娟 李正华 彭雪 张民 《中文研究》 2018年9期

摘要:
近十年来,依存句法分析由于具有表示形式简单、灵活、分析效率高等特点,得到了学术界广泛关注。为了支持汉语依存句法分析研究,国内同行分别标注了几个汉语依存句法树库。然而,目前还没有一个公开、完整、系统的汉语依存句法数据标注规范,并且已有的树库标注工作对网络文本中的特殊语言现象考虑较少。为此,该文充分参考了已有的数据标注工作,同时结合实际标注中遇到的问题,制定了一个新的适应多领域多来源文本的汉语依存句法数据标注规范。我们制定规范的目标是准确刻画各种语言现象的句法结构,同时保证标注一致性。利用此规范,我们已经标注了约3万句汉语依存句法树库。

藏文字同现网络的小世界效应和无标度特性 下载:19 浏览:212

才智杰1 孙茂松2 才让卓玛1 《中文研究》 2018年9期

摘要:
复杂网络具有自组织、自相似、吸引子、小世界、无标度中部分或全部性质,而语言文字作为人类智慧和文明的结晶,是经过漫长演化形成的复杂网络。该文对藏语诗歌、散文、政治、佛教、教材和口语等六类具有代表性的体裁语料,每类各取15篇共90篇文章构建了97个藏文字同现网络,分析了藏文字同现网络的最短路径长度、聚类系数和度分布,实验数据显示97个藏文字同现网络都具有小世界效应和无标度特性,表明藏文字同现网络都具有小世界效应和无标度特性。
在线客服::点击联系客服
联系电话::400-188-5008
客服邮箱::service@ccnpub.com
投诉举报::feedback@ccnpub.com
人工客服

工作时间(9:00-18:00)
官方公众号

科技成果·全球共享