文章-世纪中文出版社

张明华1 吴云芳1 李伟康1 张仰森2 《当代中文学刊》 2019年9期

摘要:

为了学习文本的语义表征,以往的研究者主要依赖于复杂的循环神经网络(recurrent neural networks,RNNs)和监督式学习方法。该文提出了一种门控联合池化自编码器(gated mean-max AAE)用于学习中英文的文本语义表征。该文的自编码器完全通过多头自注意力机制(multi-head self-attention mechanism)来构建编码器和解码器网络。在编码阶段,提出了均值—最大化(mean-max)联合表征策略,即同时运用平均池化(mean pooling)和最大池化(max pooling)操作来捕获输入文本中多样性的语义信息。为促使联合池化表征可以全面地指导重构过程,解码器采用门控操作进行动态关注。通过在大规模中英文未标注语料上训练模型,获得了高质量的句子编码器。在重构文本段落的实验中,该文模型在实验效果和计算效率上均超越了传统的RNNs模型。将公开训练好的文本编码器,使其可以方便地运用于后续的研究。

基于HowNet的语义表示学习下载：47 浏览：493

朱靖雯1 杨玉基2 许斌2 李涓子2 《当代中文学刊》 2019年9期

摘要:

HowNet是一个大规模高质量的跨语言（中英）常识知识库,蕴含着丰富的语义信息。该文利用知识图谱领域的方法将HowNet复杂的结构层层拆解,得到了知识图谱形式的HownetGraph,进而利用网络表示学习以及知识表示学习方法得到了跨语言（中、英）、跨语义单位（字词、义项①、DEFCONCEPT②和义原）的向量表示,在词语相似度（word similarity）和词语类比（word analogy）任务上对中英文数据集进行了实验,实验结果显示该文提出的方法在词语语义相似度的任务上取得了最好效果。

面向法律文书的量刑预测方法研究下载：34 浏览：347

谭红叶张博文张虎李茹《当代中文学刊》 2020年5期

摘要:

大规模法律文书数据为智能司法审判研究提供了重要的数据基础。量刑预测是智能司法审判中的一个关键环节,对维护司法审判的公平与公正具有重要意义。该文首先基于区间划分和多模型投票方法进行了量刑预测初探,发现区间划分策略可以有效缓解刑期类别众多和数据不平衡问题;在此基础上,又采用基于量刑属性的预测方法来充分理解量刑情节。在CAIL2018评测数据上的实验表明:该文所提出的两种方法,性能明显超过其他基线系统。

基于注意力机制与文本信息的用户关系抽取下载：78 浏览：273

赵赟吴璠王中卿李寿山周国栋《当代中文学刊》 2019年8期

摘要:

随着社交媒体的发展,用户之间的关系网络对于社交媒体的分析有很大的帮助。因此,该文主要研究用户好友关系检测。以往的关于用户好友关系抽取的研究主要基于社交媒体上的结构化信息,比如其他好友关系,用户的不同属性等。但是,很多时候用户本身并没有大量的好友信息存在,同时也不一定有很多确定的属性。因此,我们希望基于用户发表的文本信息来对用户关系进行预测。不同于以往的潜在好友推荐算法,该文提出了一种基于注意力机制以及长短时记忆网络(long short-term memory,LSTM)的好友关系预测模型,将好友之间的评论分开处理,通过分析用户之间的评论来判断是否具备一定的好友关系。该模型将好友双方信息拼接后的结果作为输入,并将注意力机制应用于LSTM的输出。实验表明,用户之间的评论对于好友关系预测确实有较大的实际意义,该文提出的模型较之于多个基准系统的效果,取得了明显的提升。在不加入任何其它非文本特征的情况下,实验结果的准确率达到了77%。

基于QU-NNs的阅读理解描述类问题的解答下载：49 浏览：412

谭红叶1,2 刘蓓1 王元龙1 《当代中文学刊》 2019年7期

摘要:

机器阅读理解是自然语言处理(NLP)领域的一个研究热点,目前大部分的研究是针对答案简短的问题,而具有长答案的问题,如描述类问题是现实世界无法避免的,因此有必要对该类问题进行研究。该文采用QU-NNs模型对阅读理解中描述类问题的解答进行了探索,其框架为嵌入层、编码层、交互层、预测层和答案后处理层。由于该类问题语义概括程度高,所以对问题的理解尤为重要,该文在模型的嵌入层和交互层中分别融入了问题类型和问题主题、问题焦点这三种问题特征,其中问题类型通过卷积神经网络进行识别,问题主题和问题焦点通过句法分析获得,同时采用启发式方法对答案中的噪音和冗余信息进行了识别。在相关数据集上对QU-NNs(Question UnderstandingNeural Networks)模型进行了实验,实验表明加入问题特征和删除无关信息可使结果提高2%～10%。

基于词性约束的藏文分词策略与算法下载：28 浏览：341

才让卓玛1 才智杰2 《当代中文学刊》 2020年5期

摘要:

自动分词作为自然语言处理基础性的研究课题,一直被学术界所关注,随着藏语自然语言处理技术研究的不断深入,藏文分词也面临越来越多的挑战。该文通过分析藏文自动分词研究现状,提出基于词性约束的藏文分词策略与算法。相对于传统方法,该方法不仅能有效地预防和处理各类歧义现象,而且在藏文未登录词处理方面有较好表现。

基于枢轴语言的图像描述生成研究下载：47 浏览：442

张凯李军辉周国栋《当代中文学刊》 2019年7期

摘要:

当前图像描述生成的研究主要仅限于单语言（如英文）,这得益于大规模的已人工标注的图像及其英文描述语料。该文探索零标注资源情况下,以英文作为枢轴语言的图像中文描述生成研究。具体地,借助于神经机器翻译技术,该文提出并比较了两种图像中文描述生成的方法:（1）串行法,该方法首先将图像生成英文描述,然后由英文描述翻译成中文描述;（2）构建伪训练语料法,该方法首先将训练集中图像的英文描述翻译为中文描述,得到图像-中文描述的伪标注语料,然后训练一个图像中文描述生成模型。特别地,对于第二种方法,该文还比较了基于词和基于字的中文描述生成模型。实验结果表明,采用构建伪训练语料法优于串行法,同时基于字的中文描述生成模型也要优于基于词的模型,BLEU4值达到0.341。

基于情感分析的“真假美猴王”存疑研究下载：76 浏览：274

张辰麟1 王明文1 谭亦鸣1 陈志明1 左家莉1 罗远胜2 《当代中文学刊》 2019年7期

摘要:

《西游记》是我国四大名著之一。"真假美猴王"事件作为《西游记》的高潮部分,留下了不少伏笔,也引发了多种解读。该文通过运用情感分析的方法,对"真假美猴王"事件前后孙悟空与其他角色的对话进行分析。通过比较孙悟空在"真假美猴王"事件前后,对其他角色情感值的变化,得到了"孙悟空并没有被如来打死,‘真假美猴王’事件消灭的‘心魔’是孙悟空的反抗精神。事件之后,孙悟空选择屈服于神权"的结论。初步探索了情感分析技术对文学研究的可行性。

ResNet结合BiGRU的关系抽取混合模型下载：34 浏览：329

唐朝1 诺明花1 胡岩2 《当代中文学刊》 2020年4期

摘要:

关系抽取主要目的是将非结构化或半结构化描述的自然语言文本转化成结构化数据,其主要负责从文本中识别出实体,抽取实体间的语义关系。就关系抽取任务而言,当前流行的网络结构是仅使用CNN作为编码器,经过多层卷积操作后,对池化的结果进行softmax分类。还有部分工作则使用RNN并结合Attention机制对最后的结果做分类。这些网络结构在远程监督带噪声的关系抽取任务中表现并不理想。该文主要根据ResNet残差块的特性,提出了一种混合模型,它有效融合,ResNet和BiGRU,将带有残差特性的CNN和双向RNN结合起来,最后融入注意力机制来完成基于远程监督的关系抽取任务。实验验证了该混合模型在远程监督的噪声过滤方面的有效性。在NYT-Freebase数据集上,P@N值相比使用单一ResNet提高了2.9%。另外,该文所建混合模型可以很轻易地移植应用到其他NLP任务中。

面向多领域多来源文本的汉语依存句法树库构建下载：36 浏览：365

郭丽娟彭雪李正华张民《当代中文学刊》 2019年6期

摘要:

为了支持汉语句法分析研究,目前句法分析领域已经标注了多个汉语依存句法树库。然而,已有树库主要针对较规范文本,而对各种网络文本如博客、微博、微信等考虑较少。为此,该文基于近期研制的标注规范及可视化在线标注系统,开展了大规模数据标注。聘请了15名兼职标注者,并采用严格的标注流程保证标注质量,目前,已经标注了约3万句的汉语依存句法树库,其中包含约1万句淘宝头条文本。该文重点介绍了数据选取、标注流程等问题,并详细分析了标注准确率、一致性和标注数据的分布

基于带注意力机制CNN的联合知识表示模型下载：34 浏览：254

彭敏姚亚兰谢倩倩高望《当代中文学刊》 2019年6期

摘要:

知识表示学习在自然语言处理领域获得了广泛关注,尤其在实体链指、关系抽取及自动问答等任务上表现优异。然而,大部分已有的表示学习模型仅利用知识库中的结构信息,无法很好地处理新的实体或关联事实极少的实体。为解决该问题,该文提出了引入实体描述信息的联合知识表示模型。该模型先利用卷积神经网络编码实体描述,然后利用注意力机制来选择文本中的有效信息,接着又引入位置向量作为补充信息,最后利用门机制联合结构和文本的向量,形成最终的联合表示。实验表明,该文的模型在链路预测和三元组分类任务上与目前最好的模型性能相近。

基于PCFG的藏文疑问句句法分析下载：43 浏览：370

班玛宝1,2,3 才智杰1,2,3 拉玛扎西1,2,3 《当代中文学刊》 2019年5期

摘要:

藏文疑问句的句法分析在藏文问答系统、搜索引擎、信息的抽取和检索等领域有着广泛的应用前景。该文通过分析藏文疑问句的构成特点,对藏文疑问句进行了分类,归纳了各类藏文疑问句的结构特征,进而利用PCFG对藏文疑问句进行了句法分析。经测试,在封闭测试集上的准确率、召回率和F1值分别达97.6%、97.3%和97.4%,在开放测试集上的准确率、召回率和F1值分别达96.0%、95.4%和95.7%。

基于神经网络的藏语语音合成下载：71 浏览：427

都格草才让卓玛南措吉算太本《当代中文学刊》 2019年5期

摘要:

语音合成是人机交互的核心技术之一,也是中文信息处理领域的一项前沿技术。随着神经网络理论的不断深入,基于神经网络的语音合成技术越来越引起人们的关注。该文通过分析藏文字结构与藏语拼读规则,融合Sequence to Sequence模型和注意力机制,研究了基于神经网络的藏语语音合成技术。实验数据表明,该文方法在藏语语音合成上具有良好的性能表现。

中小学生校园阅读推进的主要问题与对策研究——以广州市越秀区小学为例下载：44 浏览：237

高瑞翔 1胡景悦2 杨洁3 范尹晴1 莫雷1 《心理学研究》 2019年5期

摘要:

全民阅读是党和国家高度重视的发展战略,校园阅读是其中的重点,然而,目前我国校园阅读的开展并不理想。通过在广州市中小学进行大规模阅读状况调研发现,校园阅读工作开展一直面临"难知、难导、难管"的瓶颈,实际成效不佳。对此,该研究提出了通过构建"互联网+中小学生成长阅读平台"推进校园阅读的创新举措,并在广州市越秀区20多所小学实施试点实验;历时半年,成效显著,学生在阅读的重视程度、投入时间、阅读课外图书的意义性与均衡性、阅读的方式方法及家校支持等方面均有明显提升。据此,提出推进校园阅读的三点建议:应做好顶层设计和建立系统管理与评价机制,应形成家校合作的支持网络,应推广共建学生校园阅读综合信息平台。

基于语言特征自动获取的反问句识别方法下载：35 浏览：333

李旸1 吴卓嘉1 王素格1 梁吉业2 《当代中文学刊》 2020年3期

摘要:

反问句是以疑问的形式表达强烈情感的修辞方式,对其有效识别可为自然语言处理中的情感分析任务提供技术支持。该文提出了一种基于语言特征自动获取的反问句识别方法。首先,利用标签注意机制,建立了一个数据驱动的特征抽取模型,用于获取与任务相关的词汇、句法结构、符号标记和话题等语言特征。其次,利用Bi-LSTM模型分别对句子和语言特征进行表示,两者的交互注意被用于获取句子的各个词和符号的注意力权重向量。该权重向量作用于句子的表示,用于构建一个强化语言特征的反问句识别模型。在中文微博数据集上的实验结果表明,提出的方法与之前的工作相比,反问句识别性能有显著提升。

MaskAE:基于无监督的短文本情感迁移方法下载：35 浏览：338

胡盛伟李弼程林孔杰熊尧《当代中文学刊》 2020年3期

摘要:

基于无监督的文本情感迁移技术是通过迁移原句子情感并且保持句子内容不变,生成带有其他情感的新句子的技术。这项技术在两个方面富有挑战性:第一,没有平行语料;第二,文本属性纠缠问题,即当改变句子情感时,通常难以保证句子内容不变。该文提出了一个基于掩码自编码器(mask-autoEncoder,MaskAE)的文本情感迁移方法。首先,利用情感词典来匹配句子中的情感词并用"mask"符号标记它;之后,利用MaskAE模型生成被标记的情感词,保持其他词不变,从而缓解属性纠缠问题。在模型训练过程中,利用情感判别器去控制生成句子的情感,从而解决没有平行语料问题。实验结果表明,该文模型简单有效,与当前先进模型比较,在自动评价指标和人工评价指标上均有提升,生成的句子在语法和语义正确性上的表现也更好。

融入丰富信息的高性能神经实体链接下载：40 浏览：382

李明扬姜嘉伟孔芳《当代中文学刊》 2020年1期

摘要:

歧义的存在使得实体链接任务需要大量信息的支撑。已有研究主要使用两类信息,即实体表述所在的文本信息和外部的知识库信息。但已有研究对信息的使用存在以下两个问题:首先,最新通用知识库规模更大、覆盖面更广,但目前的实体链接模型却未从中受益,其性能没有得到相应提升;其次,表述所在的文本信息既包含表述所处的局部上下文信息,也包含文本主题之类的全局信息,文本自身信息的利用率还需进一步提高。针对第一个问题,该文给出了一个融合文本相关度和先验知识的实体候选集抽取策略,提高了对知识库中有效知识的提取;针对第二个问题,该文给出了一个融合局部和全局信息的自注意力机制与高速网络相结合的神经网络实体链接框架。在6个实体链接公开数据集上的对比实验表明了该文提出方案的有效性,在最新的通用知识库上该文给出的实体链接模型取得了目前最好的性能。

基于篇章修辞结构的自动文摘连贯性研究下载：39 浏览：387

刘凯王红玲《当代中文学刊》 2019年2期

摘要:

尽管抽取式自动文摘方法是目前自动文摘领域的主流方法,并且取得了长足的进步,但抽取式自动文摘形成的摘要由于缺乏句子之间的合理指代或篇章结构,使得文摘缺乏连贯性而影响可读性。为提高自动摘要的可读性,该文尝试将篇章修辞结构信息应用于中文自动文摘。首先,基于汉语篇章修辞结构抽取摘要,然后使用基于LSTM的方法对文本连贯性进行建模,并使用该模型对文摘的连贯性做出评价。实验结果表明:在摘要抽取方面,基于篇章修辞结构的自动文摘相比于传统的抽取方法具有更好的ROUGE评价值;在使用基于LSTM连贯性模型评价摘要连贯性方面,篇章结构信息在自动抽取文摘时可以很好地提炼出文章的主旨,同时使摘要具有更好的结果。

蒙古语长音频语音文本自动对齐的研究下载：50 浏览：408

牛米佳飞龙高光来《当代中文学刊》 2020年2期

摘要:

目前,面向蒙古语的语音识别语音库资源相对稀缺,但存在较多的电视剧、广播等蒙古语音频和对应的文本。该文提出基于语音识别的蒙古语长音频语音文本自动对齐方法,实现蒙古语电视剧语音的自动标注,扩充了蒙古语语音库。在前端处理阶段,使用基于高斯混合模型的语音端点检测技术筛选并删除噪音段;在语音识别阶段,构建基于前向型序列记忆网络的蒙古语声学模型;最后基于向量空间模型,将语音识别得到的假设序列和参考音素序列进行句子级别的动态时间归整算法匹配。实验结果表明,与基于Needleman-Wunsch算法的语音对齐比较,该文提出的蒙古语长音频语音文本自动对齐方法的对齐正确率提升了31.09%。

融合依存信息Attention机制的药物关系抽取研究下载：30 浏览：370

李丽双钱爽周安桥刘阳郭元凯《当代中文学刊》 2019年5期

摘要:

药物关系(Drug-Drug Interaction,DDI)抽取是生物医学关系抽取领域的重要分支,现有方法主要强调实体、位置等信息对关系抽取的影响。相关研究表明,依存信息对于关系抽取具有重要作用,如何合理利用依存信息是关系抽取研究中需要解决的问题。该文提出一种融合依存信息Attention机制的药物关系抽取模型,衡量最短依存路径与句子的相关性,捕捉对实体间关系有用的信息。首先使用双向GRU(BiGRU)网络分别学习原句子和最短依存路径(Shortest Dependency Path,SDP)的语义信息和上下文信息,然后通过Attention机制将SDP信息与原句子信息融合,最后利用融合依存信息之后的句子表示进行分类预测。在DDIExtraction2013语料上进行了实验评估,模型F值为73.72%。

	在线客服
	客服电话：400-188-5008
	客服邮箱：service@ccnpub.com
	投诉举报：feedback@ccnpub.com

	在线客服：：点击联系客服
	联系电话：：400-188-5008
	客服邮箱：：service@ccnpub.com
	投诉举报：：feedback@ccnpub.com