请选择 目标期刊

基于性格情绪特征的改进主题情感模型 下载:30 浏览:310

李玉强1 黄瑜1 孙念1 李琳1 刘爱华2 《当代中文学刊》 2020年11期

摘要:
近年来,以微博为代表的社交媒体在情感分析中备受关注。然而,绝大多数现有的主题情感模型并没有充分考虑到用户性格特征,导致情感分析结果难尽人意。故该文在现有的JST模型基础上进行改进,提出一种基于时间的性格建模方法,将用户性格特征纳入主题情感模型中;鉴于微博数据包含大量的表情符号之类的特有信息,为了充分利用表情符号来提升微博情感识别性能,该文将情感符号融入JST模型中,进而提出了一种改进的主题情感联合模型UC-JST(Joint Sentiment/Topic Model Based on User Character)。通过在真实的新浪微博数据集上进行实验,结果表明UC-JST情感分类效果优于JST、TUS-LDA、JUST、TSMMF四种典型的无监督情感分类方法。

基于句内注意力机制多路CNN的汉语复句关系识别方法 下载:38 浏览:315

孙凯丽1 邓沌华2 李源1 李妙1 李洋1 《当代中文学刊》 2020年11期

摘要:
复句的关系识别是对分句间语义关系的甄别,是复句语义分析的关键,旨在从文本中识别句间的关系类型。非充盈态汉语复句存在隐式关系的特点给语义关系识别造成了困难。为了深度挖掘复句中隐含的语义信息,正确地实现关系分类,该文提出了一种基于句内注意力机制的多路CNN网络结构Inatt-MCNN。其中句内注意力机制模型是基于Bi-LSTM的,使其能够学习到句子的双向语义特征以及分句间的关联特征。同时,为了充分利用文本特征,联合使用卷积神经网络(CNN)对复句表示再次建模获得句子局部特征。与其他基于汉语复句语料库(CCCS)和清华汉语树库(TCT)的实验结果相比,该文方法的宏平均F1值为85.61%,提升约6.08%,平均召回率为84.87%,提升约3.05%。

基于序列图模型的多标签序列标注 下载:28 浏览:333

王少敬 刘鹏飞 邱锡鹏 《当代中文学刊》 2020年11期

摘要:
该文针对实际中存在对同一句话标注多种序列标签问题,定义了多标签序列标注任务,并提出了一种新的序列图模型。序列图模型主要为了建模两种依赖关系:不同单词在时序维度上面的关系和同一单词在不同任务之间的依赖关系。该文采用LSTM或根据Transformer修改设计的模型处理时序维度上的信息传递。同一单词在不同任务之间使用注意力机制处理不同任务之间的依赖关系,以获得每个单词更好的隐状态表示,并作为下次递归处理的输入。实验表明,该模型不仅能够在Ontonotes 5.0数据集上取得更好的结果,而且可以获取不同任务标签之间可解释的依赖关系。

基于远程监督的人物属性抽取研究 下载:41 浏览:367

马进 杨一帆 陈文亮 《当代中文学刊》 2020年10期

摘要:
属性抽取的主要目标是从非结构化文本中获取实体的属性值。为了从文本中抽取出人物属性,通常需要大量的标注数据,然而这些数据资源却十分稀少。为了解决这个问题,该文从百科类网页的表格数据出发,构建了人物属性表,然后采用远程监督的方法得到大规模、多类别的人物属性标注语料,从而免去了人工标注的繁琐流程。针对新构建的数据集,分别使用条件随机场(CRF)和双向长短期记忆-条件随机场(BiLSTM-CRF)构建了属性抽取的两个基线模型。实验结果表明,BiLSTM-CRF取得比CRF更好的性能,其中BiLSTM-CRF的平均F1值为83.39%。

面向多类型问题的阅读理解方法研究 下载:40 浏览:378

谭红叶1 屈保兴2 《当代中文学刊》 2020年10期

摘要:
机器阅读理解是基于给定文本,自动回答与文本内容相关的问题。针对此任务,学术界与工业界提出多个数据集与模型,促使阅读理解取得了一定的进步,但提出的模型大多只是针对某一类问题,不能满足现实世界问题多样性的需求。因此,该文针对阅读理解中问题类型多样性的解答展开研究,提出一种基于Bert的多任务阅读理解模型,利用注意力机制获得丰富的问题与篇章的表示,并对问题进行分类,然后将分类结果用于任务解答,实现问题的多样性解答。该文在中文公共阅读理解数据集CAIL2019-CJRC上对所提模型进行了实验,结果表明,系统取得了比所有基线模型都要好的效果。

阅读理解中观点类问题的扩展研究 下载:47 浏览:352

张兆滨1 王素格1 陈鑫2 赵琳玲1 王典1 《当代中文学刊》 2020年9期

摘要:
在高考语文阅读理解中,观点类问题中的观点表达较为抽象,为了从阅读材料中获取与问题相关的答案信息,需要对问题中的抽象词语进行扩展,达到扩展观点类问题的目的。该文提出了基于多任务层级长短时记忆网络(Multi-HLSTM)的问题扩展建模方法。首先将阅读材料与问题进行交互注意,同时建模问题预测和答案预测两个任务,使模型对问题进一步扩展。最后将扩展后的问题与原问题同时应用于问题的答案候选句抽取中。通过在高考语文观点类的真题、模拟题以及DuReader的描述观点类数据集上进行实验,验证了本文的问题扩展模型对答案候选句的抽取性能具有一定的提升作用。

基于局部语义相关性的定义文本义原预测 下载:42 浏览:329

杜家驹1 岂凡超1 孙茂松2 刘知远3 《当代中文学刊》 2020年9期

摘要:
作为人类语言的最小语义单位,义原已被成功应用于许多自然语言处理任务。人工构造和更新义原知识库成本较大,因此义原预测被用来辅助义原标注。该文探索了利用定义文本为词语自动预测义原的方法。词语的各个义原通常都与定义文本中的不同词语的语义有相关关系,这种现象被称为局部语义相关性。与之对应,该文提出了义原相关池化(SCorP)模型,该模型能够利用局部语义相关性来预测义原。在HowNet上的评测结果表明,SCorP取得了当前最好的义原预测性能。大量的定量分析进一步证明了SCorP模型能够正确地学习义原与定义文本之间的局部语义相关性。

基于数据扩充的翻译记忆库与神经机器翻译融合方法 下载:39 浏览:313

曹骞 熊德意 《当代中文学刊》 2020年8期

摘要:
神经机器翻译是目前机器翻译领域的主流方法,而翻译记忆是一种帮助专业翻译人员避免重复翻译的工具,其保留之前完成的翻译句对并存储在翻译记忆库中,进而在之后的翻译过程中通过检索去重用这些翻译。该文基于数据扩充提出两种将翻译记忆与神经机器翻译相结合的方法:(1)直接拼接翻译记忆在源语句后面;(2)通过标签向量拼接翻译记忆。该文在中英与英德数据集上进行了实验,实验表明,该方法可以使翻译性能获得显著提升。

一种基于TCLSTM的藏文词拼写检查方法 下载:39 浏览:306

华旦扎西1 才智杰2 班玛宝3 《当代中文学刊》 2020年8期

摘要:
拼写检查能够快速检测文本错误,提高文本校对效率,在语料库建设、文本编辑、语音和文字识别等诸多方面具有广阔的应用前景。该文在分析藏文拼写检查技术和语言模型的基础上,以藏文词拼写检查为目标,选用具有长远距离记忆功能的LSTM建立TCLSTM语言模型,设计基于TCLSTM的藏文词拼写检查算法。经测试,基于TCLSTM语言模型的藏文词拼写检查取得了较好的效果。

基于描述约束的词表示学习 下载:78 浏览:501

冶忠林1,2,3 赵海兴1,4,2,3 张科4,2,3 朱宇4,2,3 《当代中文学刊》 2019年12期

摘要:
词语作为语言模型中的基本语义单元,在整个语义空间中与其上下文词语具有很强的关联性。同样,在语言模型中,通过上下文词可判断出当前词的含义。词表示学习是通过一类浅层的神经网络模型将词语和上下文词之间的关联关系映射到低维度的向量空间中。然而,现有的词表示学习方法往往仅考虑了词语与上下文词之间的结构关联,词语本身所蕴含的内在语义信息却被忽略。因此,该文提出了DEWE词表示学习算法,该算法可在词表示学习的过程中不仅考量词语与上下文之间的结构关联,同时也将词语本身的语义信息融入词表示学习模型,使得训练得到的词表示既有结构共性也有语义共性。实验结果表明,DEWE算法是一种切实可行的词表示学习方法,相较于该文使用的对比算法,DEWE在6类相似度评测数据集上具有优异的词表示学习性能。

基于文献链接信息分析的科技资源风险评估 下载:31 浏览:288

罗准辰1 赵赫2 叶宇铭1 刘晓鹏1 《当代中文学刊》 2020年8期

摘要:
文献中的链接将文献与数据、代码、文档、网页等科技资源相关联,资源链接引用的上下文信息反映了科研活动中科研主体与科技资源形成的关系。该文通过对文献中的链接信息进行细粒度分析,提出了一种对其关联的科技资源种类和引用目的进行知识建模的方法,并在大规模文献数据集上进行了实证。同时从国内外科技资源的利用情况出发,对科技资源的重要程度、发展方向、使用风险等进行了深入的探索。该文可为了解国内外前沿技术进展,以及我国科研活动中科技资源风险评估判定提供科学依据,且对于自然语言处理领域中对科技文献文本的分析研究具有重大意义。

基于答案及其上下文信息的问题生成模型 下载:30 浏览:313

谭红叶1 孙秀琴2 闫真1 《当代中文学刊》 2020年7期

摘要:
基于文本的问题生成是从给定的句子或段落中生成相关问题。目前,主要采用序列到序列的神经网络模型来研究包含答案的句子生成问题,然而这些方法存在以下问题:①生成的疑问词与答案类型不匹配;②问题与答案的相关性不强。该文提出一个基于答案及其上下文信息的问题生成模型。该模型首先根据答案与上下文信息的关系确定与答案类型匹配的疑问词;然后利用答案及其上下文信息确定问题相关词,使问题尽可能使用原文中的词;最后结合原句作为输入来生成问题。相关实验表明,该文提出的模型性能明显优于基线系统。

基于混合表示的中文事件检测方法研究 下载:59 浏览:344

秦彦霞1 王中卿2 郑德权1 张民2 《当代中文学刊》 2019年11期

摘要:
传统中文事件检测方法采用人工定义的特征表示候选触发词,耗时耗力。基于神经网络的特征学习方法在中英文事件检测任务中得到了验证。现有的基于神经网络的中文事件检测方法初步探索了字信息对解决分词错误的作用。字是中文的最小结构单元和语义表示单元。词语的字符级信息能够提供词语的结构性信息和辅助词语级语义。该文研究了字/词混合神经网络特征对于解决中文事件数据集未登录词问题的作用。采用神经网络模型分别学习词语的词语级表示和字符级表示,进而拼接得到词语的混合表示。实验结果表明,基于字/词混合表示的中文神经网络事件检测模型的F1值比当前最好的模型高2.5%。

基于多头注意力机制Tree-LSTM的句子语义相似度计算 下载:36 浏览:367

胡艳霞1 王成1 李弼程1 李海林2 吴以茵1 《当代中文学刊》 2020年7期

摘要:
针对现有句子语义相似度计算由于缺乏语义结构信息导致精度低的问题,该文在依存关系树的基础上,提出了一种基于多头注意力机制Tree-LSTM(multi-head attention Tree-LSTM,MA-Tree-LSTM)的句子语义相似度计算方法。首先,MA-Tree-LSTM将外部具有指导意义的特征作为输入,再将输入结合多头注意力机制作用在Tree-LSTM树节点的所有孩子节点上,为每个孩子节点赋予不同的权重值,从而实现多头注意力机制和Tree-LSTM的融合;其次,将三层的MA-Tree-LSTM应用于句子语义相似度计算并实现句子对的相互指导,从而得到句子对语义特征的多层表示;最后联合多层的语义特征建立句子对语义相似度计算模型,从而实现句子对间相关的语义结构特征的充分利用。该文提出的方法鲁棒性强,可解释性强,对句子单词的顺序不敏感,不需要特征工程。在SICK和STS数据集上的实验结果表明,基于MA-Tree-LSTM的句子语义相似度计算的精度优于非注意力机制的Tree-LSTM方法以及融合了多头注意力机制的BiLSTM方法。

基于卷积神经网络与篇章结构的足球新闻自动生成方法 下载:43 浏览:270

刘茂福1,2 齐乔松1,2 胡慧君1,2 《当代中文学刊》 2019年11期

摘要:
当前的足球比赛新闻通常是由专家或记者手工撰写的,足球比赛新闻的手工写作既费时又低效。随着在线直播平台与社交媒体的流行,体育网络直播脚本大幅增加,但网络直播脚本通常只记载一场比赛的流水,具有冗长且重点模糊的特性,不适宜于赛后直接阅读。为了解决以上问题,在比赛之后,可以基于直播脚本撰写和发布足球比赛新闻。因此,该文提出一种从网络直播脚本直接生成足球比赛新闻的方法。该方法基于卷积神经网络和足球新闻篇章结构,从足球比赛过程中的多个时间段提取出已发生的重要事件,进而抽取相关句子来生成足球新闻,同时,该方法还会针对比赛评价生成一个简短总结。实验结果表明,使用该方法从网络直播脚本生成足球新闻是可行的。

融合覆盖机制的多模态神经机器翻译 下载:34 浏览:325

李志峰 张家硕 洪宇 尉桢楷 姚建民 《当代中文学刊》 2020年6期

摘要:
多模态神经机器翻译是指直接采用神经网络,以端到端方式融合图像和文本两种模态信息,以此进行翻译建模的机器学习方法。传统多模态机器翻译,是在将源语言翻译成目标语言时,借助图像中的重要特征信息优化翻译过程。但是观察发现,图像里的信息不一定出现在文本中,对翻译也会带来干扰;与参考译文对比,翻译结果中出现了过翻译和欠翻译的情况。针对以上问题,该文提出一种融合覆盖机制双注意力解码方法,用于优化现有多模态神经机器翻译模型。该模型借助覆盖机制分别作用于源语言和源图像,在注意力计算过程中,可以减少对过去重复信息的关注。在WMT16、WMT17测试集上进行实验,验证了上述方法的有效性,在WMT16英德和英法以及WMT17英德和英法测试集上,对比基准系统BLEU值分别提升了1.2,0.8,0.7和0.6个百分点。

融合BERT语境词向量的译文质量估计方法研究 下载:33 浏览:331

李培芸 李茂西 裘白莲 王明文 《当代中文学刊》 2020年6期

摘要:
蕴含语义、句法和上下文信息的语境词向量作为一种动态的预训练词向量,在自然语言处理的下游任务中有着广泛应用。然而,在机器译文质量估计中,没有相关研究工作涉及语境词向量。该文提出利用堆叠双向长短时记忆网络将BERT语境词向量引入神经译文质量估计中,并通过网络并联的方式与传统的译文质量向量相融合。在CWMT18译文质量估计评测任务数据集上的实验结果表明,融合中上层的BERT语境词向量均显著提高了译文质量估计与人工评价的相关性,并且当对BERT语境词向量的最后4层表示平均池化后引入译文质量估计中对系统性能的提高幅度最大。实验分析进一步揭示了融合语境词向量的方法能利用译文的流利度特征来提高翻译质量估计的效果。

面向问答文本的属性分类方法 下载:56 浏览:359

江明奇 沈忱林 李寿山 《当代中文学刊》 2019年10期

摘要:
属性分类是属性级情感分析中的一个重要任务。该任务旨在对文本包含的某些具体属性进行自动分类。已有的属性分类方法研究基本都是面向新闻、评论等文本类型。与已有研究不同的是,该文的研究主要面向问答文本的属性分类任务。针对问答文本的属性分类问题,该文提出了一种多维文本表示的方法。首先,该方法进行中文句子切分;其次,使用LSTM模型对每个子问题和答案学习一个隐层表示;再其次,通过融合多个隐层表示,形成多维文本表示;最后,使用卷积层处理多维文本表示,获得最终分类结果。实验结果表明该方法明显优于传统的属性分类方法。

基于宏观语义表示的宏观篇章关系识别方法 下载:42 浏览:375

周懿 褚晓敏 朱巧明 蒋峰 李培峰 《当代中文学刊》 2019年10期

摘要:
宏观篇章分析旨在分析相邻段落或段落群之间的语义联系,是自然语言处理领域其他任务的工作基础。该文研究了宏观篇章分析中的关系识别问题,提出了一个宏观篇章关系识别模型。该模型利用基于词向量的宏观篇章语义表示方法和适用于宏观篇章关系识别的结构特征,从两个层面提高了模型分辨宏观篇章关系的能力。在汉语宏观篇章树库(MCDTB)上的实验表明,该模型在大类分类中F1值达到了68.22%,比基准系统提升了4.17%。

基于边界识别与组合的裁判文书证据抽取方法研究 下载:30 浏览:345

杨健1 黄瑞章1 丁志远2 陈艳平1 秦永彬2 《当代中文学刊》 2020年6期

摘要:
裁判文书中的证据是法官量刑的基础。通过证据抽取可以对案件审判质量进行评估,从而支撑"智慧法院"建设。裁判文书中的证据大多数都比较长且存在嵌套现象,例如,"张X的身份证复印件"中的"身份证复印件",而传统的命名实体识别模型BiLSTM-CRF对较长实体和嵌套实体的识别性能较低。为了解决因裁判文书中的证据长度较长和嵌套现象而导致证据抽取性能较低的问题,该文提出了一种基于边界识别与组合的证据抽取模型。该模型首先使用BiLSTM-CRF模型识别证据的开始边界和结束边界;然后组合开始边界和结束边界,形成携带大量丰富细粒度边界信息的候选证据;最后使用基于三通道的多核CNN模型,融合细粒度的边界信息特征,对候选证据进行筛选,识别候选证据中正确的证据。实验结果表明,该文提出的模型能有效地抽取裁判文书中的证据。
在线客服::点击联系客服
联系电话::400-188-5008
客服邮箱::service@ccnpub.com
投诉举报::feedback@ccnpub.com
人工客服

工作时间(9:00-18:00)
官方公众号

科技成果·全球共享