请选择 目标期刊

基于融合策略的机器翻译自动评价方法 下载:47 浏览:312

马青松1,2,3 张金超1,2,3 刘群1,4 《中文研究》 2018年6期

摘要:
机器翻译自动评价发展至今,各种自动评价方法不断涌现。不同的自动评价方法从不同的角度评价机器译文的质量。该文提出了基于融合策略的自动评价方法,该方法可以融合多个自动评价方法,多角度地综合评价机器译文质量。该文主要在以下几个方面探索进行:(1)对比分别使用相对排序(RR)和直接评估(DA)两种人工评价方法指导训练融合自动评价方法,实验表明使用可靠性高的DA形成的融合自动评价方法(Blend)性能更好;(2)对比Blend分别使用支持向量机(SVM)和全连接神经网络(FFNN)机器学习算法,实验表明在当前数据集上,使用SVM效果更好;(3)进而在SVM基础上,探索使用不同的评价方法对Blend的影响,为Blend寻找在性能和效率上的平衡;(4)把Blend推广应用到其他语言对上,说明它的稳定性及通用性。在WMT16评测数据上的实验,以及参加WMT17评测的结果均表明,Blend与人工评价的一致性达到领先水平。

基于多编码器多解码器的大规模维汉神经网络机器翻译模型 下载:50 浏览:354

张金超1,2,3 艾山·吾买尔4 买合木提·买买提4 刘群1,5 《中文研究》 2018年6期

摘要:
为提升维汉机器翻译模型的翻译能力,该文提出使用多编码器多解码器的结构,搭建大规模的维汉神经网络机器翻译模型。相比于单编码器单解码器的浅层的小模型,多编码器多解码器模型具有多个编码器,可以对源语言进行多层次、多视角的压缩表示;同时具有多个解码器,可以增强目标语言的生成能力。实验证明,在大规模的训练数据上,使用该方法搭建的大规模维汉神经网络机器翻译模型,译文质量可以大幅度地超过基于短语的统计机器翻译模型和基本的神经网络翻译模型。该文还针对维汉翻译源端语言和目标端语言的翻译单元粒度进行了实验,发现维吾尔语端使用字节对编码单元、汉语端使用字单元,可以消除对汉语分词器的依赖,做到和双端都使用字节对编码单元可比的效果。

面向复杂有权网络的社区发现方法研究 下载:58 浏览:308

谭红叶1 吴永科1 张虎1 刘全明1 李茹1,2 《中文研究》 2018年1期

摘要:
复杂网络中节点之间的连接强度会在很大程度上影响网络的社区结构,利用权重来刻画连接强度的差异性,并将其应用到社区发现研究中具有重要的意义。针对目前有权网络的社区发现方法存在的不足,该文结合节点的直接连边权重和基于共同邻居节点的连边权重,提出了一种改进的节点相关度度量准则。进一步基于这种改进的节点相关度度量准则和团体之间的聚集方法,构建了面向有权网络的社区发现模型。分别在有权值的科学家合作网络和全国列车网络数据集上进行了社区发现实验,结果表明了方法的有效性。

面向多类型问题的阅读理解方法研究 下载:40 浏览:368

谭红叶1 屈保兴2 《当代中文学刊》 2020年10期

摘要:
机器阅读理解是基于给定文本,自动回答与文本内容相关的问题。针对此任务,学术界与工业界提出多个数据集与模型,促使阅读理解取得了一定的进步,但提出的模型大多只是针对某一类问题,不能满足现实世界问题多样性的需求。因此,该文针对阅读理解中问题类型多样性的解答展开研究,提出一种基于Bert的多任务阅读理解模型,利用注意力机制获得丰富的问题与篇章的表示,并对问题进行分类,然后将分类结果用于任务解答,实现问题的多样性解答。该文在中文公共阅读理解数据集CAIL2019-CJRC上对所提模型进行了实验,结果表明,系统取得了比所有基线模型都要好的效果。

阅读理解中观点类问题的扩展研究 下载:47 浏览:337

张兆滨1 王素格1 陈鑫2 赵琳玲1 王典1 《当代中文学刊》 2020年9期

摘要:
在高考语文阅读理解中,观点类问题中的观点表达较为抽象,为了从阅读材料中获取与问题相关的答案信息,需要对问题中的抽象词语进行扩展,达到扩展观点类问题的目的。该文提出了基于多任务层级长短时记忆网络(Multi-HLSTM)的问题扩展建模方法。首先将阅读材料与问题进行交互注意,同时建模问题预测和答案预测两个任务,使模型对问题进一步扩展。最后将扩展后的问题与原问题同时应用于问题的答案候选句抽取中。通过在高考语文观点类的真题、模拟题以及DuReader的描述观点类数据集上进行实验,验证了本文的问题扩展模型对答案候选句的抽取性能具有一定的提升作用。

一种基于TCLSTM的藏文词拼写检查方法 下载:39 浏览:296

华旦扎西1 才智杰2 班玛宝3 《当代中文学刊》 2020年8期

摘要:
拼写检查能够快速检测文本错误,提高文本校对效率,在语料库建设、文本编辑、语音和文字识别等诸多方面具有广阔的应用前景。该文在分析藏文拼写检查技术和语言模型的基础上,以藏文词拼写检查为目标,选用具有长远距离记忆功能的LSTM建立TCLSTM语言模型,设计基于TCLSTM的藏文词拼写检查算法。经测试,基于TCLSTM语言模型的藏文词拼写检查取得了较好的效果。

基于描述约束的词表示学习 下载:78 浏览:491

冶忠林1,2,3 赵海兴1,4,2,3 张科4,2,3 朱宇4,2,3 《当代中文学刊》 2019年12期

摘要:
词语作为语言模型中的基本语义单元,在整个语义空间中与其上下文词语具有很强的关联性。同样,在语言模型中,通过上下文词可判断出当前词的含义。词表示学习是通过一类浅层的神经网络模型将词语和上下文词之间的关联关系映射到低维度的向量空间中。然而,现有的词表示学习方法往往仅考虑了词语与上下文词之间的结构关联,词语本身所蕴含的内在语义信息却被忽略。因此,该文提出了DEWE词表示学习算法,该算法可在词表示学习的过程中不仅考量词语与上下文之间的结构关联,同时也将词语本身的语义信息融入词表示学习模型,使得训练得到的词表示既有结构共性也有语义共性。实验结果表明,DEWE算法是一种切实可行的词表示学习方法,相较于该文使用的对比算法,DEWE在6类相似度评测数据集上具有优异的词表示学习性能。

基于语义分类和描述框架的网络攻击知识抽取研究及其应用 下载:48 浏览:341

方芳1,2 王亚1 王石1 符建辉1 曹存根1 《当代中文学刊》 2019年12期

摘要:
随着计算机技术的迅猛发展,自然语言处理成为计算机科学领域与人工智能领域中的一个重要方向,且文本知识获取(knowledge acquisition from text,KAT)是人工智能的重要研究内容。当前对于文本研究,大多采用关键字以及机器学习方法,准确率并不高。该文提出了一种基于语义文法的中文网络攻击事件知识获取方法。首先介绍参考FrameNet构建的语义分类和描述框架,它在现代汉语基本句模分类的基础上进行了扩充和改进。其次,重点介绍了攻击文本中最常见的遭受类语义类的设计和形成过程。然后将语义分类和描述框架应用在"网络安全"领域,形成"网络攻击语义类",并介绍在建立"网络攻击语义类"时遇到的难题,包括文法的设计中对事元的确定、复合句的处理、"的是"结构句型的分析设计、谓词设计等。最后,使用国家某安全部门提供的真实数据进行网络攻击知识抽取,实验表明该方法具有较高的准确率。

基于答案及其上下文信息的问题生成模型 下载:30 浏览:301

谭红叶1 孙秀琴2 闫真1 《当代中文学刊》 2020年7期

摘要:
基于文本的问题生成是从给定的句子或段落中生成相关问题。目前,主要采用序列到序列的神经网络模型来研究包含答案的句子生成问题,然而这些方法存在以下问题:①生成的疑问词与答案类型不匹配;②问题与答案的相关性不强。该文提出一个基于答案及其上下文信息的问题生成模型。该模型首先根据答案与上下文信息的关系确定与答案类型匹配的疑问词;然后利用答案及其上下文信息确定问题相关词,使问题尽可能使用原文中的词;最后结合原句作为输入来生成问题。相关实验表明,该文提出的模型性能明显优于基线系统。

注意力的端到端模型生成藏文律诗 下载:47 浏览:419

色差甲1,2 华果才让1,2 让加1,2 慈祯嘉措1,2 柔特1,2 《当代中文学刊》 2019年12期

摘要:
文本自动撰写在自然语言处理中是一个重要的研究领域,可通过人工智能的方法来提升文本的生成结果。目前主流的生成方法是基于深度学习的方法,而该文则提出了一种基于注意力的端到端模型生成藏文律诗法。该方法基本框架是一个双向LSTM的编码—解码模型,在此基础上引入了藏文字嵌入、注意力机制和多任务学习法。实验结果表明,该文提出的方法在藏文律诗生成结果中BLEU值和ROUGE值分别能达到59.27%、62.34%,并无需任何人为的特征设置。

基于等价压缩快速聚类的Web表格知识抽取 下载:42 浏览:355

吴小龙1,2 曹存根1 《当代中文学刊》 2019年11期

摘要:
Web表格知识抽取是一种重要的获取高质量知识的途径,在知识图谱、网页挖掘等方面具有广泛的研究意义与应用价值。传统的Web表格知识抽取方法主要依赖于良好的表格结构和足够的先验知识,但在复杂的表格结构以及先验知识不足等情形下难以奏效。针对这类方法的问题,该文通过充分利用表格自身的结构特点,提出了一套可面向大规模数据的基于等价压缩快速聚类的Web表格知识抽取方法,以无监督的聚类方式获得相似形式结构的表格,从而推测其语义结构以抽取知识。实验结果表明,基于等价压缩的快速聚类算法在保持同水平的聚类准确率的前提下,在时间性能上相比传统方法有大幅度的提升,5 000个表格的聚类时间由72小时缩短为20分钟,且在表格聚类后利用表格模板所抽取的知识三元组的准确率也达到了令人满意的结果。

基于卷积神经网络与篇章结构的足球新闻自动生成方法 下载:43 浏览:261

刘茂福1,2 齐乔松1,2 胡慧君1,2 《当代中文学刊》 2019年11期

摘要:
当前的足球比赛新闻通常是由专家或记者手工撰写的,足球比赛新闻的手工写作既费时又低效。随着在线直播平台与社交媒体的流行,体育网络直播脚本大幅增加,但网络直播脚本通常只记载一场比赛的流水,具有冗长且重点模糊的特性,不适宜于赛后直接阅读。为了解决以上问题,在比赛之后,可以基于直播脚本撰写和发布足球比赛新闻。因此,该文提出一种从网络直播脚本直接生成足球比赛新闻的方法。该方法基于卷积神经网络和足球新闻篇章结构,从足球比赛过程中的多个时间段提取出已发生的重要事件,进而抽取相关句子来生成足球新闻,同时,该方法还会针对比赛评价生成一个简短总结。实验结果表明,使用该方法从网络直播脚本生成足球新闻是可行的。

基于QU-NNs的阅读理解描述类问题的解答 下载:49 浏览:399

谭红叶1,2 刘蓓1 王元龙1 《当代中文学刊》 2019年7期

摘要:
机器阅读理解是自然语言处理(NLP)领域的一个研究热点,目前大部分的研究是针对答案简短的问题,而具有长答案的问题,如描述类问题是现实世界无法避免的,因此有必要对该类问题进行研究。该文采用QU-NNs模型对阅读理解中描述类问题的解答进行了探索,其框架为嵌入层、编码层、交互层、预测层和答案后处理层。由于该类问题语义概括程度高,所以对问题的理解尤为重要,该文在模型的嵌入层和交互层中分别融入了问题类型和问题主题、问题焦点这三种问题特征,其中问题类型通过卷积神经网络进行识别,问题主题和问题焦点通过句法分析获得,同时采用启发式方法对答案中的噪音和冗余信息进行了识别。在相关数据集上对QU-NNs(Question UnderstandingNeural Networks)模型进行了实验,实验表明加入问题特征和删除无关信息可使结果提高2%~10%。

基于词性约束的藏文分词策略与算法 下载:28 浏览:329

才让卓玛1 才智杰2 《当代中文学刊》 2020年5期

摘要:
自动分词作为自然语言处理基础性的研究课题,一直被学术界所关注,随着藏语自然语言处理技术研究的不断深入,藏文分词也面临越来越多的挑战。该文通过分析藏文自动分词研究现状,提出基于词性约束的藏文分词策略与算法。相对于传统方法,该方法不仅能有效地预防和处理各类歧义现象,而且在藏文未登录词处理方面有较好表现。

ResNet结合BiGRU的关系抽取混合模型 下载:34 浏览:315

唐朝1 诺明花1 胡岩2 《当代中文学刊》 2020年4期

摘要:
关系抽取主要目的是将非结构化或半结构化描述的自然语言文本转化成结构化数据,其主要负责从文本中识别出实体,抽取实体间的语义关系。就关系抽取任务而言,当前流行的网络结构是仅使用CNN作为编码器,经过多层卷积操作后,对池化的结果进行softmax分类。还有部分工作则使用RNN并结合Attention机制对最后的结果做分类。这些网络结构在远程监督带噪声的关系抽取任务中表现并不理想。该文主要根据ResNet残差块的特性,提出了一种混合模型,它有效融合,ResNet和BiGRU,将带有残差特性的CNN和双向RNN结合起来,最后融入注意力机制来完成基于远程监督的关系抽取任务。实验验证了该混合模型在远程监督的噪声过滤方面的有效性。在NYT-Freebase数据集上,P@N值相比使用单一ResNet提高了2.9%。另外,该文所建混合模型可以很轻易地移植应用到其他NLP任务中。

基于PCFG的藏文疑问句句法分析 下载:43 浏览:363

班玛宝1,2,3 才智杰1,2,3 拉玛扎西1,2,3 《当代中文学刊》 2019年5期

摘要:
藏文疑问句的句法分析在藏文问答系统、搜索引擎、信息的抽取和检索等领域有着广泛的应用前景。该文通过分析藏文疑问句的构成特点,对藏文疑问句进行了分类,归纳了各类藏文疑问句的结构特征,进而利用PCFG对藏文疑问句进行了句法分析。经测试,在封闭测试集上的准确率、召回率和F1值分别达97.6%、97.3%和97.4%,在开放测试集上的准确率、召回率和F1值分别达96.0%、95.4%和95.7%。

基于神经网络的藏语语音合成 下载:71 浏览:418

都格草才让卓玛 南措吉算太本 《当代中文学刊》 2019年5期

摘要:
语音合成是人机交互的核心技术之一,也是中文信息处理领域的一项前沿技术。随着神经网络理论的不断深入,基于神经网络的语音合成技术越来越引起人们的关注。该文通过分析藏文字结构与藏语拼读规则,融合Sequence to Sequence模型和注意力机制,研究了基于神经网络的藏语语音合成技术。实验数据表明,该文方法在藏语语音合成上具有良好的性能表现。

基于语言特征自动获取的反问句识别方法 下载:35 浏览:324

李旸1 吴卓嘉1 王素格1 梁吉业2 《当代中文学刊》 2020年3期

摘要:
反问句是以疑问的形式表达强烈情感的修辞方式,对其有效识别可为自然语言处理中的情感分析任务提供技术支持。该文提出了一种基于语言特征自动获取的反问句识别方法。首先,利用标签注意机制,建立了一个数据驱动的特征抽取模型,用于获取与任务相关的词汇、句法结构、符号标记和话题等语言特征。其次,利用Bi-LSTM模型分别对句子和语言特征进行表示,两者的交互注意被用于获取句子的各个词和符号的注意力权重向量。该权重向量作用于句子的表示,用于构建一个强化语言特征的反问句识别模型。在中文微博数据集上的实验结果表明,提出的方法与之前的工作相比,反问句识别性能有显著提升。

融合反问特征的卷积神经网络的中文反问句识别 下载:23 浏览:359

文治1 李旸1 王素格1,2 廖健1 陈鑫1 《当代中文学刊》 2019年2期

摘要:
反问是一种带有强烈情感色彩的表达方式,对其进行自动识别将提升隐式情感分析的整体效率。针对汉语反问句识别问题,该文分析了反问句的句式特点,将反问句的句式结构融入到卷积神级网络的构建中,提出一种融合句式结构的卷积神经网络的反问句识别方法。首先利用置信度大于70%的反问句的特征词、序列模式,对大规模未被标注的微博语料进行初步筛选,获取大量伪反问句。然后通过多个卷积核分别对句子的词向量和反问句的特征进行抽取,获取句子语义特征和反问词特征,将两者共同作用生成句子的表示。最后利用softmax分类器实现句子的分类。实验结果表明,利用该方法对微博中反问句的识别准确率、召回率和F1值分别达到了89.5%、84.2%和86.7%。

基于汉维映射关系构建维吾尔语依存树库 下载:53 浏览:283

吐尔洪·吾司曼1,2,3 杨雅婷1,2,3 王磊1,2,3 周喜1,2,3 程力1,2,3 《当代中文学刊》 2019年1期

摘要:
该文提出一种基于汉语依存句法信息来构建维维吾尔语依存句法树库的方法。首先对维吾尔语进行形态分析,之后进行汉维词对齐、中文依存分析,然后根据词对齐信息以及汉语依存信息得到维吾尔语依存信息,最终对结果进行优化,获得维吾尔语依存句法库。在此基础上训练得到的依存句法分析器在CoNLL 2017Shared Task测试集上进行实验,带标记依存正确率LAS(Labeled Attachment Score)和无标记依存正确率UAS(Unlabeled Attachment Score)分别为34.38%和52.53%。
在线客服::点击联系客服
联系电话::400-188-5008
客服邮箱::service@ccnpub.com
投诉举报::feedback@ccnpub.com
人工客服

工作时间(9:00-18:00)
官方公众号

科技成果·全球共享