请选择 目标期刊

一种新的朝鲜语词性标注方法 下载:45 浏览:378

金国哲 崔荣一 《中文研究》 2018年9期

摘要:
朝鲜语词性标注是朝鲜语信息处理的基础,其结果直接影响后续朝鲜语自然语言处理的效果。首先为了解决朝鲜语词性标注中遇到的形态素实际写法与原形不一致的问题,该文提出了一种在seq2seq模型的基础上融合朝鲜语字母信息的朝鲜语形态素原形恢复方法;其次,在恢复形态素原形的基础上,利用LSTM-CRF模型完成朝鲜语分写及词性标注。实验结果表明,该文提出的方法词性标注F1值为94.75%,优于其他方法。

N-Reader:基于双层Self-attention的机器阅读理解模型 下载:17 浏览:399

梁小波 任飞亮 刘永康 潘凌峰 侯依宁 张熠 李妍 《中文研究》 2018年7期

摘要:
机器阅读理解是自然语言处理和人工智能领域的重要前沿课题,近年来受到学术界和工业界的广泛关注。为了提升机器阅读理解系统在多文档中文数据集上的处理能力,我们提出了N-Reader,一个基于神经网络的端到端机器阅读理解模型。该模型的主要特点是采用双层self-attention机制对单个文档以及所有输入文档进行编码。通过这样的编码,不仅可以获取单篇文档中的关键信息,还可以利用多篇文档中的相似性信息。另外,我们还提出了一种多相关段落补全算法来对输入文档进行数据预处理。这种补全算法可以帮助模型识别出具有相关语义的段落,进而预测出更好的答案序列。使用N-Reader模型,我们参加了由中国中文信息学会、中国计算机学会和百度公司联手举办的"2018机器阅读理解技术竞赛",取得了第3名的成绩。

基于TDNN-FSMN的蒙古语语音识别技术研究 下载:38 浏览:367

王勇 和飞龙 高光来 《中文研究》 2018年6期

摘要:
为了提高蒙古语语音识别性能,该文首先将时延神经网络融合前馈型序列记忆网络应用于蒙古语语音识别任务中,通过对长序列语音帧建模来充分挖掘上下文相关信息;此外研究了前馈型序列记忆网络"记忆"模块中历史信息和未来信息长度对模型的影响;最后分析了融合的网络结构中隐藏层个数及隐藏层节点数对声学模型性能的影响。实验结果表明,时延神经网络融合前馈型序列记忆网络相比深度神经网络、时延神经网络和前馈型序列记忆网络具有更好的性能,单词错误率与基线深度神经网络模型相比降低22.2%。

基于多策略的乌孜别克语名词词干识别研究 下载:56 浏览:369

艾孜海尔江1,2 祖力克尔江1,2 艾孜尔古丽1 玉素甫·艾白都拉1 《中文研究》 2018年6期

摘要:
乌孜别克语名词词干识别是自然语言处理领域的基础研究,主要方法是从句子中提取名词词干,提高名词标注效率和准确性。该文首先陈述形态分析、形态特征对识别其词性的作用,然后讨论乌孜别克语的词类划分标准、名词的形态特征,乌孜别克语西尔里文转换拉丁文,乌孜别克语词汇翻译、标注技术,总结词缀歧义及消解规则。该文提出利用形态规则、词典、最大熵融合策略,设计现代乌孜别克语新词中名词词干识别算法,其中包括特征选择及参数估计、词内部特征、前后依存词特征等。最后以乌孜别克语网站文本作为验证对象,对名词词干进行统计与分析。

基于文体和词表的突发事件信息抽取研究 下载:39 浏览:407

邱奇志 周三三 刘长发 陈晖 《中文研究》 2018年5期

摘要:
非结构化数据的结构化任务是大数据环境下管理信息系统面临的新课题。该文从文体的角度研究自由文本的特性,提出了从Web新闻中抽取突发事件属性的方法,该方法首先分析研究了Web文本和新闻文体的特征,利用Google Word2Vec对领域专家构建的词表进行扩展,针对突发事件的不同属性制定了不同的抽取方法:采用词表实现事件分类,采用文体特征进行时间、事件摘要的抽取,采用文体和词表进行地点、伤亡情况和经济损失属性的抽取。实验表明,采用基于文体和词表方法在爬取的Web新闻语料库和公开语料库进行突发事件的属性进行抽取时,平均准确率分别为87.89%、91.29%,平均召回率分别为81.76%、87.91%,能满足应急管理需求。

一种基于局部—全局主题关系的演化式摘要系统 下载:53 浏览:287

吴仁守 刘凯 王红玲 《中文研究》 2018年5期

摘要:
带有时间标志的演化式摘要是近年来提出的自然语言处理任务,其本质是多文档自动文摘,它的研究对象是互联网上连续报道的热点新闻文档。针对互联网新闻事件报道的动态演化、动态关联和信息重复等特点,该文提出了一种基于局部—全局主题关系的演化式摘要方法,该方法将新闻事件划分为多个不同的子主题,在考虑时间演化的基础上同时考虑子主题之间的主题演化,最后将新闻标题作为摘要输出。实验结果表明,该方法是有效的,并且在以新闻标题作为输入输出时,和当前主流的多文档摘要和演化摘要方法相比,在Rouge评价指标上有显著提高。

跨数据源论文集成 下载:44 浏览:348

张帆进 顾晓韬 姚沛然 唐杰 《中文研究》 2018年5期

摘要:
该文研究跨数据源的论文集成问题,旨在将不同数据源中的同一论文匹配起来。该文提出了两个算法来解决论文匹配的问题,第一个算法(MHash)利用哈希算法来加速匹配,第二个算法(MCNN)利用卷积神经网络(CNN)来提高匹配的准确率。实验表明,结合论文的各种属性,MHash能够在快速得到匹配结果的同时,保持较高的准确率(93%+),而MCNN能够达到非常高的准确率(98%+)。同时,设计了一个针对大规模论文匹配的异步搜索框架,在15天内得到了64 639 608对AMiner(1)和MAG(2)论文的匹配结果。论文匹配结果和AMiner、MAG的全部论文数据已作为公开数据集发布(3)。

基于词注意力卷积神经网络模型的情感分析研究 下载:33 浏览:513

王盛玉1 曾碧卿1,2 商齐1 韩旭丽1 《中文研究》 2018年4期

摘要:
情感分类任务需要捕获文本中的情感特征,利用重要的局部特征构建文本的特征表示。卷积神经网络(convolutional neural networks,CNN)已经被证明拥有出色的特征学习能力,但是该模型无法判别输入文本中特征词与情感的相关性,卷积层缺乏对单一词特征的提取。基于目前运用非常成功的注意力模型,该文提出一种基于词注意力的卷积神经网络模型(word attention-based convolutional neural networks,WACNN)。相比于卷积神经网络,该模型以篇章的文本信息作为输入,首先在词嵌入层之后增加注意力机制层,获取重要的局部特征词,使模型有选择地进行特征提取;然后在卷积层中增加大小为1的卷积核,提取单一词的特征;最后该方法对输入文本进行适当的文本填充,保证每个词都存在上下文信息,使模型有效提取到每个词的n-grams局部特征,避免卷积处理过程中局部信息的丢失。该模型在MR5K和CR数据集上进行验证,较普通卷积神经网络和传统机器学习方法,在准确率上分别取得0.5%和2%的提升。

异质信息网络中基于元路径的社团发现算法研究 下载:58 浏览:406

郑玉艳1 王明省2 石川1 王锐1 《中文研究》 2018年4期

摘要:
实际的网络化数据往往包含多种类型的对象和关系,采用异质信息网络可以更好地对其建模,因此异质信息网络分析逐渐成为数据挖掘的研究热点。虽然同质信息网络中的社团发现已经被深入研究,但是异质信息网络中的社团发现还很少被研究。该文研究异质信息网络中的社团发现问题,提出了一个新的社团发现算法框架HCD(heterogeneous community detection)。该框架由两部分组成:基于单条元路径的社团发现算法HCDsgl和融合多条元路径的社团发现算法HCDall。HCDsgl首先确定在给定元路径下所有节点的初始标签,再利用改进的标签传递算法进行最终的社团发现;HCDall是在HCDsgl的基础上将基于多条元路径的社团发现结果进行融合。通过在真实数据集和人工数据集上的实验验证了HCD算法的有效性。

中文嵌套命名实体识别语料库的构建 下载:66 浏览:375

李雁群1,2 何云琪1,2 钱龙华1,2 周国栋1,2 《中文研究》 2018年3期

摘要:
嵌套命名实体含有丰富的实体和实体间语义关系,有助于提高信息抽取的效率。由于缺少统一的标准中文嵌套命名实体语料库,目前中文嵌套命名实体的研究工作难于比较。该文在已有命名实体语料的基础上采用半自动化方法构建了两个中文嵌套命名实体语料库。首先利用已有中文命名实体语料库中的标注信息自动地构造出尽可能多的嵌套命名实体,然后再进行手工调整以满足对中文嵌套实体的标注要求,从而构建高质量的中文嵌套命名实体识别语料库。语料内和跨语料嵌套实体识别的初步实验表明,中文嵌套命名实体识别仍是一个比较困难的问题,需要进一步研究。

大规模中文实体情感知识的自动获取 下载:52 浏览:413

卢奇1,2 陈文亮1,2 《中文研究》 2018年3期

摘要:
目前中文情感分析的主要资源以情感词典为主,缺乏针对实体或属性的情感知识资源。该文主要研究如何从大规模文本语料中自动获取实体情感知识。在该文方法中,用情感表达组合来表示实体情感知识。首先,基于二部图排序算法对情感表达组合候选集合进行排序。然后,提出了一种基于语义相似的提炼算法对于排序靠后的表达组合进行选择。在提炼选择过程中,充分考虑实体之间和情感词之间的约束。最后,该文在三种大规模不同领域的语料上进行实验,并进行人工评价。评价结果表明,从三个领域数据集上获取的实体情感表达组合正确率均高于90%。最终我们获得了一个大规模情感知识词典,包括约30万对的情感表达组合。

训练语料的不同利用方式对神经机器翻译模型的影响 下载:74 浏览:354

邝少辉 熊德意 《中文研究》 2018年3期

摘要:
神经机器翻译(NMT)是近两年刚出现的一种新型机器翻译方法,是一种端到端的翻译模型。目前,影响NMT模型效果的因素有很多,其一,当训练语料规模较大时,梯度下降更新方法会对机器的内存要求很高,因此大多研究工作中采用随机梯度下降(SGD)的方法来更新模型的训练参数,即每输入一定数量(批:batch)的训练样例,就利用局部的训练样例更新一次模型参数;其二,参数dropout可以防止系统训练时出现过拟合,提高系统泛化能力;其三,数据打乱(shuffle)也对翻译结果有着重要影响。因此,该文的研究内容主要是探索批、dropout和打乱这三个因素在训练神经机器翻译模型中对模型翻译质量的影响,并得出以下三条结论:一是批的大小将影响神经机器翻译(NMT)模型的收敛速度,二是dropout可以提升神经机器翻译模型的性能,三是数据打乱可以在一定程度上提升神经机器翻译(NMT)系统的翻译质量。

类比社交网络的进程故障检测方法研究 下载:71 浏览:397

程自强1 黄荣2 杨洋1 《中文研究》 2018年1期

摘要:
我们周围充满了各种网络;按照相似的内在机理,可以将它们分为物理网络和信息网络。对于具有明显物理特征的网络,我们可以运用物理常识解释其内部结构或节点的性质;而对于信息网络,我们往往需要结合一些先验知识去理解,社交网络正是这样一个例子。然而,对于那些并非具有显著物理或社交背景的网络,以往并没有明确的分析思路和方法。该文将尝试运用类似于分析社交网络的方法去分析电信CSB业务系统服务器集群上的进程网络;具体地预测进程网络中节点的崩溃(故障)状态。在这个特定的进程网络上,这种建模和分析思路得到了较为可信的结果;研究表明,进程节点的运行信息(如CPU和内存使用率)、进程间的通信情况以及进程节点在整个网络中的结构特征对于判断该节点的状态具有一定的指导价值,而上述特征在时间维度上的变化量同样反映了进程/端口的状态。

面向复杂有权网络的社区发现方法研究 下载:58 浏览:319

谭红叶1 吴永科1 张虎1 刘全明1 李茹1,2 《中文研究》 2018年1期

摘要:
复杂网络中节点之间的连接强度会在很大程度上影响网络的社区结构,利用权重来刻画连接强度的差异性,并将其应用到社区发现研究中具有重要的意义。针对目前有权网络的社区发现方法存在的不足,该文结合节点的直接连边权重和基于共同邻居节点的连边权重,提出了一种改进的节点相关度度量准则。进一步基于这种改进的节点相关度度量准则和团体之间的聚集方法,构建了面向有权网络的社区发现模型。分别在有权值的科学家合作网络和全国列车网络数据集上进行了社区发现实验,结果表明了方法的有效性。

传播源估计中有效观察点部署策略研究 下载:82 浏览:487

刘栋1,2 赵婧1 聂豪1 《中文研究》 2018年1期

摘要:
谣言或疾病的扩散均可模拟为传播源在网络中的传播,如何在网络中估计传播源位置是一项具有挑战性的任务。该任务往往根据部分观察点推断传播源的位置,故如何有效的选择观察点对准确定位传播源位置至关重要。该文分析了随机、度、聚类系数、特征向量、紧密度以及介数等观察点部署策略对传染源估计的影响。在实验中,采用SI传播模型和反向贪心算法估计传播源在三类合成网络和四个真实网络进行模拟仿真,实验结果表明采用特征向量的观察点部署策略更有利于提高传播源估计的精度。

基于太赫兹时域光谱技术的面粉品质快速无损检测研究 下载:86 浏览:511

刘翠玲 徐莹莹 孙晓荣 邢瑞芯 《中国食品与营养》 2019年2期

摘要:
太赫兹(THz)波能够穿透大多数干的介电材料(塑料、陶瓷、衣物等),可实现对带包装物品的质量检测。为了研究THz光谱技术对带包装面粉的无损检测,首先对不带包装面粉进行太赫兹时域谱可行性分析及建模研究。对101份不同种类的面粉样本,用Tera Pulse 4000的太赫兹脉冲光谱仪采集了其太赫兹时域谱,对光谱预处理后,用偏最小二乘法(PLS)算法建立了面粉中3个指标水分、灰分、面筋的定量分析模型。各模型的预测相关系数都在0.89以上,研究结果表明,通过太赫兹时域光谱技术对面粉品质进行无损、快速检测具有可行性,对下一步太赫兹光谱技术直接对带包装的面粉进行检测研究奠定了坚实的基础。

基于补全信息的篇章级神经机器翻译 下载:39 浏览:369

张培1 张旭2 熊德意1 《当代中文学刊》 2020年12期

摘要:
对于句子级别的神经机器翻译,由于不考虑句子所处的上下文信息,往往存在句子语义表示不完整的问题。该文通过依存句法分析,对篇章中的每句话提取有效信息,再将提取出的信息,补全到源端句子中,使得句子的语义表示更加完整。该文在汉语-英语语言对上进行了实验,并针对篇章语料稀少的问题,提出了在大规模句子级别的平行语料上的训练方法。相比于基准系统,该文提出的方法获得了1.47个BLEU值的提高。实验表明,基于补全信息的篇章级神经机器翻译,可以有效地解决句子级别神经机器翻译语义表示不完整的问题。

从视觉到文本:图像描述生成的研究进展综述 下载:30 浏览:342

魏忠钰1 范智昊1 王瑞泽2 承怡菁1 赵王榕1 黄萱菁3 《当代中文学刊》 2020年12期

摘要:
近年来,跨模态研究吸引了越来越多学者的关注,尤其是连接视觉和语言的相关课题。该文针对跨视觉和语言模态研究中的核心任务——图像描述生成,进行文献综述。该文从基于视觉的文本生成框架、基于视觉的文本生成研究中的关键问题、图像描述生成模型的性能评价和图像描述生成模型的主要发展过程四个方面对相关文献进行介绍和总结。最后,该文给出了几个未来的重点研究方向,包括跨视觉和语言模态的特征对齐、自动化评价指标的设计以及多样化图像描述生成。

融合实体描述及类型的知识图谱表示学习方法 下载:37 浏览:367

杜文倩 李弼 程王瑞 《当代中文学刊》 2020年12期

摘要:
知识图谱在很多人工智能领域发挥着越来越重要的作用。知识图谱表示学习旨在将三元组中的实体和关系映射到低维稠密的向量空间。TransE、TransH和TransR等基于翻译操作的表示学习方法,只考虑了知识图谱的三元组信息孤立的学习表示,未能有效利用实体描述、实体类型等重要信息,从而不能很好地处理一对多、多对多等复杂关系。针对这些问题,该文提出了一种融合实体描述及类型的知识图谱表示学习方法。首先,利用Doc2Vec模型得到全部实体描述信息的嵌入;其次,对实体的层次类型信息进行表示,得到类型的映射矩阵,结合Trans模型的三元组嵌入,得到实体类型信息的表示;最后,对三元组嵌入、实体描述嵌入及实体类型嵌入进行连接操作,得到最终实体嵌入的表示,通过优化损失函数训练模型,在真实数据集上分别通过链接预测和三元组分类两个评测任务进行效果评估,实验结果表明新方法优于TransE、TransR、DKRL、SimplE等主流模型。

基于补全信息的篇章级神经机器翻译 下载:40 浏览:349

张培1 张旭2 熊德意1 2020年12期

摘要:
对于句子级别的神经机器翻译,由于不考虑句子所处的上下文信息,往往存在句子语义表示不完整的问题。该文通过依存句法分析,对篇章中的每句话提取有效信息,再将提取出的信息,补全到源端句子中,使得句子的语义表示更加完整。该文在汉语-英语语言对上进行了实验,并针对篇章语料稀少的问题,提出了在大规模句子级别的平行语料上的训练方法。相比于基准系统,该文提出的方法获得了1.47个BLEU值的提高。实验表明,基于补全信息的篇章级神经机器翻译,可以有效地解决句子级别神经机器翻译语义表示不完整的问题。
在线客服::点击联系客服
联系电话::400-188-5008
客服邮箱::service@ccnpub.com
投诉举报::feedback@ccnpub.com
人工客服

工作时间(9:00-18:00)
官方公众号

科技成果·全球共享