请选择 目标期刊

会议场景下融合外部词典知识的领域个性化机器翻译方法 下载:43 浏览:329

刘庆峰1 刘晨璇1,2 王亚楠2 张为泰2 刘俊华2 《中文研究》 2019年6期

摘要:
会议场景下通过语音识别和机器翻译技术实现从演讲人语音到另外一种语言文字的翻译,对于跨语言信息交流具有重要意义,成为当前研究热点之一。该文针对由于会议行业属性带来的专业术语和行业用语的翻译问题,提出了一种融合外部词典知识的领域个性化方法。具体而言,首先采用联合占位符和拼接融合的编码策略,通过引入外部词典知识,在提升实体词、专业术语词翻译准确率的同时,兼顾翻译结果的流畅性。其次提出基于分类的领域旁支参数个性化自适应策略,在保持通用领域翻译效果的情况下实现会议相关领域翻译质量的提升。最后基于上述方案,设计了一套领域个性化自动训练系统。实验结果表明,在中英体育、商务和医学会议翻译任务上,该系统在不影响通用翻译的情况下,平均提升9.22个BLEU,获得较好翻译效果。

盾尾同步注浆引起周围土体侧向抬升现象分析 下载:76 浏览:472

黄浩滨1,2 潘泓1,2 骆冠勇1,2 曹洪1,2 黄晓城1,2 余良滨1,2 《中国土木工程》 2018年2期

摘要:
通过结合实际盾构隧道周围土体位移的现场监测数据,进一步验证了盾构掘进中盾尾同步注浆时周围土体存在侧向抬升现象,并进行了探讨和分析其成因及机理。结果表明,该现象不仅受盾尾注浆压力的影响,也受注浆量的影响。为了保障盾构工程的正常进行,该现象应当在工程实践中得到足够的重视并采用有效措施进行监测和预防。

融合图结构与节点关联的关键词提取方法 下载:20 浏览:200

马慧芳1,2 王双1 李苗1 李宁3 《中文研究》 2019年2期

摘要:
单篇文本的关键词提取可应用于网页检索、知识理解与文本分类等众多领域。该文提出一种融合图结构与节点关联的关键词提取方法,能够在脱离外部语料库的情况下发现单篇文本的关键词。首先,挖掘文本的频繁封闭项集并生成强关联规则集合;其次,取出强关联规则集合中的规则头与规则体作为节点,节点之间有边当且仅当彼此之间存在强关联规则时,边权重定义为关联规则的关联度,将强关联规则集合建模成关联图;再次,综合考虑节点的图结构属性、语义信息和彼此的关联性,设计一种新的随机游走算法计算节点的重要性分数;最后,为了避免抽取的词项之间有语义包含关系,对节点进行语义聚类并选取每个类的类中心作为关键词提取结果。通过设计关联图模型参数的选取、关键词的提取规模、不同算法对比3个实验,在具有代表性的中英文数据上证明了该方法能够有效提升关键词提取的效果。

基于联合标注和全局推理的篇章级事件抽取 下载:71 浏览:402

仲伟峰1 杨航1,2 陈玉博2 刘康2 赵军2 《中文研究》 2019年2期

摘要:
事件抽取可以帮助人们从海量的文本中快速、准确地获取感兴趣的事件知识。然而,目前事件抽取的研究主要集中在从单一句子中抽取事件,由于事件构成的复杂性和语言表述的多样性,多数情况下多句才能完整地描述一个事件。因此,从篇章中抽取出完整的结构化事件信息,显得更有价值和意义。该文首先利用基于注意力机制的序列标注模型联合抽取句子级事件的触发词和实体,与独立进行实体抽取和事件识别相比,联合标注的方法在F值上提升了1个百分点。然后利用多层感知机判断实体在事件中扮演的角色。最后,在句子级事件抽取的基础上,利用整数线性规划的方法进行全局推理,融合句子级事件信息,实现篇章级事件抽取,与基线模型相比,这种基于全局推理的篇章级事件抽取在F值上提升了3个百分点。

维吾尔语词缀变体搭配规则研究及算法实现 下载:28 浏览:412

艾孜麦提·艾尼瓦尔1,2,3 董军1,3 李晓1,3 《中文研究》 2018年12期

摘要:
该文介绍了维吾尔语词干结构特征、词缀结构特征及维吾尔语语音和谐律;以维吾尔语语音和谐律为基础,在充分考虑基本搭配规则和特殊规则的前提下,提出一种基于词干、词缀结构特征的维吾尔语词缀变体搭配算法;验证词干、词缀结构特征提取的正确性和完整性,并对500个名词词干和300个动词词干进行词缀变体搭配,分别生成9 000个名词和37 800个动词。借助维吾尔语文字校对系统和人工验证的方法,对生成的所有单词进行词缀变体搭配准确性验证;实验结果表明,名词和动词词干搭配词缀准确率分别为98.40%和96.49%,整体搭配准确率为96.86%;最后对搭配错误原因进行了分析。

基于协同表示学习的个性化新闻推荐 下载:27 浏览:355

梁仕威1,2 张晨蕊1,2 曹雷1 程军军3 许洪波1 程学旗1,2 《中文研究》 2018年11期

摘要:
新闻推荐是互联网推荐系统的研究热点之一,传统的协同过滤算法应用于新闻推荐中会面临严重的新闻冷启动问题,而且也没有考虑新闻内容本身包含的丰富的语义信息。该文将文档与词的表示学习模型与基于矩阵分解的协同过滤算法结合起来,提出一种用于推荐领域的协同表示学习模型,能同时学习带有语义信息的用户和文档的表示向量。在真实的新闻点击数据集上的实验表明,该文提出的模型优于其他基准模型。

基于相似消息的流行度预测方法 下载:56 浏览:404

高金华1,2 沈华伟1,2 程学旗1,2 刘悦1 《中文研究》 2018年11期

摘要:
社交网络中消息的流行度预测问题在很多应用领域都有着重要意义。传统的流行度预测方法包括基于特征的方法和基于点过程的方法。基于点过程的方法无法利用历史消息的信息,而基于特征的方法则使用一个统一的模型来对所有的消息进行预测,没有考虑消息的特异性。因此,该文提出了一种基于相似消息的流行度预测方法。对于待预测微博,我们从历史消息选取出与之最相似的前K条消息来进行预测。在计算消息相似度时,我们借助了文档建模领域的LDA模型来学习消息的表示。在数据集上的实验结果表明,该方法可以有效发现在传播模式上与待预测消息相似的历史消息,并在流行度预测任务上取得了比对比模型更好的预测效果。

地理社会网络数据可视化分析研究综述 下载:76 浏览:470

李恒1,2 沈华伟3,4 黄蔚2 程学旗3,4 《中文研究》 2018年10期

摘要:
随着移动互联网与社会网络的深度融合,基于位置服务(Location Based Service,LBS)的社交媒体应用更加流行,成为地理社会网络(Geo-Social Networks,GSN)的研究重点。基于位置信息的社会网络(Location Based Social Network,LBSN)由于具有时空特性,其海量数据可视化不同于传统信息可视化,必须结合其地理信息特征进行表达。该文以GSN中抽取出的海量时空数据为分析对象,从LBSN时空数据抽取、海量时空数据可视化等方面进行综述,对地理社会网络时空数据交互可视化分析技术开展研究,以期能够实现比较方便、快速、直接地从地理社会网络的海量数据中提取出有用、可靠、可知识化的综合信息,并通过信息可视化方式进行直观表达、展示与分析。

基于简单循环单元的深层神经网络机器翻译模型 下载:41 浏览:448

张文1,2 冯洋1,2 刘群1,3 《中文研究》 2018年9期

摘要:
基于注意力机制的神经网络机器翻译模型已经成为目前主流的翻译模型,在许多翻译方向上均超过了统计机器翻译模型,尤其是在训练语料规模比较大的情况下,优势更加明显。该模型使用编码器—解码器框架,将翻译任务建模成序列到序列的问题。然而,在基于门控循环单元(gated recurrent unit,GRU)的编码器—解码器模型中,随着模型层数的增加,梯度消失的问题使模型难以收敛并且严重退化,进而使翻译性能下降。该文使用了一种简单循环单元(simple recurrent unit,SRU)代替GRU单元,通过堆叠网络层数加深编码器和解码器的结构,提高了神经网络机器翻译模型的性能。我们在德语—英语和维语—汉语翻译任务上进行了实验,实验结果表明,在神经网络机器翻译模型中使用SRU单元,可以有效地解决梯度消失带来的模型难以训练的问题;通过加深模型能够显著地提升系统的翻译性能,同时保证训练速度基本不变。此外,我们还与基于残差连接(residual connections)的神经网络机器翻译模型进行了实验对比,实验结果表明,我们的模型有显著性优势。

藏文字同现网络的小世界效应和无标度特性 下载:19 浏览:201

才智杰1 孙茂松2 才让卓玛1 《中文研究》 2018年9期

摘要:
复杂网络具有自组织、自相似、吸引子、小世界、无标度中部分或全部性质,而语言文字作为人类智慧和文明的结晶,是经过漫长演化形成的复杂网络。该文对藏语诗歌、散文、政治、佛教、教材和口语等六类具有代表性的体裁语料,每类各取15篇共90篇文章构建了97个藏文字同现网络,分析了藏文字同现网络的最短路径长度、聚类系数和度分布,实验数据显示97个藏文字同现网络都具有小世界效应和无标度特性,表明藏文字同现网络都具有小世界效应和无标度特性。

基于多模型的新闻标题分类 下载:55 浏览:430

董孝政 宋睿 洪宇 朱芬红 朱巧明 《中文研究》 2018年8期

摘要:
该文研究中文新闻标题的领域分类方法(domain-oriented headline classification,DHC)。现有研究将DHC限定为一种短文本分类问题,并将传统分类模型和基于卷积神经网络的分类模型应用于这一问题的求解。然而,这类方法忽视了新闻标题的内在特点,即为"标题是建立在凝练全文且弱相关的词语之上的一种强迫性的语义表述"。目前,融合了序列化记忆的循环神经网络在语义理解方面取得了重要成果。借助这一特点,该文将长短时记忆网络模型(long-short term memory,LSTM)及其变型——门控循环单元(gated recurrent unit,GRU)也应用于标题的语义理解与领域分类,实验验证其性能可达81%的F1值。此外,该文对目前前沿的神经网络分类模型进行综合分析,尝试寻找各类模型在DHC任务上共有的优势和劣势。通过对比"全类型多元分类"与"单类型二元分类",发现在领域性特征较弱和领域歧义性较强的样本上,现有方法难以取得更为理想的结果(F1值<81%)。借助上述分析,该文旨在推动DHC研究在标题语言特性上投入更为充分的关注。

基于密度及文本特征的新闻标题抽取算法 下载:53 浏览:305

彭圳生1,2 巩青歌1 高志强1,2 段妍羽1 曾子贤1 《中文研究》 2018年8期

摘要:
为从大量的复杂非规范网页结构中自动抽取出新闻标题,该文提出一种基于密度和文本特征的新闻标题抽取算法(title extraction with density and text-features,TEDT)。主要通过融合网页文本密度分布和语言特征的语料判定模型,将网页划分为语料区和标题候选区,选取语料后通过TextRank算法计算对应的key-value权重集合,最后采用改进的相似度计算方法从标题候选区抽取新闻标题。该算法能有效划分语料和标题区域,降低网页噪声干扰,准确抽取出新闻标题。实验结果表明,TEDT的准确率和召回率均优于传统的基于规则和相似度的新闻标题抽取算法,证明了TEDT不仅对主流新闻网站有效,而且对复杂非规范网页也广泛适用。

基于多特征融合的谐音广告语生成模型 下载:67 浏览:418

徐琳宏1 林鸿飞2 祁瑞华1 杨亮2 《中文研究》 2018年7期

摘要:
广告语是广告传播中不可或缺的一部分,凝练着品牌的核心价值。该文以古代诗词为基础,通过多特征融合的方式,提出谐音广告语群的生成及评估模型。在生成模型中,首先利用语音模板,获取候选广告语群。同时分别通过语音、形状、语义和情境四个维度,计算广告语的九大特征,得到候选广告语群的特征矩阵。最后采用基于主成分分析和权重的双序评估算法,筛选出高分广告语群。实验结果表明,四个维度的特征细致地刻画了广告语,在生成的特征矩阵基础上,双序评估算法能够准确地评估广告语的质量,与人工评估结果基本接近,有一定的实用价值。

基于融合策略的机器翻译自动评价方法 下载:47 浏览:314

马青松1,2,3 张金超1,2,3 刘群1,4 《中文研究》 2018年6期

摘要:
机器翻译自动评价发展至今,各种自动评价方法不断涌现。不同的自动评价方法从不同的角度评价机器译文的质量。该文提出了基于融合策略的自动评价方法,该方法可以融合多个自动评价方法,多角度地综合评价机器译文质量。该文主要在以下几个方面探索进行:(1)对比分别使用相对排序(RR)和直接评估(DA)两种人工评价方法指导训练融合自动评价方法,实验表明使用可靠性高的DA形成的融合自动评价方法(Blend)性能更好;(2)对比Blend分别使用支持向量机(SVM)和全连接神经网络(FFNN)机器学习算法,实验表明在当前数据集上,使用SVM效果更好;(3)进而在SVM基础上,探索使用不同的评价方法对Blend的影响,为Blend寻找在性能和效率上的平衡;(4)把Blend推广应用到其他语言对上,说明它的稳定性及通用性。在WMT16评测数据上的实验,以及参加WMT17评测的结果均表明,Blend与人工评价的一致性达到领先水平。

基于多编码器多解码器的大规模维汉神经网络机器翻译模型 下载:50 浏览:357

张金超1,2,3 艾山·吾买尔4 买合木提·买买提4 刘群1,5 《中文研究》 2018年6期

摘要:
为提升维汉机器翻译模型的翻译能力,该文提出使用多编码器多解码器的结构,搭建大规模的维汉神经网络机器翻译模型。相比于单编码器单解码器的浅层的小模型,多编码器多解码器模型具有多个编码器,可以对源语言进行多层次、多视角的压缩表示;同时具有多个解码器,可以增强目标语言的生成能力。实验证明,在大规模的训练数据上,使用该方法搭建的大规模维汉神经网络机器翻译模型,译文质量可以大幅度地超过基于短语的统计机器翻译模型和基本的神经网络翻译模型。该文还针对维汉翻译源端语言和目标端语言的翻译单元粒度进行了实验,发现维吾尔语端使用字节对编码单元、汉语端使用字单元,可以消除对汉语分词器的依赖,做到和双端都使用字节对编码单元可比的效果。

利用准私密社交网络文本数据检测抑郁用户的可行性分析 下载:21 浏览:340

刘德喜1,2 邱家洪1,2 万常选1,2 刘喜平1,2 钟敏娟1,2 郭海峰3 邓松4 《中文研究》 2018年5期

摘要:
社交媒体的发展为抑郁用户的检测提供了一条新的途径。已有的相关研究通常是利用用户在Twitter、微博等社交网络平台上的用户行为数据或公开发表的文本内容,较少有利用微信朋友圈、QQ空间这种相对比较私密的社交网络数据。直观地,这类准私密社交网络数据更能反映用户的心理健康状况。该文主要讨论利用准私密社交网络文本数据检测抑郁用户的可行性,包括训练样本的选择、特征量化方法、检测模型选择和不同文本特征下的模型分类效果等。实验表明,采用平衡高低分组的方法选择样本比非平衡高低分组样本和离散化的高低分组样本训练的分类器要好;利用Z-score标准化的特征量化方法比直接使用频次或归一化频率要好;随机梯度下降模型SGD较支持向量机SVM等其他用于对比的分类模型要好。实验还发现,相对于词袋、词向量等文本特征,主题特征有较好的效果,可以使社交网络用户抑郁检测模型的F值达到0.753,而对抑郁用户的检测精度达到0.813。

基于叙词表的领域知识图谱初始种子集自动生成算法 下载:42 浏览:259

韩其琛 赵亚伟 姚郑 付立军 《中文研究》 2018年4期

摘要:
随着认知计算的飞速发展,通用知识图谱的自动构建取得了极大的进步,但在垂直领域由于缺乏本体等语义信息,导致进展缓慢。叙词表广泛分布于各个专业领域且蕴藏着丰富的语义信息,如能对这些语义信息进行合理的提取和利用,必然能在一定程度上帮助领域知识图谱的自动构建。该文提出两个假设,利用假设可以从叙词表内部结构中提取实体类型和关系类型,进而设计了一种基于叙词表的领域知识图谱初始种子集自动生成算法。最后,以地质领域和林业领域的叙词表作为实验对象,采用Bootstrapping算法,利用由叙词表自动生成的初始种子集进行抽取工作,通过对抽取到的结果进行分析,结果表明利用叙词表得到的初始种子集可以取得同人工设计种子比较接近的效果。此外,所提模型具有通用性,为叙词表在构建领域知识图谱中的应用提供了一种新的思路。

中文嵌套命名实体识别语料库的构建 下载:66 浏览:359

李雁群1,2 何云琪1,2 钱龙华1,2 周国栋1,2 《中文研究》 2018年3期

摘要:
嵌套命名实体含有丰富的实体和实体间语义关系,有助于提高信息抽取的效率。由于缺少统一的标准中文嵌套命名实体语料库,目前中文嵌套命名实体的研究工作难于比较。该文在已有命名实体语料的基础上采用半自动化方法构建了两个中文嵌套命名实体语料库。首先利用已有中文命名实体语料库中的标注信息自动地构造出尽可能多的嵌套命名实体,然后再进行手工调整以满足对中文嵌套实体的标注要求,从而构建高质量的中文嵌套命名实体识别语料库。语料内和跨语料嵌套实体识别的初步实验表明,中文嵌套命名实体识别仍是一个比较困难的问题,需要进一步研究。

神经机器翻译中数据泛化与短语生成方法研究 下载:43 浏览:391

李强1 韩雅倩1 肖桐1,2 朱靖波1,2 《中文研究》 2018年3期

摘要:
该文对神经机器翻译中的数据泛化方法和短语生成方法进行研究。在使用基于子词的方法来缓解未登录词和稀疏词汇问题的基础上,提出使用数据泛化的方法来进一步优化未登录词和稀疏词汇的翻译,缓解了子词方法中出现的错译问题。文中对基于子词的方法和基于数据泛化的方法进行了详细的实验对比,对两种方法的优缺点进行了讨论和说明。针对数据泛化的处理方法,提出了一致性检测方法和解码优化方法。由于标准的神经机器翻译模型以词汇为基础进行翻译建模,因此该文提出了一种规模可控的短语生成方法,通过使用该文方法生成的源语言短语,神经机器翻译的翻译性能进一步提高。最终,在汉英和英汉翻译任务上,翻译性能与基线翻译系统相比分别提高了1.3和1.2个BLEU值。

面向复杂有权网络的社区发现方法研究 下载:58 浏览:308

谭红叶1 吴永科1 张虎1 刘全明1 李茹1,2 《中文研究》 2018年1期

摘要:
复杂网络中节点之间的连接强度会在很大程度上影响网络的社区结构,利用权重来刻画连接强度的差异性,并将其应用到社区发现研究中具有重要的意义。针对目前有权网络的社区发现方法存在的不足,该文结合节点的直接连边权重和基于共同邻居节点的连边权重,提出了一种改进的节点相关度度量准则。进一步基于这种改进的节点相关度度量准则和团体之间的聚集方法,构建了面向有权网络的社区发现模型。分别在有权值的科学家合作网络和全国列车网络数据集上进行了社区发现实验,结果表明了方法的有效性。
在线客服::点击联系客服
联系电话::400-188-5008
客服邮箱::service@ccnpub.com
投诉举报::feedback@ccnpub.com
人工客服

工作时间(9:00-18:00)
官方公众号

科技成果·全球共享