请选择 目标期刊

城市偏向对农产品流通业的影响分析 下载:58 浏览:287

梁静 《中国经济》 2020年9期

摘要:
本文结合收入分配、财政支农、投资三组数据,分析了我国城市偏向政策导向的客观存在性,从四个方面解释了城市偏向对农产品流通产业发展的影响机理,并在此基础上构建回归模型进行实证检验。结果显示,城市偏向政策导向总体上抑制了我国农产品流通产业的发展,同时,这种政策导向也能够借城乡收入分配和工业化等渠道,间接地对农产品流通业发展产生抑制性的传导效应。最后,文章提出了一系列的政策性建议。

基于神经网络的藏文正字检错法 下载:32 浏览:276

色差甲1 慈祯嘉措1 才让加1,2 华果才让1 《中文研究》 2020年9期

摘要:
在缺乏标注数据的条件下,该文将藏文正字检错任务视为一个分类问题:首先从语言学知识中构建音节混淆子集并给每个原句加噪,然后建立深层双向表征的BERT作为分类模型,最后为了证明该方法的有效性,构建两个基线模型和三种不同领域的测试集,实验结果表明,该方法的结果优于两个基线模型。该文方法在相同领域测试集上句子分类的正确率达到93.74%,不同领域测试集上也能达到83.6%。对错误音节的识别率为74.53%,同时对无错误音节的误判率只有2.30%。

基于迭代式回译策略的藏汉机器翻译方法研究 下载:52 浏览:246

慈祯嘉措1,2 桑杰端珠1,2 孙茂松3 周毛先1,2 色差甲1,2 《中文研究》 2020年6期

摘要:
该文通过稀缺语言资源条件下机器翻译方法的研究以提高藏汉机器翻译质量,同时希望对语言资源匮乏的其他少数民族语言机器翻译研究提供借鉴。首先该文使用164.1万句对藏汉平行语言资源数据在Transformer神经网络翻译模型上训练一个基线系统,作为起始数据资源,然后结合翻译等效性分类器,利用迭代式回译策略和译文自动筛选机制,实现了稀缺资源条件下提升藏汉神经网络机器翻译性能的有效模型,使最终的模型比基准模型在藏到汉的翻译上有6.7个BLEU值的提升,在汉到藏的翻译上有9.8个BLEU值的提升,证实了迭代式回译策略和平行句对过滤机制在汉藏(藏汉)机器翻译中的有效性。

融合图片主题信息的图片描述翻译 下载:41 浏览:387

唐建 洪宇 刘梦眙 姚亮 姚建民 《中文研究》 2019年12期

摘要:
图片描述翻译是给定图片及图片在某一语言的描述,利用翻译技术为图片生成目标语言描述的任务。观察发现,不同图片表达的场景往往不同,对应的图片描述具有明显的主题差异性。因此,利用主题信息能够提升翻译效果。然而,图片描述的内容通常较短,无法有效反映其主题。针对该问题,该文提出了一种融合图片主题信息的图片描述翻译方法。对于任意的图片描述对,该方法首先借助相似图片检索技术从维基百科图片库中检索与源图片相似的目标图片,进而利用包含目标图片的文档学习源图片的主题表示。最终,利用训练集中所有图片描述对的主题表示重新学习并获取适应主题的翻译模型。实验结果表明,借助相似图片获取信息量更为丰富的描述文本,并利用文本的主题信息强化翻译模型的方法,能够提高现有统计机器翻译系统的性能,在WMT16测试集上进行的评测显示,翻译质量的BLEU值提升了0.74个百分点。

基于平行语料和翻译概率的多语种词对齐方法 下载:65 浏览:206

杨飞扬 赵亚慧 崔荣一 易志伟 《中文研究》 2019年12期

摘要:
为了实现多语种词对齐,该文提出一种以点互信息为基础的翻译概率作为改进的多语种单词关联强度度量方法。首先,论证了在服从Zipf定律的普通频级词区域,单词间关联强度的点互信息度量法可简化为翻译概率;其次,对汉语、英语、朝鲜语平行语料进行句子对齐、分词和去停用词等预处理后计算平行语料单词之间的翻译概率,取翻译概率最高的前k个词作为候选翻译词,并通过优化处理提高了词对齐准确率。实验结果表明,该方法可以不完全依赖语料规模,在小规模语料中取得94%以上的准确率,为跨语言小众文献及低资源语言词对齐提供了技术基础。

基于联合注意力机制的篇章级机器翻译 下载:30 浏览:310

李京谕1,2 冯洋1,2 《中文研究》 2019年11期

摘要:
近年来,神经机器翻译(neural machine translation, NMT)表现出极大的优越性,然而如何在翻译一个文档时考虑篇章上下文信息仍然是一个值得探讨的问题。传统的注意力机制对源端的所有词语进行计算,而在翻译当前句子时篇章中大量的信息中只有小部分是与之相关的。在篇章级机器翻译中,采用传统的注意力机制建模篇章信息存在着信息冗余的问题。该文提出了一种联合注意力机制,结合"硬关注"和"软关注"的机制对篇章上下文的信息进行建模。关键思想是通过"硬关注"筛选出与翻译当前句子相关的源端历史词语,然后采用"软关注"的方法进一步抽取翻译中所需的上下文信息。实验表明,相比于基线系统,该方法能使翻译性能获得明显提升。

中文字粒度切分在蒙汉机器翻译的应用 下载:27 浏览:336

苏依拉 高芬仁 庆道尔吉 《中文研究》 2019年11期

摘要:
在机器翻译任务中,主流的深度学习算法大多使用词或子词作为基础的语义单元,在词或子词层面学习嵌入表征。然而,词粒度层面存在一系列缺点。该文基于LSTM和Transformer蒙汉翻译模型,对蒙文进行子词粒度切分,对中文分别进行子词和字粒度切分对比实验。实验结果显示,相比于子词粒度切分,基于Transformer的蒙汉翻译模型和基于LSTM的蒙汉翻译模型的字粒度切分有极大的BLEU值提升,字级别的蒙汉翻译模型在验证集和测试集上都显著优于混合字和词的子词级别的蒙汉翻译模型。其表明,字级别的蒙汉翻译模型更能捕捉单元之间的语义联系,提高蒙汉翻译性能。

融合单语语言模型的藏汉机器翻译方法研究 下载:60 浏览:252

慈祯嘉措1,2 桑杰端珠1,2 孙茂松3 色差甲1,2 周毛先1,2 《中文研究》 2019年11期

摘要:
由于藏汉平行语料匮乏,导致藏汉神经网络机器翻译效果欠佳,该文提出了一种将藏语单语语言模型融合到藏汉神经网络机器翻译的方法,首先利用神经网络实现藏语单语语言模型,然后使用Transformer实现藏汉神经网络机器翻译模型,最后将藏语单语语言模型融合到藏汉神经网络机器翻译中。实验表明,该方法能显著提升藏汉神经网络机器翻译质量。基线系统藏语到汉语的BLEU值为21.1,汉语到藏语的BLEU值为18.6,融合藏语单语语言模型后,藏语到汉语的BLEU值为24.5,汉语到藏语的BLEU值为23.3,比原有基线系统的BLEU值分别提高了3.4和4.7。

融入分类词典的汉越混合网络神经机器翻译集外词处理方法 下载:63 浏览:442

车万金1,2 余正涛1,2 郭军军1,2 文永华1,2 于志强1,2 《中文研究》 2019年11期

摘要:
在神经机器翻译中,因词表受限导致的集外词问题很大程度上影响了翻译系统的准确性。对于训练语料较少的资源稀缺型语言的神经机器翻译,这种问题表现得更为严重。近几年,受到外部知识融入的启发,该文在RNNSearch模型基础上,提出了一种融入分类词典的汉越混合网络神经机器翻译集外词处理方法。对于给定的源语言句子,扫描分类词典以确定候选短语句对并标签标记,解码端利用词级组件和短语组件的混合解码网络,很好地生成单词集外词和短语集外词的翻译,从而改善汉越神经机器翻译的性能。在汉越、英越和蒙汉翻译实验上表明,该方法显著提高了准确率,对于资源稀缺型语言的神经机器翻译性能有一定的提升。

基于循环卷积神经网络的藏文句类识别 下载:27 浏览:258

柔特1,2 才让加1,2 《中文研究》 2019年11期

摘要:
句子是语言的最小使用单位,句类识别是为了进一步细化句法和句义研究。由于藏文句尾通常没有特殊的标点符号来识别不同句类,因此这一藏文语言特性就变成了一大难题。该文提出了基于语境和功能特征为一体的句子用途分类方案。首先,该文介绍了文法中藏文句子分类及其特征。其次,收集了大量藏文句子并对其进行了人工标注。最后,采用循环卷积神经网络对藏文句类进行了自动识别。实验表明,该模型对藏文句类识别有较为显著的效果。

神经网络机器翻译研究热点与前沿趋势分析 下载:22 浏览:229

林倩 刘庆 苏劲松 林欢 杨静 罗斌 《中文研究》 2019年9期

摘要:
机器翻译是指利用计算机将一种语言文本转换成具有相同语义的另一种语言文本的过程。它是人工智能领域的一项重要研究课题。近年来,随着深度学习研究和应用的快速发展,神经网络机器翻译成为机器翻译领域的重要发展方向。该文首先简要介绍近一年神经网络机器翻译在学术界和产业界的影响,然后对当前的神经网络机器翻译的研究进展进行分类综述,最后对后续的发展趋势进行展望。

基于多源信息融合的分布式词表示学习 下载:25 浏览:438

冶忠林1,2,3,4 赵海兴1,2,3,4 张科1,3,4 朱宇1,3,4 《中文研究》 2019年6期

摘要:
分布式词表示学习旨在用神经网络框架训练得到低维、压缩、稠密的词语表示向量。然而,这类基于神经网络的词表示模型有以下不足:(1)罕见词由于缺乏充分上下文训练数据,训练所得的罕见词向量表示不能充分地反映其在语料中的语义信息;(2)中心词语的反义词出现于上下文时,会使意义完全相反的词却赋予更近的空间向量表示;(3)互为同义词的词语均未出现于对方的上下文中,致使该类同义词学习得到的表示在向量空间中距离较远。基于以上三点,该文提出了一种基于多源信息融合的分布式词表示学习算法(MSWE),主要做了4个方面的改进:(1)通过显式地构建词语的上下文特征矩阵,保留了罕见词及其上下文词语在语言训练模型中的共现信息可以较准确地反映出词语结构所投影出的结构语义关联;(2)通过词语的描述或解释文本,构建词语的属性语义特征矩阵,可有效地弥补因为上下文结构特征稀疏而导致的训练不充分;(3)通过使用同义词与反义词信息,构建了词语的同义词与反义词特征矩阵,使得同义词在词向量空间中具有较近的空间距离,而反义词则在词向量空间中具有较远的空间距离;(4)通过诱导矩阵补全算法融合多源特征矩阵,训练得到词语低维度的表示向量。实验结果表明,该文提出的MSWE算法能够有效地从多源词语特征矩阵中学习到有效的特征因子,在6个词语相似度评测数据集上表现出了优异的性能。

会议场景下融合外部词典知识的领域个性化机器翻译方法 下载:43 浏览:329

刘庆峰1 刘晨璇1,2 王亚楠2 张为泰2 刘俊华2 《中文研究》 2019年6期

摘要:
会议场景下通过语音识别和机器翻译技术实现从演讲人语音到另外一种语言文字的翻译,对于跨语言信息交流具有重要意义,成为当前研究热点之一。该文针对由于会议行业属性带来的专业术语和行业用语的翻译问题,提出了一种融合外部词典知识的领域个性化方法。具体而言,首先采用联合占位符和拼接融合的编码策略,通过引入外部词典知识,在提升实体词、专业术语词翻译准确率的同时,兼顾翻译结果的流畅性。其次提出基于分类的领域旁支参数个性化自适应策略,在保持通用领域翻译效果的情况下实现会议相关领域翻译质量的提升。最后基于上述方案,设计了一套领域个性化自动训练系统。实验结果表明,在中英体育、商务和医学会议翻译任务上,该系统在不影响通用翻译的情况下,平均提升9.22个BLEU,获得较好翻译效果。

Transformer-CRF词切分方法在蒙汉机器翻译中的应用 下载:18 浏览:173

苏依拉 张振仁 庆道尔吉 牛向华 高芬 赵亚平 《中文研究》 2019年6期

摘要:
基于编码—解码(端到端)结构的机器翻译逐渐成为自然语言处理之机器翻译的主流方法,其翻译质量较高且流畅度较好,但依然存在词汇受限、上下文语义信息丢失严重等问题。该文首先进行语料预处理,给出一种Transformer-CRF算法来进行蒙古语词素和汉语分词的预处理方法。然后构建了基于Tensor2Tensor的编码—解码模型,为了从蒙古语语料中学习更多的语法和语义知识,该文给出了一种基于词素四元组编码的词向量作为编码器输入,解码阶段。为了进一步缓解神经网络训练时出现的词汇受限问题,该文将专有名词词典引入翻译模型来进一步提高翻译质量和译文忠实度。根据构建模型对不同长度句子进行实验对比,表明模型在处理长时依赖问题上翻译性能得到提高。

基于简单循环单元的深层神经网络机器翻译模型 下载:41 浏览:446

张文1,2 冯洋1,2 刘群1,3 《中文研究》 2018年9期

摘要:
基于注意力机制的神经网络机器翻译模型已经成为目前主流的翻译模型,在许多翻译方向上均超过了统计机器翻译模型,尤其是在训练语料规模比较大的情况下,优势更加明显。该模型使用编码器—解码器框架,将翻译任务建模成序列到序列的问题。然而,在基于门控循环单元(gated recurrent unit,GRU)的编码器—解码器模型中,随着模型层数的增加,梯度消失的问题使模型难以收敛并且严重退化,进而使翻译性能下降。该文使用了一种简单循环单元(simple recurrent unit,SRU)代替GRU单元,通过堆叠网络层数加深编码器和解码器的结构,提高了神经网络机器翻译模型的性能。我们在德语—英语和维语—汉语翻译任务上进行了实验,实验结果表明,在神经网络机器翻译模型中使用SRU单元,可以有效地解决梯度消失带来的模型难以训练的问题;通过加深模型能够显著地提升系统的翻译性能,同时保证训练速度基本不变。此外,我们还与基于残差连接(residual connections)的神经网络机器翻译模型进行了实验对比,实验结果表明,我们的模型有显著性优势。

基于双语短语约束的交互式机器翻译方法 下载:20 浏览:407

徐萍 叶娜 吴闯 张桂平 《中文研究》 2018年6期

摘要:
交互式机器翻译(Interactive Machine Translation,IMT)是一种通过机器翻译系统与译员之间的相互作用指导计算机解码并改善输出译文质量的技术。目前主流的IMT方法使用译员确定的前缀作为唯一约束指导解码,交互方式受限,交互效率低。该文从交互方式和解码算法两个方面对IMT方法进行改进。在交互方式方面,允许译员译前从短语译项列表中为源语言短语选择正确译项。该文还提出了基于短语表的多样性排序算法,来提高短语候选译项的多样性,并根据译员的翻译认知过程设计交互界面,改善译员在翻译过程中的用户体验。在解码算法方面,将双语短语与前缀一同作为约束参与指导解码过程,提高翻译假设评价和过滤的准确性。在LDC汉英平行语料上进行了人工评测,实验结果表明该方法较传统的IMT方法能够减轻译员的认知负担,减少翻译时间,提升翻译效率。

基于融合策略的机器翻译自动评价方法 下载:47 浏览:311

马青松1,2,3 张金超1,2,3 刘群1,4 《中文研究》 2018年6期

摘要:
机器翻译自动评价发展至今,各种自动评价方法不断涌现。不同的自动评价方法从不同的角度评价机器译文的质量。该文提出了基于融合策略的自动评价方法,该方法可以融合多个自动评价方法,多角度地综合评价机器译文质量。该文主要在以下几个方面探索进行:(1)对比分别使用相对排序(RR)和直接评估(DA)两种人工评价方法指导训练融合自动评价方法,实验表明使用可靠性高的DA形成的融合自动评价方法(Blend)性能更好;(2)对比Blend分别使用支持向量机(SVM)和全连接神经网络(FFNN)机器学习算法,实验表明在当前数据集上,使用SVM效果更好;(3)进而在SVM基础上,探索使用不同的评价方法对Blend的影响,为Blend寻找在性能和效率上的平衡;(4)把Blend推广应用到其他语言对上,说明它的稳定性及通用性。在WMT16评测数据上的实验,以及参加WMT17评测的结果均表明,Blend与人工评价的一致性达到领先水平。

基于多编码器多解码器的大规模维汉神经网络机器翻译模型 下载:50 浏览:353

张金超1,2,3 艾山·吾买尔4 买合木提·买买提4 刘群1,5 《中文研究》 2018年6期

摘要:
为提升维汉机器翻译模型的翻译能力,该文提出使用多编码器多解码器的结构,搭建大规模的维汉神经网络机器翻译模型。相比于单编码器单解码器的浅层的小模型,多编码器多解码器模型具有多个编码器,可以对源语言进行多层次、多视角的压缩表示;同时具有多个解码器,可以增强目标语言的生成能力。实验证明,在大规模的训练数据上,使用该方法搭建的大规模维汉神经网络机器翻译模型,译文质量可以大幅度地超过基于短语的统计机器翻译模型和基本的神经网络翻译模型。该文还针对维汉翻译源端语言和目标端语言的翻译单元粒度进行了实验,发现维吾尔语端使用字节对编码单元、汉语端使用字单元,可以消除对汉语分词器的依赖,做到和双端都使用字节对编码单元可比的效果。

作者的意图与文本的生成——以马君武对密尔《论自由》的翻译为个案的讨论 下载:31 浏览:264

李宏图 《历史教学研究》 2020年6期

摘要:
859年,英国思想家约翰·密尔出版了《论自由》一书。此书出版后获得了极大的成功,得到了广泛的传播。1903年,在距离欧洲遥远的中国也出版了《论自由》的中文版,由著名思想家和教育家马君武翻译出版。那么,当密尔的"论自由"在翻译成为中文,即在跨文化的迁变过程中,不同文化空间所形成的思想表达是否能够为另外一种文化空间人们所理解?本文即以马君武对密尔《论自由》的翻译为个案展开考察,试图揭示,在中国,马君武在对文本翻译过程中,由于翻译者的主观意图的原因,带来了很多"误读"。而正是这种"误读"创造出了一个新的文本。

神经机器翻译中数据泛化与短语生成方法研究 下载:43 浏览:389

李强1 韩雅倩1 肖桐1,2 朱靖波1,2 《中文研究》 2018年3期

摘要:
该文对神经机器翻译中的数据泛化方法和短语生成方法进行研究。在使用基于子词的方法来缓解未登录词和稀疏词汇问题的基础上,提出使用数据泛化的方法来进一步优化未登录词和稀疏词汇的翻译,缓解了子词方法中出现的错译问题。文中对基于子词的方法和基于数据泛化的方法进行了详细的实验对比,对两种方法的优缺点进行了讨论和说明。针对数据泛化的处理方法,提出了一致性检测方法和解码优化方法。由于标准的神经机器翻译模型以词汇为基础进行翻译建模,因此该文提出了一种规模可控的短语生成方法,通过使用该文方法生成的源语言短语,神经机器翻译的翻译性能进一步提高。最终,在汉英和英汉翻译任务上,翻译性能与基线翻译系统相比分别提高了1.3和1.2个BLEU值。
[1/11]
在线客服::点击联系客服
联系电话::400-188-5008
客服邮箱::service@ccnpub.com
投诉举报::feedback@ccnpub.com
人工客服

工作时间(9:00-18:00)
官方公众号

科技成果·全球共享