请选择 目标期刊

基于成分共享的英汉小句对齐语料库标注体系研究 下载:30 浏览:329

葛诗利1 宋柔2 《当代中文学刊》 2020年11期

摘要:
英汉小句对齐语料库服务于英语和汉语小句的语法结构对应关系研究和应用,对于语言理论和语言翻译(包括人的翻译和机器翻译)有重要意义。前人的语法理论和相关语料库的工作对于小句复合体和小句的界定缺乏充分研究,在理论上有缺陷,难以支持自然语言处理的应用。该文首先为英汉小句对齐语料库的建设做理论准备。从近年提出的汉语小句复合体的理论出发,该文界定了成分共享的概念,基于话头共享和引语共享来界定英语的小句和小句复合体,使小句和小句复合体具有功能的完整性和单一性。在此基础上,该文设计了英汉小句对齐的标注体系,包括英语NT小句标注和汉语译文生成及组合。语料库的标注表明,在小句复合体层面上英汉翻译涉及到的结构变换,其部件可以限制为英语小句和话头、话体,无须涉及话头和话体内部的结构。基于这些工作的英汉小句对齐语料库为语言本体研究和英汉语言对比、英汉机器翻译等应用提供了结构化的标注样本。

基于数据扩充的翻译记忆库与神经机器翻译融合方法 下载:39 浏览:308

曹骞 熊德意 《当代中文学刊》 2020年8期

摘要:
神经机器翻译是目前机器翻译领域的主流方法,而翻译记忆是一种帮助专业翻译人员避免重复翻译的工具,其保留之前完成的翻译句对并存储在翻译记忆库中,进而在之后的翻译过程中通过检索去重用这些翻译。该文基于数据扩充提出两种将翻译记忆与神经机器翻译相结合的方法:(1)直接拼接翻译记忆在源语句后面;(2)通过标签向量拼接翻译记忆。该文在中英与英德数据集上进行了实验,实验表明,该方法可以使翻译性能获得显著提升。

一种基于TCLSTM的藏文词拼写检查方法 下载:39 浏览:296

华旦扎西1 才智杰2 班玛宝3 《当代中文学刊》 2020年8期

摘要:
拼写检查能够快速检测文本错误,提高文本校对效率,在语料库建设、文本编辑、语音和文字识别等诸多方面具有广阔的应用前景。该文在分析藏文拼写检查技术和语言模型的基础上,以藏文词拼写检查为目标,选用具有长远距离记忆功能的LSTM建立TCLSTM语言模型,设计基于TCLSTM的藏文词拼写检查算法。经测试,基于TCLSTM语言模型的藏文词拼写检查取得了较好的效果。

基于描述约束的词表示学习 下载:78 浏览:491

冶忠林1,2,3 赵海兴1,4,2,3 张科4,2,3 朱宇4,2,3 《当代中文学刊》 2019年12期

摘要:
词语作为语言模型中的基本语义单元,在整个语义空间中与其上下文词语具有很强的关联性。同样,在语言模型中,通过上下文词可判断出当前词的含义。词表示学习是通过一类浅层的神经网络模型将词语和上下文词之间的关联关系映射到低维度的向量空间中。然而,现有的词表示学习方法往往仅考虑了词语与上下文词之间的结构关联,词语本身所蕴含的内在语义信息却被忽略。因此,该文提出了DEWE词表示学习算法,该算法可在词表示学习的过程中不仅考量词语与上下文之间的结构关联,同时也将词语本身的语义信息融入词表示学习模型,使得训练得到的词表示既有结构共性也有语义共性。实验结果表明,DEWE算法是一种切实可行的词表示学习方法,相较于该文使用的对比算法,DEWE在6类相似度评测数据集上具有优异的词表示学习性能。

注意力的端到端模型生成藏文律诗 下载:47 浏览:419

色差甲1,2 华果才让1,2 让加1,2 慈祯嘉措1,2 柔特1,2 《当代中文学刊》 2019年12期

摘要:
文本自动撰写在自然语言处理中是一个重要的研究领域,可通过人工智能的方法来提升文本的生成结果。目前主流的生成方法是基于深度学习的方法,而该文则提出了一种基于注意力的端到端模型生成藏文律诗法。该方法基本框架是一个双向LSTM的编码—解码模型,在此基础上引入了藏文字嵌入、注意力机制和多任务学习法。实验结果表明,该文提出的方法在藏文律诗生成结果中BLEU值和ROUGE值分别能达到59.27%、62.34%,并无需任何人为的特征设置。

融合覆盖机制的多模态神经机器翻译 下载:34 浏览:307

李志峰 张家硕 洪宇 尉桢楷 姚建民 《当代中文学刊》 2020年6期

摘要:
多模态神经机器翻译是指直接采用神经网络,以端到端方式融合图像和文本两种模态信息,以此进行翻译建模的机器学习方法。传统多模态机器翻译,是在将源语言翻译成目标语言时,借助图像中的重要特征信息优化翻译过程。但是观察发现,图像里的信息不一定出现在文本中,对翻译也会带来干扰;与参考译文对比,翻译结果中出现了过翻译和欠翻译的情况。针对以上问题,该文提出一种融合覆盖机制双注意力解码方法,用于优化现有多模态神经机器翻译模型。该模型借助覆盖机制分别作用于源语言和源图像,在注意力计算过程中,可以减少对过去重复信息的关注。在WMT16、WMT17测试集上进行实验,验证了上述方法的有效性,在WMT16英德和英法以及WMT17英德和英法测试集上,对比基准系统BLEU值分别提升了1.2,0.8,0.7和0.6个百分点。

面向神经机器翻译的集成学习方法分析 下载:44 浏览:451

李北1 王强1 肖桐1 姜雨帆1 张哲旸1 刘继强1 张俐1 于清2 《当代中文学刊》 2019年9期

摘要:
集成学习是一种联合多个学习器进行协同决策的机器学习方法,应用在机器翻译任务的推断过程中可以有效整合多个模型预测的概率分布,达到提升翻译系统准确性的目的。虽然该方法的有效性已在机器翻译评测中得到了广泛验证,但关于子模型的选择与融合的策略仍鲜有研究。该文主要针对机器翻译任务中的参数平均与模型融合两种集成学习方法进行大量的实验,分别从模型与数据层面、多样性与模型数量层面对集成学习的策略进行了深入探索。实验结果表明在WMT中英新闻任务上,所提模型相比Transformer单模型有3.19个BLEU值的提升。

神经机器翻译中英语单词及其大小写联合预测模型 下载:42 浏览:357

张楠1 李响2,3 靳晓宁1 陈伟4 《当代中文学刊》 2019年9期

摘要:
英文中单词有大小写之分,如果使用不规范,会降低语句的可读性,甚至造成语义上的根本变化。当前的机器翻译处理流程一般先翻译生成小写的英文译文,再采用独立的大小写恢复工具进行还原,这种方式步骤繁琐且没有考虑上下文信息。另一种方式是抽取包含大小写的词表,但这种方式扩大了词表,增加了模型参数。该文提出了一种在神经机器翻译训练中联合预测英语单词及其大小写属性的方法,在同一个解码器输出层分别预测单词及其大小写属性,预测大小写时充分考虑源端语料和目标端语料上下文信息。该方法不仅减小了词表的大小和模型参数,译文的质量也得到提升。在WMT 2017汉英新闻翻译任务测试集上,相比基线方法,该方法在大小写敏感和大小写不敏感两个评价指标上分别提高0.97BLEU和1.01BLEU,改善了神经机器翻译模型的性能。

基于单语语料和词向量对齐的蒙汉神经机器翻译研究 下载:40 浏览:340

曹宜超1 高翊2 李淼3 冯韬1 王儒敬2 付莎3 《当代中文学刊》 2020年5期

摘要:
近年来,随着人工智能和深度学习的发展,神经机器翻译在某些高资源语言对上取得了接近人类水平的效果。然而对于低资源语言对如汉语和蒙古语,神经机器翻译的效果并不尽如人意。为了提高蒙汉神经机器翻译的性能,该文基于编码器—解码器神经机器翻译架构,提出一种改善蒙汉神经机器翻译结果的方法。首先将蒙古语和汉语的词向量空间进行对齐并用它来初始化模型的词嵌入层,然后应用联合训练的方式同时训练蒙古语到汉语的翻译和汉语到蒙古语的翻译。并且在翻译的过程中,最后使用蒙古语和汉语的单语语料对模型进行去噪自编码的训练,增强编码器的编码能力和解码器的解码能力。实验结果表明该文所提出方法的效果明显高于基线模型,证明该方法可以提高蒙汉神经机器翻译的性能。

基于词性约束的藏文分词策略与算法 下载:28 浏览:327

才让卓玛1 才智杰2 《当代中文学刊》 2020年5期

摘要:
自动分词作为自然语言处理基础性的研究课题,一直被学术界所关注,随着藏语自然语言处理技术研究的不断深入,藏文分词也面临越来越多的挑战。该文通过分析藏文自动分词研究现状,提出基于词性约束的藏文分词策略与算法。相对于传统方法,该方法不仅能有效地预防和处理各类歧义现象,而且在藏文未登录词处理方面有较好表现。

基于枢轴语言的图像描述生成研究 下载:47 浏览:427

张凯 李军辉 周国栋 《当代中文学刊》 2019年7期

摘要:
当前图像描述生成的研究主要仅限于单语言(如英文),这得益于大规模的已人工标注的图像及其英文描述语料。该文探索零标注资源情况下,以英文作为枢轴语言的图像中文描述生成研究。具体地,借助于神经机器翻译技术,该文提出并比较了两种图像中文描述生成的方法:(1)串行法,该方法首先将图像生成英文描述,然后由英文描述翻译成中文描述;(2)构建伪训练语料法,该方法首先将训练集中图像的英文描述翻译为中文描述,得到图像-中文描述的伪标注语料,然后训练一个图像中文描述生成模型。特别地,对于第二种方法,该文还比较了基于词和基于字的中文描述生成模型。实验结果表明,采用构建伪训练语料法优于串行法,同时基于字的中文描述生成模型也要优于基于词的模型,BLEU4值达到0.341。

法律文本中表条件“的”字结构的英译——基于《民法通则》汉英平行文本的考察 下载:49 浏览:301

冯文贺 郭海芳 杨华 《当代中文学刊》 2019年6期

摘要:
法律文本中有一种表条件"的"字结构,该文对其英译进行语法标注与统计分析。考察《民法通则》的汉英平行文本,确定"的"字结构的英语对应单位。统计"的"字结构的英语对应单位,发现:1.状语远多于定语(85.40%>14.60%);2.限定式远多于非限定式(87.59%>12.41%),限定式中一般现在时占绝对多数(99.17%),非限定式以介词短语为多(64.71%);3.状语引导词以if为多(86.32%),定语引导词以who为多(60.00%)。研究认为,法律文本中此类"的"字结构是句而非短语,而其中的"的"是表条件的篇章连接词。

基于PCFG的藏文疑问句句法分析 下载:43 浏览:361

班玛宝1,2,3 才智杰1,2,3 拉玛扎西1,2,3 《当代中文学刊》 2019年5期

摘要:
藏文疑问句的句法分析在藏文问答系统、搜索引擎、信息的抽取和检索等领域有着广泛的应用前景。该文通过分析藏文疑问句的构成特点,对藏文疑问句进行了分类,归纳了各类藏文疑问句的结构特征,进而利用PCFG对藏文疑问句进行了句法分析。经测试,在封闭测试集上的准确率、召回率和F1值分别达97.6%、97.3%和97.4%,在开放测试集上的准确率、召回率和F1值分别达96.0%、95.4%和95.7%。

基于神经网络的藏语语音合成 下载:71 浏览:417

都格草才让卓玛 南措吉算太本 《当代中文学刊》 2019年5期

摘要:
语音合成是人机交互的核心技术之一,也是中文信息处理领域的一项前沿技术。随着神经网络理论的不断深入,基于神经网络的语音合成技术越来越引起人们的关注。该文通过分析藏文字结构与藏语拼读规则,融合Sequence to Sequence模型和注意力机制,研究了基于神经网络的藏语语音合成技术。实验数据表明,该文方法在藏语语音合成上具有良好的性能表现。

寻求与建构:论焦菊隐的戏剧翻译 下载:61 浏览:355

李鑫1 熊辉2 《当代艺术》 2020年10期

摘要:
戏剧翻译是焦菊隐戏剧活动的主要内容之一,贯穿于他戏剧思想形成的关键时期,对他的戏剧理论发展和戏剧导演实践都具有重要的理论价值和现实意义。焦菊隐的戏剧翻译整体上与时代特征相契合,顺应了"五四"以来社会文化的变迁和抗战时期民族艺术的发展。此外,焦菊隐的戏剧翻译反映了他的审美倾向和艺术追求,从翻译目的、译剧选择和翻译方法三个层面呈现了他的戏剧翻译观,并对其现实主义导演风格的实践和话剧民族化思想的转变产生了积极的影响。

“十九世纪文明”的译介与鲁迅早期的文学道路 下载:64 浏览:467

李春 《文学研究》 2019年2期

摘要:
鲁迅在留日期间批判性地吸收了西方的"世纪"这一概念,形成了观察历史的"长时段"思维,并进而构建了"文明史"和"文化比较"的认识方法。其基本特征就是重视历史现象内在的连续性,而不是表面的重大事件。通过"文明史"研究,鲁迅认为,以"物质"和"众数"为主要特色的十九世纪西方文明所面临的危机就是精神的零落;而通过"文化比较",鲁迅认为中国也面临着同样的危机。具有非功利性、能够撄人之心的文学,便是解决这一危机的钥匙。鲁迅的文学因此一直存在着重视"写心"而不是"存史"的倾向。

基于transformer神经网络的汉蒙机构名翻译研究 下载:52 浏览:462

安苏雅拉王斯日古楞 《当代中文学刊》 2020年2期

摘要:
机构名翻译是机器翻译的研究内容之一,在机器翻译任务中机构名翻译的准确度,直接影响着翻译性能。在很多任务上,神经机器翻译性能优于传统的统计机器翻译性能,该文中使用基于transformer神经网络模型与传统的基于短语的统计机器翻译模型和改进后的基于语块的机器翻译模型做了对比试验。实验结果表明,在汉蒙机构名翻译任务上,基于transformer神经网络的汉蒙机构名翻译系统优于传统的基于语块的汉蒙机构名翻译系统,BLEU4值提高了0.039。

子字粒度切分在蒙汉神经机器翻译中的应用 下载:25 浏览:377

任众 侯宏旭 吉亚图 武子玉 白天罡 雷颖 《当代中文学刊》 2019年2期

摘要:
在蒙汉神经机器翻译任务中,由于语料稀少使得数据稀疏问题严重,极大影响了模型的翻译效果。该文对子字粒度切分技术在蒙汉神经机器翻译模型中的应用进行了研究。通过BPE算法将切分粒度控制在字符和词之间的子字粒度大小,将低频词切分成相对高频的子字片段,来缓解数据稀疏问题,从而在有限的数据和硬件资源条件下,更高效地提升模型的鲁棒性。实验表明,在两种网络模型中使用子字粒度切分技术,BLEU值分别提升了4.81和2.96,且随着语料的扩大,训练周期缩短效果也更加显著,说明子字粒度切分技术有助于提高蒙汉神经机器翻译效果。

面向神经机器翻译的模型存储压缩方法分析 下载:42 浏览:422

林野 姜雨帆 肖桐 李恒雨 《当代中文学刊》 2019年2期

摘要:
模型存储压缩,旨在在不改变模型性能的同时,大幅度降低神经网络中过多的模型参数带来的存储空间浪费。研究人员对于模型存储压缩方法的研究大多数在计算机视觉任务上,缺乏对机器翻译模型压缩方法的研究。该文在机器翻译任务上通过实验对比剪枝、量化、低精度三种模型压缩方法在Transformer和RNN(recurrent neural network)两种模型上的模型压缩效果,最终使用剪枝、量化、低精度三种方法的组合方法可在不损失原有模型性能的前提下在Transformer和RNN模型上分别达到5.8×和11.7×的压缩率。同时,该文还针对三种模型压缩方法在不同模型上的优缺点进行了分析。

藏文音节拼写检查的CNN模型 下载:24 浏览:265

色差甲1,2 贡保才让1,2 才让加1,2 《当代中文学刊》 2019年1期

摘要:
藏文音节拼写检查是藏语自然语言处理的基本任务,在藏文文字处理、文字识别、文本生成等领域具有广泛的应用。该文首先针对藏文音节的结构提出了音节向量化的方法,即音节矩阵。然后构建了适合于藏文音节拼写检查的CNN模型,使用1 364 880个藏文音节进行训练。最后对68 244个藏文音节进行测试。实验结果显示,藏文音节拼写检查CNN模型的结果优于规则、RNN和LSTM等模型,不仅对符合藏文文法的音节能正确识别外,而且对梵音藏文音节也能有效识别,正确率、召回率以及F值分别为99.52%、99.30%和99.41%。
在线客服::点击联系客服
联系电话::400-188-5008
客服邮箱::service@ccnpub.com
投诉举报::feedback@ccnpub.com
人工客服

工作时间(9:00-18:00)
官方公众号

科技成果·全球共享