请选择 目标期刊

基于数据增强的藏文改写检测研究 下载:34 浏览:499

赵小兵1 鲍薇2 董建2 包乌格德勒3 《中文研究》 2019年10期

摘要:
该文针对藏文语料稀缺的问题,在藏汉双语、藏文单语文本改写检测任务中使用数据增强的方法,在一定程度上解决了低资源语言训练语料规模小的问题。在藏汉跨语言文本改写检测任务中,该文使用数据增强方法,有效利用目前公开的藏汉平行语料,扩充藏汉跨语言文本改写检测训练语料,当扩充至20万句对时,藏汉改写检测模型的皮尔森系数(pearson correlation)达到0.547 6,比基线系统的皮尔森系数提升了0.397 1,表明藏汉改写检测模型检测出的句对相似度值与人工标注的相似度值已达到中等程度相关。在藏文单语言任务中,该文采用训练藏文音节向量的方法,以缓解语料稀缺带来的词向量稀疏问题。实验结果表明,基于藏文音节向量的藏文改写检测模型的皮尔森系数可达到0.678 0,比相应的基于藏文词向量实验的结果提升了0.1,使得藏文单语言文本改写检测模型的检测结果与人工标注的结果达到了强相关程度。

汉藏双语旅游领域知识图谱系统构建 下载:65 浏览:326

冯小兰 赵小兵 《中文研究》 2019年8期

摘要:
旅游业是藏族地区主要的经济来源之一。然而,目前互联网上缺乏藏文旅游信息智能化服务系统,且藏文景点介绍文本也十分匮乏;相反,汉文旅游网站信息量大,但各旅游网站包含的景点不尽相同,景点介绍文本篇幅较长,且各旅游网站对同一个景点描述侧重点不同。为便于不同语言使用者能快速准确地了解景点相关的知识,该文首先在汉文旅游领域分别采用基于BLSTM神经网络模型、基于维基百科以及基于网络爬虫等形式获取与景点相关的共8种属性知识;并通过采用基于维基百科等方法构建的旅游领域汉藏词典,将获取的汉文知识迁移到藏文,其翻译覆盖率平均值达70.44%。最终,构建汉藏双语旅游领域知识图谱。

基于RNN和CNN的蒙汉神经机器翻译研究 下载:62 浏览:445

包乌格德勒1,2 赵小兵2 《中文研究》 2018年2期

摘要:
该文探讨了基于RNN和CNN的蒙汉神经机器翻译模型,分别采用蒙古语的词模型、切分模型和子词模型作为翻译系统的输入信号,并与传统的基于短语的SMT进行了比较分析。实验结果表明,子词模型可以有效地提高RNN NMT和CNN NMT的翻译质量。同时实验结果也表明,基于RNN的蒙汉NMT模型的翻译性能已经超过传统的基于短语的蒙汉SMT模型。

论新媒体时代微信公众号新闻标题的制作原则 下载:64 浏览:644

赵小兵 《新闻传播研究》 2024年4期

摘要:
随着新媒体时代的到来,官方媒体、自媒体纷纷入驻互联网平台,新闻传播领域各类微信公众号日益增多,公众获取新闻信息的渠道也越来越广阔。新闻标题作为一则新闻的“眼睛”发挥着体现主要内容、激发受众阅读兴趣的重要作用。可见,新闻标题对一则新闻意义重大。微信公众号新闻标题制作既要遵循新闻传播规律,同时也要兼顾新媒体特征,使新闻标题更加亲切、直观,为人民群众所喜闻乐见。
[1/1]
在线客服::点击联系客服
联系电话::400-188-5008
客服邮箱::service@ccnpub.com
投诉举报::feedback@ccnpub.com
人工客服

工作时间(9:00-18:00)
官方公众号

科技成果·全球共享