请选择 目标期刊

基于CNN-CorrNet网络的汉缅平行句对抽取方法 下载:40 浏览:260

毛存礼1,2 吴霞1,2 朱俊国1,2 余正涛1,2 李云龙1,2 王振晗1,2 《中文研究》 2020年6期

摘要:
构建双语平行语料库是提升低资源语言机器翻译质量的一种有效方法。该文提出了基于CNN-CorrNet网络的汉缅平行句对抽取方法。具体而言,该文首先利用BERT得到汉语、缅语词向量表征,并将汉语、缅语两种语言句子用卷积神经网络进行句子表征,以捕捉句子重要特征信息;然后为了保证两种语言跨语言表征的最大相关性,利用已有的汉缅平行句对作为约束条件,使用CorrNet(相关神经网络)将汉缅的句子表征投影到公共语义空间;最后计算公共语义空间中汉语、缅语句子距离,并根据距离判断汉—缅双语句子是否为平行句子。实验结果表明,相比最大熵模型、孪生网络模型,该文提出的方法F1值分别提升了13.3%、5.1%。

融入分类词典的汉越混合网络神经机器翻译集外词处理方法 下载:63 浏览:441

车万金1,2 余正涛1,2 郭军军1,2 文永华1,2 于志强1,2 《中文研究》 2019年11期

摘要:
在神经机器翻译中,因词表受限导致的集外词问题很大程度上影响了翻译系统的准确性。对于训练语料较少的资源稀缺型语言的神经机器翻译,这种问题表现得更为严重。近几年,受到外部知识融入的启发,该文在RNNSearch模型基础上,提出了一种融入分类词典的汉越混合网络神经机器翻译集外词处理方法。对于给定的源语言句子,扫描分类词典以确定候选短语句对并标签标记,解码端利用词级组件和短语组件的混合解码网络,很好地生成单词集外词和短语集外词的翻译,从而改善汉越神经机器翻译的性能。在汉越、英越和蒙汉翻译实验上表明,该方法显著提高了准确率,对于资源稀缺型语言的神经机器翻译性能有一定的提升。

融入多特征的汉越新闻观点句抽取方法 下载:40 浏览:414

林思琦 余正涛 郭军军 高盛祥 《中文研究》 2019年7期

摘要:
该文提出一种融入多特征的汉越双语新闻观点句抽取方法。首先针对汉语和越南语标记资源不平衡的问题,构建了汉越双语词嵌入模型,用丰富的中文标记资源来弥补越南语标记资源的缺失。并且该文认为句子的主题特征、位置特征和情感特征对观点句分类具有重要作用,因此将这些特征分别融入词向量和注意力机制中,实现句子语义信息和情感、主题、位置特征的结合。实验表明,该方法可有效提升越南语新闻观点句抽取的准确率。

用于文本分类的均值原型网络 下载:34 浏览:358

线岩团1 相艳2 余正涛1 文永华1王红斌2 张亚飞1 《当代中文学刊》 2020年10期

摘要:
文本分类是自然语言处理的基本任务之一。该文在原型网络基础上,提出了按时序移动平均方式集成历史原型向量的均值原型网络,并将均值原型网络与循环神经网络相结合,提出了一种新的文本分类模型。该模型利用单层循环神经网络学习文本的向量表示,通过均值原型网络学习文本类别的向量表示,并利用文本向量与原型向量的距离训练模型并预测文本类别。与己有的神经网络文本分类方法相比,模型在训练和预测过程中有效利用了样本间的特征相似关系,并具有网络深度浅、参数少的特点。该方法在多个公开的文本分类数据集上取得了最好的分类准确率。

基于案件要素指导的涉案舆情新闻文本摘要方法 下载:34 浏览:313

韩鹏宇1 高盛祥2 余正涛1 黄于欣2 郭军军1 《当代中文学刊》 2020年8期

摘要:
涉案舆情新闻文本摘要任务是从涉及特定案件的舆情新闻文本中,获取重要信息作为其简短摘要,因此对于相关人员快速掌控舆情态势具有重要作用。涉案舆情新闻文本摘要相比开放域文本摘要任务,通常涉及特定的案件要素,这些要素对摘要生成过程有重要的指导作用。因此,该文结合深度学习框架,提出了一种融入案件要素的涉案舆情新闻文本摘要方法。首先构建涉案舆情新闻摘要数据集并定义相关案件要素,然后通过注意力机制将案件要素信息融入新闻文本的词、句子双层编码过程中,生成带有案件要素信息的新闻文本表征,最后利用多特征分类层对句子进行分类。为了验证算法有效性,在构造的涉案舆情新闻摘要数据集上进行实验。实验结果表明,该方法相比基准模型取得了更好的效果,具有有效性和先进性。

基于非对称孪生网络的新闻与案件相关性分析 下载:32 浏览:324

赵承鼎1 郭军军2 余正涛2 黄于欣2 刘权1 宋燃2 《当代中文学刊》 2020年5期

摘要:
新闻与案件的相关性分析是法律领域新闻舆情分析的重要环节,可转化为新闻文本与案件文本的相似度计算任务。借助孪生网络计算文本相似度是一种有效途径,其对平衡样本具有良好的学习能力,但在新闻与案件的相关性计算中面临文本不平衡和新闻文本冗余的问题,因此,该文提出了基于非对称孪生网络的新闻与案件相关性计算方法。通过计算文本中句子与标题的相似度选取与新闻标题最相关的句子表征文档,去除新闻文本中的冗余句子,利用非对称孪生网络建模,考虑到案件要素蕴含案件的关键语义信息,将案件要素作为监督信息融入到非对称孪生网络中对新闻文档和案件描述进行编码,解决新闻和案件在结构和语义上不平衡的问题,最终实现新闻与案件的相关性判断。实验表明该模型相比基线模型准确率提升了2.52%。

基于词性软模板注意力机制的短文本自动摘要方法 下载:47 浏览:339

张亚飞1 左一溪2 余正涛1,2 郭军军1,2 高盛祥1,2 《人工智能研究》 2020年11期

摘要:
任务中,带有直观主谓宾结构的摘要句语义完整性较强,但词性组合对该结构具有约束作用.为此文中提出基于词性软模板注意力机制的短文本自动摘要方法.首先对文本进行词性标记,将标记的词性序列视为文本的词性软模板,指导方法构造摘要句的结构规范,在编码端实现词性软模板的表征.再引入词性软模板注意力机制,增强对文中核心词性(如名词、动词等)的关注.最后在解码端联合词性软模板注意力与传统注意力,产生摘要句.在短文本摘要数据集上的实验验证文中方法的有效性.

融合多特征的基于远程监督的中文领域实体关系抽取 下载:72 浏览:395

王斌1 郭剑毅1 线岩团2 王红斌2 余正涛2 《人工智能研究》 2019年4期

摘要:
针对从未标记的文本中抽取中文领域实体关系的问题,文中提出基于远程监督的领域实体属性关系抽取的混合方法,利用知识库中已有结构化的关系三元组,从自然语言文本中自动获取训练语料.针对远程监督方法标注数据存在大量噪声的问题,采用隐含狄利克雷分布主题模型抽取主题关键词,再与关系类型进行相似度计算和对关键词模式匹配进行去噪.最后提取词性特征、依存关系特征和短语句法树特征,并进行融合,训练关系抽取模型.实验表明,3种特征融合的F值较高,抽取性能较好.
[1/1]
在线客服::点击联系客服
联系电话::400-188-5008
客服邮箱::service@ccnpub.com
投诉举报::feedback@ccnpub.com
人工客服

工作时间(9:00-18:00)
官方公众号

科技成果·全球共享