请选择 目标期刊

基于抽象语义表示的汉语构式标注与分析 下载:19 浏览:340

黄彤1 李斌1 闫培艺1 戴玉玲1 曲维光2 《中文研究》 2020年5期

摘要:
构式作为组成成分与实际意义不能完全对应的结构,与常规句子差异较大,对句法和语义分析器的影响较大,构式的自动分析则更是困难。因此,亟需研究构式的结构标注方法及构建相应语料库。由于构式的语义结构与句法结构有较大差异,该文使用中文抽象语义表示(CAMR)来直接标注构式的语义结构。目前收录最全的构式库是北京大学现代汉语构式知识库,通过对该构式库1 057条构式进行人工标注并统计后,发现CAMR可以表示出61.2%的基本符合组合原则的构式;而38.8%不符合组合原则的构式需要修改或添加概念,存在缺少概念、组成成分难以拆分、修辞意义难以表示等情况。该文给出的策略是将其整体作为一个谓词标注或只标注其表层义。汉语构式库的标注可以为构式语义的自动分析提供理论与数据基础。

基于同义词词林和预训练词向量的微调方法 下载:48 浏览:230

佘琪星1 王必聪1 刘铭1,2 秦兵1,2 王莉峰3 《中文研究》 2020年5期

摘要:
同义词挖掘是自然语言处理领域中的一个基础任务,而同义词对的判别是该任务的一个重要部分。传统两大类方法,基于分布式表示和基于模板的方法,分别利用了语料的全局统计信息和局部统计信息,只能在精确率和召回率中权衡。随着预训练词向量技术的发展,基于分布式表示的方法存在一种简单高效的方案,即直接对预训练好的词向量计算相似度,将此表示为语义相似度。然而,这样的思路并没有利用到现有的同义词对这一外部知识。该文提出基于《同义词词林》的词向量微调方法,利用同义词对信息,增强预训练词向量的语义表示。经过实验,该微调方法能很好地完成同义词对的判别。

基于宏观语义表示的宏观篇章关系识别方法 下载:42 浏览:356

周懿 褚晓敏 朱巧明 蒋峰 李培峰 《当代中文学刊》 2019年10期

摘要:
宏观篇章分析旨在分析相邻段落或段落群之间的语义联系,是自然语言处理领域其他任务的工作基础。该文研究了宏观篇章分析中的关系识别问题,提出了一个宏观篇章关系识别模型。该模型利用基于词向量的宏观篇章语义表示方法和适用于宏观篇章关系识别的结构特征,从两个层面提高了模型分辨宏观篇章关系的能力。在汉语宏观篇章树库(MCDTB)上的实验表明,该模型在大类分类中F1值达到了68.22%,比基准系统提升了4.17%。

基于HowNet的语义表示学习 下载:47 浏览:482

朱靖雯1 杨玉基2 许斌2 李涓子2 《当代中文学刊》 2019年9期

摘要:
HowNet是一个大规模高质量的跨语言(中英)常识知识库,蕴含着丰富的语义信息。该文利用知识图谱领域的方法将HowNet复杂的结构层层拆解,得到了知识图谱形式的HownetGraph,进而利用网络表示学习以及知识表示学习方法得到了跨语言(中、英)、跨语义单位(字词、义项①、DEFCONCEPT②和义原)的向量表示,在词语相似度(word similarity)和词语类比(word analogy)任务上对中英文数据集进行了实验,实验结果显示该文提出的方法在词语语义相似度的任务上取得了最好效果。

基于中文AMR语料库的非投影结构研究 下载:27 浏览:448

闻媛1 宋丽1 吴泰中2 李斌1 周俊生2 曲维光2,3 《当代中文学刊》 2018年10期

摘要:
非投影结构是指依存树上的词语节点与原句中的词语序列出现错位的现象,对于句法分析器的影响较大,在语言理论上也有较大研究价值。在世界多种语言的依存树或图库上,都发现了含有非投影结构的句子,并对比展开了相关研究。而汉语的非投影结构尚未得到重视,语料库构建过程中也因遵循了投影性原则而缺乏对非投影结构的标注。该文基于概念对齐版的中文AMR语料库,在10 149句语料上统计出带有非投影结构的句子比例为31.62%,其三种主要类型为模态词提升、话题化和成分分离,并提出了相应的自动分析方案,以提高中文AMR自动分析效果。

基于多重隐语义表示模型的旅游路线挖掘 下载:72 浏览:458

孙彦鹏1 古天龙2 宾辰忠2 孙磊2 《人工智能研究》 2018年8期

摘要:
针对用户个性化旅游行为过程的挖掘与景点推荐问题,提出多重隐语义旅游路线表示模型(MLSTR-RM).MLSTR-RM考虑不同上下文对用户旅游路线的影响,高效挖掘旅游路线中丰富的隐语义.首先确定模型中不同上下文包含的隐语义信息,然后通过负采样的方式训练模型参数,最后基于MLSTR-RM模型设计个性化景点推荐方法.在真实数据集上的实验表明文中模型的有效性.

基于机器学习的代码搜索方法综述 下载:55 浏览:442

张开乐 《天线研究》 2020年1期

摘要:
随着互联网行业的快速发展以及开源社区、开源软件的兴起,越来越多的高质量代码可供软件开发人员选择。如何快速并准确地搜索到想要的代码,是软件工程领域中一个重要的研究方向,对软件开发以及代码重用有着重要意义。由深度神经网络模型的文本表示驱动,自然语言处理(NLP)领域在不同水平的语义理解上取得了巨大的进步。在某种意义上,由于源代码是文本数据,机器学习方法为代码搜索提供了新的思路。首先对利用机器学习方法进行代码搜索研究的分析并讨论;其次,针对多种方式结合的代码搜索方法进行展开讨论;最后指出在利用代码的统计特性上未来的几个研究方向。
[1/1]
在线客服::点击联系客服
联系电话::400-188-5008
客服邮箱::service@ccnpub.com
投诉举报::feedback@ccnpub.com
人工客服

工作时间(9:00-18:00)
官方公众号

科技成果·全球共享