PDF下载
基于中文AMR语料库的非投影结构研究

闻媛1 宋丽1 吴泰中2 李斌1 周俊生2 曲维光2,3

1.南京师范大学文学院;2.南京师范大学计算机科学与技术学院;3.闽江学院福建省信息处理与智能控制重点实验室

摘要: 非投影结构是指依存树上的词语节点与原句中的词语序列出现错位的现象,对于句法分析器的影响较大,在语言理论上也有较大研究价值。在世界多种语言的依存树或图库上,都发现了含有非投影结构的句子,并对比展开了相关研究。而汉语的非投影结构尚未得到重视,语料库构建过程中也因遵循了投影性原则而缺乏对非投影结构的标注。该文基于概念对齐版的中文AMR语料库,在10 149句语料上统计出带有非投影结构的句子比例为31.62%,其三种主要类型为模态词提升、话题化和成分分离,并提出了相应的自动分析方案,以提高中文AMR自动分析效果。
关键词: 抽象语义表示;概念对齐;非投影;语义分析;中文信息处理
DOI:
基金资助:
文章地址: