基于高斯混合模型的现代汉语构式成分自动标注方法--世纪中文出版社

基于高斯混合模型的现代汉语构式成分自动标注方法

DOI: ,PDF 下载: 47 浏览: 395

作者: 黄海斌1；常宝宝2；詹卫东1，2，3；

作者单位: 1.北京大学中国语部重点实验室；3.北京大学中国语言学研究中心言文学系；2.北京大学计算语言学教育；

关键词: 现代汉语构式；自动标注；高斯混合模型；数据挖掘；

摘要:

现代汉语构式成分自动标注作为文本自动标注任务之一，其最大的困难在于，当不存在标注语料作为训练数据时，如何从生语料中挖掘不同类型的构式成分相关的知识并进行标注，特别是面对构式序列在句中的边界难以判断的情况。该文试图借助高斯混合模型聚类方法，结合句中每一个字的位置特征与构式形式本身的语言学特征，融合正则表达式匹配结果信息，挖掘句子中的构式实例序列，并对构式内部成分进行自动标注。相较于仅基于正则表达式匹配和词性匹配的自动标注结果，该方法的F1分别至少提高了17.9%（半凝固型构式）、19.3%（短语型构式）、14.9%（复句型构式）。

投稿

学术共建

	在线客服
	客服电话：400-188-5008
	客服邮箱：service@ccnpub.com
	投诉举报：feedback@ccnpub.com