基于高斯混合模型的现代汉语构式成分自动标注方法
黄海斌1 常宝宝2 詹卫东1,2,3
生成PDF 清样下载 引用

复制成功

导出题录

参考文献( GB/T 7714-2015 ) 复制

黄海斌1 常宝宝2 詹卫东1,2,3,. 基于高斯混合模型的现代汉语构式成分自动标注方法[J]. 中文研究,2020.3. DOI:.
摘要:
现代汉语构式成分自动标注作为文本自动标注任务之一,其最大的困难在于,当不存在标注语料作为训练数据时,如何从生语料中挖掘不同类型的构式成分相关的知识并进行标注,特别是面对构式序列在句中的边界难以判断的情况。该文试图借助高斯混合模型聚类方法,结合句中每一个字的位置特征与构式形式本身的语言学特征,融合正则表达式匹配结果信息,挖掘句子中的构式实例序列,并对构式内部成分进行自动标注。相较于仅基于正则表达式匹配和词性匹配的自动标注结果,该方法的F1分别至少提高了17.9%(半凝固型构式)、19.3%(短语型构式)、14.9%(复句型构式)。
关键词: 现代汉语构式自动标注高斯混合模型数据挖掘
DOI:
基金资助:

》在线投稿系统

*文章题目:
*作者姓名:
*电子邮箱:
*通讯地址:
*联系方式:

  备      注:

*上传稿件:

支持上传.doc,.docx,.pdf,.txt,.wps文件

投稿须知:

1、审稿结果将于1~7个工作日以邮件告知,请注意查收(包含录用通知书、审稿意见、知网CNKI查重报告)。

2、提交投稿后,若7个工作日之内未接到录用通知,则说明该文章未被录用,请另投他刊。

3、凡投寄本刊稿件,如在内容上有侵权行为或不妥之处,均应文责自负。本刊有权对来稿进行文字编辑、加工和修改,如不同意,请附说明,以便妥善处理。

4、多作者文稿署名时须征得其他作者同意,排好先后次序,通知用稿后不再改动。

5、凡投往本刊稿件一经录用发表,其版权归本刊所有。

6、本刊已全文录入中国知网、万方、维普等数据库,如作者不同意被收录,请提前申明,未申明者,本刊一律视为同意被收录。

7、请勿一稿多投。