文章标题
作者姓名
关键词
单位名称
检索
AI智能检索
学术期刊
首页
文章
期刊
投稿
首发
学术会议
图书中心
新闻
新闻动态
科学前沿
合作
我们
一封信
按学科分类
按期刊分类
医药卫生
(24)
工程技术
(42)
数学与物理
(12)
经济与管理
(12)
人文社科
(44)
化学与材料
(9)
信息通讯
(10)
地球与环境
(25)
生命科学
(2)
首页
>
基于高斯混合模型的现代汉语构式成分自动标注方法
DOI
:
,
PDF
下载:
47
浏览: 395
作者
:
黄海斌1
;
常宝宝2
;
詹卫东1,2,3
;
作者单位
:
1.北京大学中国语部重点实验室;3.北京大学中国语言学研究中心言文学系;2.北京大学计算语言学教育
;
关键词
:
现代汉语构式
;
自动标注
;
高斯混合模型
;
数据挖掘
;
摘要:
现代汉语构式成分自动标注作为文本自动标注任务之一,其最大的困难在于,当不存在标注语料作为训练数据时,如何从生语料中挖掘不同类型的构式成分相关的知识并进行标注,特别是面对构式序列在句中的边界难以判断的情况。该文试图借助高斯混合模型聚类方法,结合句中每一个字的位置特征与构式形式本身的语言学特征,融合正则表达式匹配结果信息,挖掘句子中的构式实例序列,并对构式内部成分进行自动标注。相较于仅基于正则表达式匹配和词性匹配的自动标注结果,该方法的F1分别至少提高了17.9%(半凝固型构式)、19.3%(短语型构式)、14.9%(复句型构式)。
投稿
相关文章
活用经方七宝美髯丹加减治疗脱发的临床经验与机制探讨
基于维度分析的中微子几何模型与深海应用
基于旋转双盘同步的单程光测量方法及应用
鼓泡流化床炉内脱硫的特性及工程应用
新时代高校辅导员以“高度•力度•温度”践行思政育人研究
学术共建
清华大学出版社
北大中文系
国家工程技术数字图书馆
维普网
万方数据库
版权所有 © 2025 世纪中文出版社
京ICP备2024086036号-2