请选择 目标期刊

基于高斯混合模型的现代汉语构式成分自动标注方法 下载:47 浏览:342

黄海斌1 常宝宝2 詹卫东1,2,3 《中文研究》 2020年3期

摘要:
现代汉语构式成分自动标注作为文本自动标注任务之一,其最大的困难在于,当不存在标注语料作为训练数据时,如何从生语料中挖掘不同类型的构式成分相关的知识并进行标注,特别是面对构式序列在句中的边界难以判断的情况。该文试图借助高斯混合模型聚类方法,结合句中每一个字的位置特征与构式形式本身的语言学特征,融合正则表达式匹配结果信息,挖掘句子中的构式实例序列,并对构式内部成分进行自动标注。相较于仅基于正则表达式匹配和词性匹配的自动标注结果,该方法的F1分别至少提高了17.9%(半凝固型构式)、19.3%(短语型构式)、14.9%(复句型构式)。

精细化的中文词性标注评测集的研制 下载:39 浏览:287

唐乾桐1,2 常宝宝1 詹卫东1,2,3 《中文研究》 2020年2期

摘要:
该文提出了一套精细化的中文词性标注评测体系。该文的工作重点在于确立其中的评测项目以及每个项目所对应的词例,提出了比对、归类、合取的方法;依此,该文初步建立了规模为5 873句、涵盖了2 326项词例和70个评测项目的评测试题集,并用这套试题集对几个常见的开源词性标注程序进行了评测。最后,该文指出了精细化评测体系将评测项目和评测语料联系起来的好处——在传统体系中,两者是分开的。该文从评测项目的价值和评测语料的组织性两个方面阐述了该文的评测体系相对于传统评测体系的优势,并指出了利用该文提出的评测体系改进被测程序的方法。
[1/1]
在线客服::点击联系客服
联系电话::400-188-5008
客服邮箱::service@ccnpub.com
投诉举报::feedback@ccnpub.com
人工客服

工作时间(9:00-18:00)
官方公众号

科技成果·全球共享