PDF下载
中文嵌套命名实体识别语料库的构建

李雁群1,2 何云琪1,2 钱龙华1,2 周国栋1,2

1.苏州大学自然语言处理实验室;2.苏州大学计算机科学与技术学院

摘要: 嵌套命名实体含有丰富的实体和实体间语义关系,有助于提高信息抽取的效率。由于缺少统一的标准中文嵌套命名实体语料库,目前中文嵌套命名实体的研究工作难于比较。该文在已有命名实体语料的基础上采用半自动化方法构建了两个中文嵌套命名实体语料库。首先利用已有中文命名实体语料库中的标注信息自动地构造出尽可能多的嵌套命名实体,然后再进行手工调整以满足对中文嵌套实体的标注要求,从而构建高质量的中文嵌套命名实体识别语料库。语料内和跨语料嵌套实体识别的初步实验表明,中文嵌套命名实体识别仍是一个比较困难的问题,需要进一步研究。
关键词: 中文嵌套命名实体识别;条件随机场;信息抽取;语料库
DOI:
基金资助:
文章地址: