融合多特征的基于远程监督的中文领域实体关系抽取
王斌1 郭剑毅1 线岩团2 王红斌2 余正涛2
1.昆明理工大学信息工程与自动化学院;2.昆明理工大学智能信息处理重点实验室
摘要: 针对从未标记的文本中抽取中文领域实体关系的问题,文中提出基于远程监督的领域实体属性关系抽取的混合方法,利用知识库中已有结构化的关系三元组,从自然语言文本中自动获取训练语料.针对远程监督方法标注数据存在大量噪声的问题,采用隐含狄利克雷分布主题模型抽取主题关键词,再与关系类型进行相似度计算和对关键词模式匹配进行去噪.最后提取词性特征、依存关系特征和短语句法树特征,并进行融合,训练关系抽取模型.实验表明,3种特征融合的F值较高,抽取性能较好.
关键词:
远程监督;实体关系抽取;领域知识库;特征融合;隐含狄利克雷分布主题模型;
远程监督;实体关系抽取;领域知识库;特征融合;隐含狄利克雷分布主题模型