PDF下载
面向工业互联网资讯的中文关键词抽取

陈硕1 殷锋2 袁平3

1.四川大学计算机学院;2.西南民族大学计算机科学与技术学院;3.重庆第二师范学院数学与信息工程学院

摘要: 为了获取工业互联网领域中文资讯的关键词,提出一种基于特征的中文关键词抽取算法。该算法主要从分词、候选词选取和特征选取三个方面做改进。首先,在分词阶段,通过从大量工业互联网资讯中抽取的特定词语和利用搜狗输入法的领域词库的词典创建了两个用户自定义词典,解决工业互联网领域文本中存在大量未登录词的问题,提高分词的准确率,进而提高关键词抽取的准确率;然后通过实验仿真选取合适数量的候选词,提高算法的效果和效率;其次,在特征的选择方面不仅考虑词频类、位置类和长度类等特征,还考虑了语义方面的特征,共选取6大类21种特征。最终通过随机森林将21种特征相结合,训练出一个关键词分类器,经实验测评,在精确率、召回率和F值三个评价指标中,该算法的效果都获得提升。
关键词: 抽取;特征选取;工业互联网;随机森林
DOI:
基金资助:
文章地址: