面向工业互联网资讯的中文关键词抽取
陈硕1 殷锋2 袁平3
生成PDF 清样下载 引用

复制成功

导出题录

参考文献( GB/T 7714-2015 ) 复制

陈硕1 殷锋2 袁平3,. 面向工业互联网资讯的中文关键词抽取[J]. 计算机研究与应用,2020.9. DOI:.
摘要:
为了获取工业互联网领域中文资讯的关键词,提出一种基于特征的中文关键词抽取算法。该算法主要从分词、候选词选取和特征选取三个方面做改进。首先,在分词阶段,通过从大量工业互联网资讯中抽取的特定词语和利用搜狗输入法的领域词库的词典创建了两个用户自定义词典,解决工业互联网领域文本中存在大量未登录词的问题,提高分词的准确率,进而提高关键词抽取的准确率;然后通过实验仿真选取合适数量的候选词,提高算法的效果和效率;其次,在特征的选择方面不仅考虑词频类、位置类和长度类等特征,还考虑了语义方面的特征,共选取6大类21种特征。最终通过随机森林将21种特征相结合,训练出一个关键词分类器,经实验测评,在精确率、召回率和F值三个评价指标中,该算法的效果都获得提升。
关键词: 抽取特征选取工业互联网随机森林
DOI:
基金资助:

》在线投稿系统

*文章题目:
*作者姓名:
*电子邮箱:
*通讯地址:
*联系方式:

  备      注:

*上传稿件:

支持上传.doc,.docx,.pdf,.txt,.wps文件

投稿须知:

1、审稿结果将于1~7个工作日以邮件告知,请注意查收(包含录用通知书、审稿意见、知网CNKI查重报告)。

2、提交投稿后,若7个工作日之内未接到录用通知,则说明该文章未被录用,请另投他刊。

3、凡投寄本刊稿件,如在内容上有侵权行为或不妥之处,均应文责自负。本刊有权对来稿进行文字编辑、加工和修改,如不同意,请附说明,以便妥善处理。

4、多作者文稿署名时须征得其他作者同意,排好先后次序,通知用稿后不再改动。

5、凡投往本刊稿件一经录用发表,其版权归本刊所有。

6、本刊已全文录入中国知网、万方、维普等数据库,如作者不同意被收录,请提前申明,未申明者,本刊一律视为同意被收录。

7、请勿一稿多投。