面向中文网络评论情感分类的集成学习框架
黄佳锋1 薛云1,2 卢昕1 刘志煌1 吴威1 黄英仁1 李万理1 陈鑫1,3
1.华南师范大学物理与电信工程学院;2.广东省数据科学工程技术研究中心;3.深圳职业技术学院工业中心
摘要: 该文针对中文网络评论情感分类任务,提出了一种集成学习框架。首先针对中文网络评论复杂多样的特点,采用词性组合模式、频繁词序列模式和保序子矩阵模式作为输入特征。然后采用基于信息增益的随机子空间算法解决文本特征繁多的问题,同时提高基分类器的分类性能。最后基于产品属性构造基分类器算法综合评论文本中每个属性的情感信息,进而判别评论的句子级情感倾向。实验结果表明了该框架在中文网络评论情感分类任务上的有效性,特别是在Logistic Regression分类算法上准确率达到90.3%。
关键词:
网络评论;情感分类;集成学习;特征提取;
网络评论;情感分类;集成学习;特征提取