PDF下载
高度不平衡数据的代价敏感随机森林分类算法

平瑞 周水生 李冬 ​

西安电子科技大学数学与统计学院

摘要: 在处理高度不平衡数据时,代价敏感随机森林算法存在自助法采样导致小类样本学习不充分、大类样本占比较大、容易削弱代价敏感机制等问题.文中通过对大类样本聚类后,多次采用弱平衡准则对每个集群进行降采样,使选择的大类样本与原训练集的小类样本融合生成多个新的不平衡数据集,用于代价敏感决策树的训练.由此提出基于聚类的弱平衡代价敏感随机森林算法,不仅使小类样本得到充分学习,同时通过降低大类样本数量,保证代价敏感机制受其影响较小.实验表明,文中算法在处理高度不平衡数据集时性能较优.
关键词: 不平衡数据;聚类采样;代价敏感学习;随机森林
DOI:
基金资助:
文章地址: