近邻感知的标签噪声过滤算法
1.山西大学计算机与信息技术学院;2.山西大学计算智能与中文信息处理教育部重点实验室
摘要: 基于k近邻的标签噪声过滤对近邻参数k的选取较敏感.针对此问题,文中提出近邻感知的标签噪声过滤算法,可有效解决二分类数据集的类内标签噪声的问题.算法分开考虑正类样本和负类样本,使分类问题中的标签噪声检测问题转化为两个单类别数据的离群点检测问题.首先通过近邻感知策略自动确定每个样本的个性化近邻参数,避免近邻参数敏感的问题.然后根据噪声因子将样本分为核心样本与非核心样本,并把非核心样本作为标签噪声候选集.最后结合候选样本的近邻标签信息,进行噪声的识别与过滤.实验表明,文中方法的噪声过滤效果和分类预测性能均较优.
关键词:
标签噪声过滤;近邻感知;个性化k近邻;离群点检测;噪声因子;
标签噪声过滤;近邻感知;个性化k近邻;离群点检测;噪声因子