1 引言
神经网络因具有强大的学习能力以及非线性逼近能力。模糊神经网络结合了模糊系统在模糊知识表达上有优势,同时具备神经网络的自适应学习能力,是一种优良的分类工具。在大数据背景下,数据挖掘技术逐渐成为当今热门的研究课题[1]。聚类算法作为一类重要的数据挖掘方法,被广泛地运用于无标签数据处理问题中。在机器学习领域,聚类算法是各类无监督学习方法的基础[2]。目前已有许多不同的聚类方法被相继提出,包括顺序聚类法、层次聚类法、k均值聚类法、模糊c均值聚类法等。其中模糊c均值聚类法(FCM)不同于以往聚类方法采用的“硬划分”手段,而考虑了大多数聚类对象在类属方面存在的中介性,及对象的类别划分界限并非严格分明的。模糊c均值聚类将模糊理论引入聚类算法,聚类过程中体现了数据类别不确定的描述,从而使聚类结果更为客观[3]。
为克服传统的模糊c均值算法易受样本噪声影响,聚类结果具有随机性的缺点,有学者提出了可能性c均值聚类算法(PCM)[4]。PCM算法在一定程度上解决了聚类过程易受样本奇异值影响的缺点,但算法本身对初始聚类中心的选取非常敏感。为此,本文借助自组织映射(SOM)网络对数据样本进行原始聚类,将得到的网络权值分布作为PCM初始聚类中心,有效增强了聚类效果及算法效率[5,6]。本文介绍了一种基于SOM-PCM聚类算法改进的T-S模糊神经网络,通过聚类算法进行网络参数优化,有效提升了网络性能[7]。
2 SOM-PCM算法
假设有数据集X={X1,X2,...,XN},N为数据集样本数量。数据集中任一样本xj为包含n维数据的向量,xj=[x1,x2,...,xn]。聚类算法即根据事物之间的相似度进行类别划分,被划分到同一类的对象在某一方面的相似度最大。若数据集X表示描述某一对象的N个样本,每一样本包含该对象的n个属性。那么模糊c均值聚类算法就是根据数据集X进行C划分,从而将聚类对象划分进C个类别中。隶属度μij表示聚类对象各样本与类的隶属关系,其满足的其目标函数及条件如式(5)所示。
(5)式中,m为加权指数,其取值大小将影响聚类效果,通常取2;dij表示样本j到第i类聚类中心的距离;μij是样本j对聚类i的隶属度。ηi为惩罚参数,其取值可通过式(6)计算得到。对目标函数求偏导,结合式中的约束条件,利用拉格朗日系数法可分别得到隶属度与聚类中心的迭代公式如式(7)。
(6) (7)
SOM网络由输入层和竞争层构成,输入层神经元与竞争层神经元全连接,负责将输入数据经连接权值传送至竞争层神经元;竞争层神经元之间两两互联,其连接权值随输入数据不断调整。输入层神经元个数由输入向量维数确定,竞争层神经元个数可人为设定。网络学习的基本思想是,比较输入向量与网络连接权值之间的距离(通常是欧氏距离),找到距离最近的竞争层神经元作为“优胜”神经元。调整“优胜”神经元及其附件的神经元的连接权值,使其更接近输入数据,不断重复以上过程直至训练结束。整个训练过程可以看成通过无监督学习发现输入数据间的相似模式并进行聚类。一个SOM网络的竞争层神经元多被设置成六边形网格,输入网络的高维向量被映射到六边形网格组成的二维平面上,故所输入的高维数据间的距离可以通过其在二维平面上的远近直观的展现出来。通常与同一个神经元毗邻的其他神经元总数越多,可以认为SOM网络的性能越好。
利用SOM网络将数据集X={X1,X2,...,XN}划分为C个聚类,可以生成一个输入神经元数为n,竞争层神经元数为C的网络。网络将自动把数据集X中相近的向量映射到同一个竞争层神经元上,实现对数据的初步聚类,聚类中心可以通过输入层与竞争层间的连接权值获得。故通过SOM网络改进PCM聚类算法的步骤如下:
(1)根据待处理的数据结构和聚类数初始化SOM网络,包括生成网络的初始连接权值、初始学习效率值以及最大迭代次数等;
(2)训练SOM网络。计算输入向量与每个竞争层神经元 之间的欧式距离,得到与输入向量具有最近距离的神经元作为获胜神经元。同时修正获胜神经元及其邻近神经元的连接权值,重复训练过程直至达到预设的迭代次数;
(3)提取训练好的SOM网络连接权值作为PCM算法的初始聚类中心,设置PCM聚类的最大迭代次数、聚类数以及容许误差值;
根据公式(5)、(6)迭代计算隶属度及聚类中心,至运算达到最大迭代次数或目标函数值小于容许误差值后停止运算,输出并展示聚类结果。
3 改进的T-S模糊神经网络
T-S模糊模型的推理规则可以表述为,如果x1是Aj1(x1),...,xn是Ajn(xn),那么y是fi。其中,j=1,2,...,m,m是模糊规则数;Ajn表示模糊系统中的模糊集。在模糊理论中,隶属度或隶属函数是最基本的概念。隶属度用来表征元素x属于模糊子集A的程度。在实践中,实物的分类往往不是非此即彼的,而是相对模糊的。用函数表示的某计算元素的隶属度被称为隶属函数。在T-S模糊模型中,系统规则的前件部分的隶属函数常选用高斯型函数。当输入变量为向量X=[x1,x2,...,xk]时,输入量的隶属函数根据模糊规则可表示为式(1)。
(1)
式中,cij,δij分别表示隶属函数的中心位置和宽度;j=1,2,...,k;i=1,2,...,n;k是输入变量个数,n为模糊子集数,其初始值可由前述的聚类结果得到。即隶属函数中心取聚类中心值,假设聚类中心为m=(m1j,m2j,...,mnj),隶属函数中心(c1j,c2j,...,cnj)=(m1j,m2j,...,mnj);隶属函数宽度σij=|cj-c’j|/γ,这里γ为重叠系数,通常取[2,4]之间的实数。
T-S模糊模型的规则后件部分中,输出部分y可以根据模糊规则得到。模糊模型的输入部分是模糊的,而输出部分是确定的。输出结果经模糊推理表示为输入量的线性组合,形如fi=pi0+pi1x1+...+pikxk。
T-S模糊神经网络的结构对应于模糊系统,可分为前件网络和后件网络。前件网络共分为四层,用于计算各条规则的适用度从而对匹配模糊规则。变量由输入层进入模糊神经网络,而后传送至第二层生成隶属函数。在第三层进行隶属函数的模糊计算,通常采用如式(2)所示的模糊算子作为连乘算子。
(2)
ωi表示第i条模糊规则的适应度。第三层得到的适应度函数在第四层中采用式(3)进行归一化处理,结果传输至后件网络。
(3)
后件网络共三层,第一层为输入层,第二层引入线性化参数进行规则计算,所得到的结果在第三层中与前件网络计算结果做加权求和后得到模糊神经网络的输出结果y,如式(4)所示,式中yj表示后件网络第二层中对应第j条模糊规则的输出。
(4)
4 算例分析
将本文介绍的改进模糊神经网络运用于电力继电保护设备评价。继电保护装置评价是根据装置评价标准和装置样本各项指标值,借助数学模型计算得到装置的状态评价等级的过程。在绝大多数评价类问题中,用于评价的采样数据是容易得到的,而采样数据相对应的评价结果,即采样数据的标签数据难以得到。本文采用了等比例随机分布方式内插继电保护装置评价指标标准数据,从而生成足够的训练样本,经网络反复训练后借助自身优良的泛化能力完成继电保护装置状态评价。
按照随机等隔分布规律生成50个向量构成数据集,向量维度为3,数据分布如图1所示。现需将其划分为5个聚类,采用前文所述的算法步骤,生成3输入神经元,5竞争层神经元的SOM网络。使用MATLAB工具箱中的聚类分析模块初始化SOM网络模型。由于SOM网络的聚类效果和设定的迭代次数直接相关,故采取逐步增加迭代次数的训练策略。当继续增加迭代次数而竞争层神经元权值不再发生变化时,认为训练的SOM网络已经收敛,此时得到的权值即为PCM算法的初始聚类中心。数据划分结果以及竞争层神经元拓扑如图2所示,由图可见数据集按照预设的聚类数被均匀地划分进5个聚类中,且竞争层神经元间的距离如实体现了数据集的结构特征。图3展示了聚类算法的最终结果,其中U符号标记的是SOM网络得到的初始聚类中心位置,×符号标记的是最终的聚类中心。不难看出,初始聚类中心已十分接近最终的聚类中心,经改进后的PCM聚类效率将大幅增加。
图1 数据样本分布情况
图2 SOM聚类效果 图3 聚类结果
取5个具有代表性的测试样本数据输入训练好的模糊神经网络,得到评价结果如图4,可见经训练的网络模型能够准确地对训练样本进行等级划分。提取某电力企业设备运行历史数据,随机选择5台继电保护装置采样回路评价数据作为评价集。评价集经模糊神经网络模型计算后得到的评价结果如图5所示,评价结果很好地反映出了装置的状态等级。综上可知,网络模型学习训练样本后能够较好地将知识泛化,进而对未知的输入样本给出合理的结果。
图4 测试集评价结果 图5 实际装置评价结果
5 结论
本文采用聚类算法对模糊神经网络的初始参数进行了改进,首先使用SOM网络对样本数据进行初步聚类,在经过PCM聚类得到聚类中心,进而获得模糊神经网络的初始参数。相较于传统的模糊神经网络在计算速度方面有所提升,为算法的后续改进提供了新思路。
参考文献
[1] 徐宗本. 大数据驱动的管理与决策前沿课题[J]. 管理世界, No.254(11):158-163.
[2] 孙吉贵, 刘杰, 赵连宇. 聚类算法研究[J]. 软件学报, 2008, 19(1):48-61.
[3] Bezdek J C , Ehrlich R , Full W . FCM: The fuzzy c -means clustering algorithm[J]. Computers & Geosciences, 1984, 10( 2–3):191-203.
[4] 周巧萍. 可能性聚类算法的研究[D]. 中北大学.
[5] 杨占华, 杨燕. SOM神经网络算法的研究与进展[J]. 计算机工程, 2006, 32(16):201-202.
[6] 石琴, 马洪龙, 丁建勋,等. 改进的FCM聚类法及其在行驶工况构建中的应用[J]. 中国机械工程, 2014, 25(010):1381-1387.
[7] 李鹏, 李丹, 李喜旺,等. 基于模糊神经网络的电力调度自动化设备健康评估[J]. 计算机系统应用, 2019, 28(02):209-214.