1引言
根据世界卫生组织最新数据,乳腺癌已经超越肺癌成为全球第一大恶性肿瘤,乳腺癌在女性癌症患者中占比高达31%,发病率和死亡率均为首位[1]。乳腺癌的早期发现和不同乳腺癌亚型的针对性治疗可以提高治疗效果,减少并发症,并大大降低病人的死亡率,减轻病人的痛苦,对于治疗和预后具有重要意义,因此乳腺癌的分类算法也具有重要意义。
早期乳腺癌的分类技术主要是依靠人工挑选特征和手动构建分类器,例如SVM和决策树等。随着深度学习技术的飞速进步,卷积神经网络(CNN)、自编码器(AE)和深度神经网络开始将多模态特征融合,为乳腺癌的分类提供了新的方法。这些方法具有自动学习特征,缩短了提取特征时间,同时能获得更多的有效特征[2]。但在一些情况下,深度学习模型的可解释性和稳定性不如传统方法,在样本量不足时容易产生过拟合和易陷入局部最优解的问题[3]。此外,乳腺癌的生物学特征复杂多样,其分类存在多个亚型和亚类,此类复杂性使得准确分类变得更加困难。而BP神经网络具有更强大的非线性拟合能力和更好的抗噪声能力,能够适应复杂多样的乳腺癌数据,还可以融合多种模态的特征,可以有效地处理大量的乳腺癌数据,提取对诊断和治疗有意义的高层次特征。
因此,本文针对当前乳腺癌分类方法的缺陷,借助 BP神经网络可以在训练过程中自动学习特征,并具备有适应复杂问题和非线性关系的能力[4],从而将BP神经网络应用于乳腺癌的分类问题。本研究的目的是协助医生和研究人员更深入地掌握乳腺癌的各个亚型和亚类,从而为制定治疗计划和进行预后评估提供更为精确的参考依据,辅助医疗专业人员在实际工作中做出更有意义的决策。
2实验过程
本实验选用的乳腺癌数据集包含569个乳腺肿瘤样本,阳性样本357,阴性样本212。其中每个样本包含30个生物学特征和1个分类标签,分类标签分为良性(B)和恶性(M)两种。
该数据集原型是从一组病灶造影图片中通过图片处理程序抽取特征值。本数据集只关注了10个原始特征,然后又求得每个原始特征的标准差和最大值作为两个衍生特征,这样,最终数据集呈现出的效果便是30个特征。
3模型的建立
3.1模型简介
BP神经网络模型结构如图1所示,网络结构由输入层、隐藏层和输出层组成,其中输入层是模型的入口[5],接收来自数据集的特征向量,隐藏层在输入层和输出层之间,起到提取特征和建立特征之间关系的作用,输出层则表示预测的分类结果。每个层中的神经元都与下一层中的所有神经元相连。隐藏和输出层的神经元都有一个激活函数。
图1 BP神经网络结构图
本次研究采用ReLU非线性映射函数,ReLU非线性映射函数作为激活函数,如果输入小于0,输出为0;当输入大于0时,其输出与输入相等,可以有效地减轻消失的梯度问题,增强了模型的非线性表达能力。该方法对 BP神经网络进行了训练,并对其进行了权值调节。采用反向传播算法,利用训练样本对模型进行训练,从而更好地对疾病进行分类。反向传播算法将误差信号从输出层向后传输,通过调整权重和偏差参数来更新网络并降低误差。
BP神经网络是通过对训练集的样本进行学习,并根据训练集的样本值来自动调节权值和偏置,从而使预测值与实际值的偏差达到最小。该模型采用信号正向传播和误差反向传播两个阶段进行训练。
3.2 模型算法
BP神经网络的算法流程图如图2所示,具体流程如下:
图2 BP神经网络算法流程图
(1)数据预处理:数据预处理包括数据的清洗、特征的提取和数据归一化。对数据进行归一化处理,将不同特征的数据值缩放到相同的范围,以便于神经网络的训练。这些步骤能够有效剔除数据中的噪声和异常值,并提高数据的有效性和一致性。将数据分为训练集和测试集两个部分,其中测试集占总数据的20%。
(2)初始化参数:设定权重和偏置的初始值。本研究拟利用多层感知机(MLPClassifier)函数,通过Adam优化器与ReLU非线性激活函数,设定迭代次数1000次、正则化项参数alpha=1e-3,隐藏层神经元个数分别为64, 32, 32。
(3)前向传播,计算误差:将训练集中的所有样本输入到网络中,并计算输出层的误差。
(4)反向传播:将误差信号传回到隐藏层,并计算隐藏层的误差。
(5)更新神经网络权重:在此基础上,利用损失函数求出梯度值,对神经网络进行权重和偏置的更新。
(6)判断误差是否达到期望,如果误差还没有达到期望的临界值,则返回重新输入样本进行迭代训练,并反复执行前向传播、计算损失和反向传播等步骤,直至所需训练次数达到预定值或损失收敛为止。
4模型的求解
4.1评价指标的选择
为了评估模型的分类预测性能,在进行乳腺癌分类任务的评价时,选取准确率(Accuracy)、精确率(Precision)、召回率(Recall)和F1分数(F1 Score)等为评价指标[6],对模型的分类效果进行评价。以下是评价指标及其计算公式:
准确率(Accuracy):预测正确的所有样本占所有测试样本的比例。其计算公式为:
(1)
其中,TP(True Positive)表示真正例,即在测试集样本中真实标签为恶性,模型预测结果也为恶性的样本个数;TN(True Negative)表示真负例,即在测试集样本中真实标签为良性,模型预测结果也为良性的样本个数;FP(False Positive)表示假正例,即在测试集样本中真实标签为良性,模型预测结果却为恶性的样本个数;FN(False Negative)表示假负例,即在测试集样本中真实标签为恶性,模型预测结果却为良性的样本个数[7]。
精确率(Precision):预测为正样本的观测值中真正例的比例,用于衡量预测结果中正确预测为某类的样本数量。其计算公式为:
(2)
召回率(Recall):实际为正样本的观测值中真正例的比例,用于衡量模型能正确识别出某类样本的能力。其计算公式为:
(3)
F1分数(F1 Score):综合了准确率和召回率,是精确度和召回率的加权平均值,用于综合评价模型的性能。其计算公式为:
(4)
Support (支持度):测试集中每个类别的样本数量。
4.2 模型分析
基于BP神经网络预测乳腺癌分类的混淆矩阵如图3所示,仿真实验预测结果如表1所示。从表格中可以看出,模型在类别 0 和类别1上的准确率分别是 1、0.92,召回率分别为 0.86和1,F1分数分别为 0.92和0.96。总体上的准确率是0.95。由此可以看出,BP神经网络模型在乳腺癌分类问题的拟合中表现较好,对乳腺癌的分类具有更好的应用前景。
图3 基于BP神经网络预测乳腺癌分类的混淆矩阵
表1 仿真实验预测结果表
实验结果表明,BP神经网络在进行乳腺癌分类预测时,表具有很好的非线性映射能力、自学习自适应能力以及泛化能力。
研究表明,BP神经网络在学习时容易陷入局部极小化。BP神经网络是一种求解复杂非线性问题的局部搜索的优化方法,其权值按局部最优方向逐步调节,这样会使算法陷入局部极值,权值收敛到局部极小点,最终导致网络训练失败。此外,BP神经网络对初始权值十分敏感,当权值不同时,BP神经网络容易陷入各种不同的局部极值。
5 结论
本文以乳腺癌数据集为研究对象,采用BP神经网络构建一个新的乳腺癌分类模型,实现了对乳腺癌的自动分类。该方法能够弥补现有乳腺癌分类算法的不足,提升分类的准确率和速度,并可有效地帮助医师进行精准、及时的诊断,降低人为主观因素的干扰。本项目将促成医学影像学与深度学习算法的融合,推动医学科技与技术的发展与应用,为更广泛的疾病的诊断和治疗提供技术支持和创新思路。