国产化服务器平台故障诊断系统设计
王宇耕 赵博颖
生成PDF 清样下载 引用

复制成功

导出题录

参考文献( GB/T 7714-2015 ) 复制

王宇耕 赵博颖,. 国产化服务器平台故障诊断系统设计[J]. 信息通信与技术,2024.3. DOI:10.12721/ccn.2024.157301.
摘要:
随着国产化平台设备集成化、综合化和智能化水平的提高,服务器研制的风险越来越大、研制的周期越来越长。同时,也对服务器运行状态的检测以及维修手段提出更高的要求。本文提出一种智能化故障诊断系统,通过特征数据采集、数据融合处理、状态监控与故障诊断等多个步骤,改善系统测试性,为设备稳定可靠运行提供辅助支撑。
关键词: 国产化服务器;故障诊断;特征数据;IPMI;SNMP
DOI:10.12721/ccn.2024.157301
基金资助:

1. 引言

当前国产化服务器的复杂性、综合性以及智能化程度不断提高,其研制、生产尤其是维护和保障的成本越来越高。同时,组成环节和影响因素的增加,使得整个服务器系统发生故障和功能失效的几率逐渐加大[1]。因此为提升设备维护性和管理性,为设备稳定可靠运行提供辅助支撑,要求管理系统具备关键部件实时监控,故障诊断预警、自动应急操作以及远程管理等功能。

为此本文基于国产服务器平台构建智能化故障诊断系统,通过特征数据采集、数据融合处理、状态监控与故障诊断等环节对服务器全生命周期进行健康状态监测。特征数据采集既包括利用不同传感器对不同部位的数据进行实时采集,也包括采集数据通过协议传输到指定位置,此功能的实现依赖于SNMP/IPMI技术协议;传感器等采集到的数据需要通过融合处理后才能进行后续的故障诊断;状态监控对板卡节点所要监测的参数指标,同每类故障预定的阈值进行对比,若超出阈值外,则判定模块发生故障。故障诊断会根据各个模块的状态信息,评估整个服务器系统的健康状况。

2. 系统体系结构与实现

故障诊断系统主要包括以下几个环节:特征数据采集、数据融合处理、状态监控与故障诊断。体系结构如下图所示:

图片1.png


图1 故障诊断系统体系结构

a)特征数据采集

特征数据采集既包括利用不同传感器对不同部位的数据进行实时采集,也包括采集数据通过协议传输到指定位置。这里引入带内带外相融合的数据采集方式。带内信息主要包括CPU、内存、磁盘、网络等资源状态信息,带外信息则包括温度、电压、电流等硬件状态信息。针对服务器设备的一些带内带外信息列举如下:

表1 服务器带内带外信息

截图1740107109.png其中带内信息通过调用SNMP(简单网络管理协议)协议的set、get、getnext、getsubtree等操作获取,以获取CPU使用率为例:

snmpget -v 2c -c public localhost 1.3.6.1.4.1.2021.11.10.0

带外信息的获取依赖于IPMI协议。通过管理单元(CMM)和基板管理器(BMC)两级前后端分工协作的方式,实现对各功能单元存在性的检测,内部温度、电压等传感器信息的监测,机箱温度监测、风扇转速调节、故障告警以及远程开机、关机和复位操作等。

将带内状态信息与带外硬件数据相融合,打通带内带外的通道,通过不依赖计算业务模块处理器的带外管理技术实现对硬件设备的实时监控,利用依赖计算业务模块处理器的带内管理技术实现对系统资源的辅助感知,不仅获取的设备状态数据更加全面详细,也进一步提高服务器系统的可维护性和管理性。

b)数据融合处理

采集到的特征数据需要通过融合处理后才能进行后续的故障诊断。针对服务器平台的特点,提出两种数据融合策略:

(1)在复杂的服务器系统中,所要监测的模块包括计算节点、交换节点、电源节点以及存储节点等,涉及的特征参数指标较多,若没有经过前期处理,那么在后续系统计算的复杂度就会较高,所以在进行特征提取前,首先对模块的特征数据进行综合处理,去掉冗余的特征参数,接着确定所要监测的参数指标,最大限度涵盖能够表示设备是否故障的参数特征,然后开始特征选择。

(2)状态监测和诊断时,有时会出现多个相同的故障信息,全部记录到日志中会造成一定的数据冗余,将多条相同故障信息合并成一条,这样有利于后续系统日志的生成,以及对其的分析。同时,当系统监测时,发现了之前从未遇到的故障,将此类新的信息同之前的故障信息相融合,即将新故障类别写入到数据库中,并对其解决方法进行匹配对应,达到智能化运维的目的。

c)状态监控与故障诊断

状态监控对服务器系统所要监测的参数指标,同每类故障预定的阈值进行对比。若超出阈值外,则判定模块发生故障。故障诊断会根据平台各个模块的状态信息,评估整个系统的健康状况,并在发生故障时,判断故障原因及故障的严重程度。

状态监控与故障诊断的实现借鉴专家系统的概念[2],根据服务器各模块的状态信息数据,采用专家系统对平台的健康状况进行评估。下图为专家系统结构图。主要包括故障知识数据库,故障推理机制以及故障数据库管理系统。

图片2.png图2 专家系统结构

服务器各模块的设计过程中,对可能或已知会造成板卡或整机故障的各种软硬件、环境等因素进行分析,画出关系逻辑图,分析出各模块常见故障的原因,并将这些故障知识以列表的形式保存在服务器故障知识数据库中。平台运行过程中,通过IPMI/SNMP协议定时采集特征数据信息经数据融合处理后按照一定策略发送至故障知识数据库进行判断,利用知识库的故障知识信息进行推理,得到最终故障原因。

同时引入故障数据库管理系统,主要进行知识数据库的添加、修改以及删除。基本操作流程如下:首先建立初始的故障知识数据库,录入历史调试数据、工程经验等信息。当系统开始诊断工作时,将处理后的服务器各模块的特征数据信息输入给故障推理系统,推理系统根据诊断过程的需要来运行推理判定,并与故障知识数据库中的相关故障信息进行匹配对比,评估平台各模块的健康状况,若发生故障,而故障数据库中无此故障信息,则对应执行添加操作。修改以及删除操作与之类似。

3. 结束语

本文基于服务器平台设计实现的故障诊断系统,能够监控所有支持IPMI/SNMP协议的硬件设备,可实时监控其运行状态,并在硬件设备出现故障时及时上报,改善系统测试性,提高故障诊断的精确性并缩短诊断时间,降低对维修人员的技能要求和维修保障成本。

参考文献

[1] 邱立军,吴明辉.PHM技术框架及其关键技术综述[J].国外电子测量技术,2018,37(2):10-15

[2] 廖捷,肖燕妮,罗江等.航天电子设备故障诊断专家系统知识获取方法[J].测试技术学报,2019,23(03):279-282

》在线投稿系统

*文章题目:
*作者姓名:
*电子邮箱:
*通讯地址:
*联系方式:

  备      注:

*上传稿件:

支持上传.doc,.docx,.pdf,.txt,.wps文件

投稿须知:

1、审稿结果将于1~7个工作日以邮件告知,请注意查收(包含录用通知书、审稿意见、知网CNKI查重报告)。

2、提交投稿后,若7个工作日之内未接到录用通知,则说明该文章未被录用,请另投他刊。

3、凡投寄本刊稿件,如在内容上有侵权行为或不妥之处,均应文责自负。本刊有权对来稿进行文字编辑、加工和修改,如不同意,请附说明,以便妥善处理。

4、多作者文稿署名时须征得其他作者同意,排好先后次序,通知用稿后不再改动。

5、凡投往本刊稿件一经录用发表,其版权归本刊所有。

6、本刊已全文录入中国知网、万方、维普等数据库,如作者不同意被收录,请提前申明,未申明者,本刊一律视为同意被收录。

7、请勿一稿多投。