引言:互联网的普及推广与信息技术的极大进步为自动化运维创造了良好的发展条件和客观环境。经济建设和社会发展对自动化运维提出了新的要求,促使自动化运维不断调整和优化。面对新的发展环境,相关人员应当就自动化运维的相关问题展开研究,为行业发展提供助力。
一、自动化运维的基本情况
近年来,互联网的广泛应用与计算机技术的迅速普及客观上带动了大数据技术的发展。信息时代出现了数量庞大的信息数据,便利了社会各界生产生活的同时,带来了相应的信息处理问题,例如:信息采集工作的效率较低、有效性较差,在存储信息的过程中容易出现数据格式、存储形式等方面的问题。在解决上述问题的工作中,自动化运维技术的重要性得以凸显。
除此之外,社会各行各业在发展过程中逐渐重视信息化及数字化转型工作,对虚拟技术的应用越来越广泛,这种变化使得数据中心服务器的数量快速增长,传统的人工运维管理模式已经不能应对复杂工作环境提出的要求和挑战,因此,需要积极研究并开发自动化运维技术手段。
二、自动化运维的技术要点
(一)架构设计
技术选型方面,一般要考虑技术手段与主流操作系统之间的兼容性,如Linux、AIX、Windows等[1]。除此之外,还应当注重安全性和扩展性,确保所用技术手段能够实现自动化运维的代理部署,在可控范围内管理节点资源,并支持自定义作业脚本管理。在技术选型方面,相关人员可以从系统的稳定性和整体开发周期两个角度出发,尽可能将系统稳定性维持在较高的水准中,平衡自动化运维平台质量和开发周期之间的关系。
现有市场环境、行业发展等客观因素对自动化运维平台的架构提出了较多要求,要求自动化运维平台有着较高的可用部署,冗余等级较高,支持多任务大并发,为以后的规模增长留出空间和余地。一般情况下,自动化运维平台可以分为调度、作业、补丁源、版本、数据库等多个服务器,分别负责不同的工作内容。相关人员可以从各个服务器的功能设计出发,以提升平台可用性为目的,开展针对性设计。例如,相关人员在设计作业服务器时,应当配备灾备冗余,使用本地集群化部署,并采取无状态设计,搭建一键重启脚本,提高平台运行处理速度,降低系统运行风险。
(二)安装调试
安装调试工作的主要目的是核查自动化运维平台各个组成部分设计的科学性和合理性,自动部署软件、数据、工具等,为自动配置和批量操作奠定良好的工作基础。
传统的安装调试工作以人工手段为主,需要操作人员手动拷贝原始文件、点击安装工具、确定数据及配置路径。在整个安装调试工作中,操作人员需要多次执行复制粘贴操作,工作效率较低,容易出现工作失误和偏差。
自动化运维工具可以自动完成数据软件部署和工具安装,以U盘或指定文件夹为工作载体,方便快捷。并且,在完成自动部署工作的基础上,自动化运维工具可以生成工作报告,为二次核对工作提供了便利。操作人员可以利用自动化运维平台的前端交互页面确定配置订单,生成清单后,系统平台会按照清单内容逐项修改系统配置,生成配置报告,供操作人员核对归档。在自动化维护工具的帮助下,操作人员可以选择多台机器,同时操作,缩短工作时间,提高工作效率。除了必须由人工操作的测试环节之外,自动化工具可以实现更加准确、全面、快速的核对和测试。
(三)运维操作
其一,系统巡检。由于自动化运维平台的功能较为广泛,涉及了多个工作领域,因此,系统巡检工作的指标数量较多。技术人员需要按照自动化运维平台的功能设置、工作要求、技术条件等因素为每个系统巡检指标建立告警阈值。当自动化运维平台在巡检过程中发现现有平台状态与告警阈值存在较大偏差时,则及时向相关人员发出警告,标明系统运行风险,全面排查自动化运维平台的漏洞和问题。
其二,密码自动管理。在监管安全的要求下,系统用户的密码应定期更换,并保持较高的密码强度。人工更换密码的工作存在一定的密码泄露风险,并且不能保证密码的复杂程度。因此,相关人员需要实现密码自动管理。相关单位可以使用双人保管机制,避免管理员恶意使用风险。
其三,操作系统补丁升级。针对主流操作系统的补丁升级工作,相关人员可以从官方网站中下载最新的补丁,并将其同步传输到补丁源服务器当中。这一过程均为服务器自动操作,降低了人工下载及上传补丁带来的风险因素。为了避免补丁获取的不全面与不及时,技术人员可以设计补丁获取服务器,设置工作周期,及时从官网获取补丁。
(四)运营阶段
以往的运营阶段将工作目标限制在主要设备的硬件与软件的监督和分析工作中,对其他设备信息的收集程度较低[2]。为了解决这一问题,工作人员应当采取自动化运维。以计算机联锁系统为例,在运营阶段,相关人员可以从以下几个功能入手。
一,工控机类。工控机是维修机以及软件运行的载体,决定了系统平台的稳定性。工控机在运营阶段的监测工作可以从CPU、内存、网卡、硬盘、操作日志等多个方面进行。除此之外,还需要核对工控机的出厂时间和持续运行时间。
二,网络类。计算机联锁系统各个设备之间的通信主要依靠网络通道,在信息技术和线上通道的支持下实现各个设备的协同交互。因此,在监测CPU和内存的基础上,工作人员还需要仔细检查交换机和网络通道的具体情况。
三,联锁机类。联锁机是计算机联锁系统的关键要素,维持着系统运行的稳定状态和安全性。联锁机的监测内容较为细致,以板卡为例,工作人员需要检查板卡性能、CPU与内存占用率、运行温度、电压、连续运行时间等。
(五)维护处理
自动化运维平台的工作强度较大,长时间处于高压状态下,极易出现系统故障或运行问题。故而,相关单位在使用自动化运维平台时需要合理规划维修与养护工作的时间,排查系统故障和风险隐患因素。
以往的计划性维护手段拥有固定周期,检查与测试项目较为常规,主要为预防性维护。在长期工作实践中,存在不必要检修现象。自动化运维平台的维护工作并不循序固定周期,而是以自动化运维系统平台对运行状态和工作数据为基本参考条件,根据设备历史数据判断是否需要开展维护工作。这一特征使得每一次维护处理工作均有着较强的针对性和实效性,避免了不必要的维护工作。维护工作的主要目标是工控机、电源、硬盘、硬件板卡等硬件设施。
针对突发性故障,自动化运维平台可以为检修人员制定更加科学合理的设备检修方案和故障排查策略,并提供可视化显示和直观引导,将故障部位的实际情况展现给检修人员,为检修工作创造便利条件和良好环境,提高检修工作的效率,尽快完成故障排查及处理工作,使平台系统恢复正常的工作状态和运转效率。
结论:在大规模服务器环境中,相关人员需要研究自动化运维平台及其技术。在架构设计阶段,相关人员应该从工作需要出发,结合自动化运维平台的特点设计各个环节。为了保证自动化运维平台能够正常使用,相关人员需要开展安装调试工作,并从运维操作、运营阶段、维护处理等多个方面完善自动化运维平台。
参考文献:
[1]隋利锋,曾庆辉.大规模服务器环境下自动化运维探索[J].当代金融家,2022(05):150-151.
[2]黄鲁江.计算机联锁系统的自动化运维技术[J].铁道通信信号,2021,57(11):18-21.