飞行训练过程中产生了大量的飞行训练资源,包括机载飞行数据、飞行环境数据、、教员/检查员评价等数据。这些飞行数据完整地记录了飞行训练过程,同时体现着着飞行员的操纵技能与核心技术能力的水平。通过对这些信息的理解和应用,将有助于创新飞行训练评估手段,提高飞行训练评价分析的客观性和准确性。因此,如何将传统飞行训练评估中基于教员经验的主观、定性评判,转化为基于训练数据、融合教员经验、体现飞行训练不同侧面的全面、客观、量化评估分析是大数据驱动的飞行训练客观量化评估分析技术是大数据驱动飞行训练智能评估方法研究的一个重要方面。
一、飞行训练中的主要飞行参数
机载数据系统中记录的飞参数据主要分为以下几个部分:
与飞机飞行状态有关的参数:例如平均海平面气压高度、指示空速、升降速度等:与飞机飞行姿态有关的参数:姿态角、坡度等;
与飞机飞行航向有关的参数:航机角、磁航向等;
与飞机发动机状态有关的参数:发动机转速、排气温度、飞机剩余油量等:
在飞行训练过程中涉及到的主要参数包括:发动机转速、指示空速、姿态角、平均海平面气压高度、坡度、航迹角、与垂直加速度变化量等。
二、基于时间序列聚类的飞行训练品质评价方法研究
聚类分析是根据样本集中每个样本的特点将它们之间近似程度较高的样本分配到同一组别中。聚类的结果为,将整个样本集分成几个不同的组别,组间的数据差距较大而组内的数据是相似的。聚类效果可以根据每一组中数据的相似性、不同组中数据的相似程度得出。其中具体表现为同一组中的数据相似性较大,不同组间的相似程度较低则说明聚类效果较为良好。
(一)k-means 聚类:
k-means算法思想起源于1957年Hugo Steinhaus、,k-means 聚类是一种基于划分的聚类方法,其思想为计算所有数据与每个样本质心间的距离,根据计算出的距离对数据进行划分,具体划分方法为比较数据与每个质心间的距离,将数据划分到距离最小的那一组中,这样做的原因是因为当数据与质心间的距离越小,说明该数据与质心越相似,它们之间的距离越大,说明该数据与质心的相似度较低,因此把该数据放在距离最小的那一组中。k- means 算法拥有许多优点,该算法原理简单,实现起来非常容易,在时间复杂度方面则拥有较高的运行效率,该算法适用范围较为广泛,对于高维数据的聚类也同样适用。k-means 算法同样有一些缺点,由于该算法采用贪心策略,使得该算法容易导致局部收敛,当在大规模数据集上使用该算法则会使得计算速度较慢。对于k-means算法来说,影响聚类结果最为关键的两个参数是k值和初始聚类中心,这两个参数的选取会对聚类结果造成很大的影响。对此,在k-means 的基础上有了k-means++算法,该算法很好的解决了初始质心的选择这个问题。
(二)DBSCAN算法
DBSCAN(Density-Based Spatial Clustering of Applications with Noise)具有噪声的基于密度的空间聚类方法。该算法根据密度进行聚类,其思想为将密度足够大的区域划分为簇,同时在具有噪声的空间数据库中发现任意形状的簇,其中每一个簇为密度相连的点的最大集合。DBSCAN 拥有不少的优点,其具体表现为该算法它不需要在聚类前指定族的个数,因为该算法在聚类后得到的簇的个数是不定的。该算法在对稠密样本集进行聚类时可以不用考虑样本集的形状,对于数据的输入顺序方面不敏感、对于噪声不敏感,同时该算法在聚类时能够发现样本集中的存在的噪声点,该算法主要适用范围为非球型数据集。
(三)STING算法
STING统计信息网格算法 是一种基于网格的聚类算法该算法通常将数据划分成有限个单元,之后对每个单元进行处理。由于该算法不用考虑每个单元中数据的多少,而是直接对每个单元进行计算,使得该算法的计算速度较快。该算法的思想是将将空间划分为多个网格,每个网格代表着不同的分辨率。STING算法拥有不少的优点,具体表现为该算法多分辨率,同时查询效率非常高,查询时间为 O(g)g 为最底层网,该算法对于数据的输入顺序不敏感。该算法同样也有缺点,缺点是参数会对结果造成很大的影响,网格机构的最底层粒度同样会对结果造成很大的影响。如果最底层粒度太细,处理的代价会大大增加。最底层粒度太粗,聚类的质量会显著降低该方法不适用于高维数据
三、基于时间序列聚类的飞行训练品质评价方法
(一)k-means++算法
因为k-means算法中初始聚类中心的选取对算法结果影响很大,但算法本身并没有描述如何选取初始聚类中心,2007年由DArthur等人提出的kmeans++算法便解决了这个问题。k-means++算法适用于数值型数据,同时相比于k-means 算法,它拥有可以确定地初始聚类质心、算法的迭代次数较低、和算法的收敛速度较高等优点。
(二)手肘法
k-means算法中并没有具体表明参数中的k值如何选取,而根据实际经验得到的聚类数并不能保证准确,为了从数据集中得到实际的k值,选择手肘法来确定k值。手肘法核心思想为当数据进行聚类时,随着聚类数k的改变,数据划分的精细程度会进行变化,具体的对应关系为当聚类数k逐渐增大时,样本的划分会更加的细致,得到的每个簇的聚合程度会慢慢提高,误差平方和 SSE 会逐渐变小。
(三)算例分析
将获取的文件按照每一圈飞行训练为单位进行划分,得到每一圈飞行训练的飞参数据,之后将飞参数据按照飞行动作进行阶段划分,不同的飞行动作拥有不同的特征参数,这些特征参数可以代表该飞行动作,因此研究对象为飞行动作中的特征参数。在上一章中计算出飞行动作中每一个特征参数参数与标准飞行模板值间的时间相似性度量,得到他们之间的时间序列距离,这些时间序列距离就是时间序列聚类的数据基础。考虑到时间序列距离都是数值型数据,虽然由第四章得出的总时间序列距离较为复杂,但是按照每一圈飞行训练将总数据集划分为多圈飞行训练可以使得时间序列距离的复杂度下降按照飞行动作将每一圈飞行训练的时间序列距离进行划分又会进一步降低距离的复杂度,又因为飞行动作中的特征参数可以代表该飞行动作,在时间序列聚类中只需要对每个飞行动作中的特征参数所对应的时间序列距离进行聚类即可,这样聚类的对象从整个文件的时间序列距离缩小到了飞行动作中特征参数的时间序列距离,最后可以根据时间序列聚类的结果对整个飞行动作进行间接的评估,其中初始聚类中心越小的那一组数据代表着与标准飞行模板越相似,即飞行成绩更加优秀,而初始聚类中心越大的那一组数据代表着与标准飞行模板间的相似程度越低,即飞行成绩较差。考虑到实际聚类过程中的数据集在一步步缩小范围后数据的复杂变得非常低,因此k-means 算法完全能够胜任本次聚类,因此本文时间序列聚类的方法采用 k-means 方法。
四、结语
本文首先介绍了聚类分析与聚类的主要方法以及它们的优缺点。考虑到实验数据的复杂度最终决定采用 k-means方法进行聚类。k-means方法中最重要的两个参数k值与初始质心,关于这两个参数的选择,k 值可以通过手肘法得出,而初始聚类中心可以通过k-means++算法得出。实验中将飞参数据按照飞行训练、飞行动作、特征参数进行划分,将数据进行简化,利用第四章中计算出的时间序列距离对每个飞行动作中的特征参数进行时间序列聚类,根据每一组聚类结果的聚类中心的大小对飞行训练做出基于时间字列聚类的评价。
参考文献:
[1]彭飞.基于飞行数据模式匹配的飞行训练评估系统研究与实现[D].武汉理工大学,2016.
[2]张龙基于模糊逻辑的飞行员飞行品质评价[D].中国民用航空飞行学院,2016.