2020年全国各省生产总值和城镇居民平均薪资的聚类研究

首页 > 工程技术 > 城镇建设与科学 > 2023年2期 > 2020年全国各省生产总值和城镇居民平均薪资的聚类研究

2020年全国各省生产总值和城镇居民平均薪资的聚类研究

华光辉

上海对外经贸大学统计与信息学院上海 201620

生成PDF 清样下载

复制成功

摘要: 本文通过不同的聚类方法对2020年全国各省市的GDP和城镇居民的薪资水平通过多个变量进行了聚类分析，分别采用了系统聚类法中的类平均法，离差平方和法，动态聚类法，和无需指定类别数的亲和力传播聚类法，通过各种聚类方法进行比较，找到最合适的聚类方法，旨在通过聚类结果研究在2020年我国经济发展在不同区域之间的态势，希望通过此结果对我国的区域经济发展能够提供有效的参考。在得到聚类结果之后，为了能够清晰地感知聚类结果的实际意义，通过主成分分析的方法对数据进行降维处理，把多元变量降低至二维变量，以此方便数据显示。通过对城镇居民的平均薪资水平的聚类结果进行分析，发现西藏地区的城镇居民平均薪资水平仅次于北京和上海的第一类，与江苏、浙江和广东同属于一个类别，高于同为西部地区的四川和重庆。

关键词: 聚类算法；主成分降维；城市发展程度；

DOI: 10.12721/ccn.2023.157689

基金资助:本项目成果受“2022年度上海大学生创新创业训练计划示范校”建设经费资助；项目名称：2020年全国各省市经济发展水平的聚类研究；项目编号：2022080

一、研究背景与研究意义

2020年是新中国历史上极不平凡的一年。面对严峻复杂的国际形势、艰巨繁重的国内改革发展稳定任务特别是新冠肺炎疫情的严重冲击，在党中央的正确领导下我国经济运行逐季改善、逐步恢复常态，在全球主要经济体中唯一实现经济正增长。根据中国 2020年国民经济和社会发展统计公报显示，全年国内生产总值1015986亿元，比上年增长2.3%，其中，第一产业增加值77754亿元，增长3.0%；第二产业增加值384255亿元，增长2.6%；第三产业增加值553977亿元，增长2.1%。第一产业增加值占国内生产总值比重为7.7%，第二产业增加值比重为37.8%，第三产业增加值比重为54.5%。

然而我国整体经济的总体特征仍然是区域经济发展不均衡，在此背景下，本文想要探究2020年在全国各区域经济发展水平，为了方便研究，以省份和直辖市为单位，通过经济总量和平均薪资水平来观察各区域的综合对比，为我国接下来经济的持续平稳健康发展提供参考。

二、聚类分析介绍

聚类分析的思想是"物以类聚"，它通过考察观测值的不同特征，根据观测值在性质上的亲密或疏远的程度，在不要求有先验知识的情况下自动地进行分类，并且产生多个分类结果。聚类分析具有两个鲜明地特征：同类个体的特征较为相似，异类个体的特征差异性较大。

本文将2020年各个省份的每个产业地区生产总值作为变量，其中包括地区第一产业、第二产业、工业、建筑业、第三产业、交通运输、仓储和邮政业、批发和零售业、住宿和餐饮业、金融业、房地产业、其他服务业，来对2020年各省份的总体发展水平进行分类。采取不同的变量和同样的方法对2020年各省份城镇居民的平均收入水平进行分类。

三、对各省的城镇居民平均收入水平进行聚类分析

图 1 各省市居民平均收入水平

（一）对聚类所依据变量的可视化

通过观察图1，我们可以得到信息：（1）全国各个省份在观测时间高质量发展的绝对水平；（2）个别省份的薪资水平和其他省份有较大差异；（3）总量有所不同，但是各个省份之间的薪资水平分量所占比例大致相同。

图 2不同职工的平均薪资的箱线图

通过对比图 2，可以发现国有单位职工平均货币工资高于集体单位和其他单位平均货币工资水平。

（二）使用k均值法对各省份平均薪资水平进行聚类

k均值聚类法是动态聚类法中的一种，基本步骤如下：

(1)选择k个样品作为初始凝聚点，或者将所有样品分成k个初始类，然后将这k个类的重心(均值)作为初始凝聚点。

(2)对除凝聚点之外的所有样品逐个归类，将每个样品归入凝聚点离它最近的那个类(通常采用欧氏距离)，该类的凝聚点更新为这一类的均值，直至所有样品都归了类。

(3)重复步骤(2)，直至所有的样品都不能再分配为止。

最终的聚类结果在一定程度上依赖于初始凝聚点或初始分类的选择。本文通过python中scikit-learn库中的kmeans进行k均值聚类。

为方便研究选择聚为4类，聚类结果如下：

表 1 使用动态聚类法的不同省市的聚类结果

（三）使用主成分方法进行降维以方便进行比较

为了能够使得聚类结果能够更好的显示，以便于对结果有更好的感知，通过主成分降维技术把 12 个变量降维成 2 维变量，以便于能够通过散点图显示数据。

1.主成分分析方法介绍

主成分分析方法，是一种使用最广泛的数据降维算法。其主要思想是将 n 维特征映射到 k 维上，这 k 维是全新的正交特征也被称为主成分，是在原有 n 维特征的基础上重新构造出来的 k 维特征。PCA的工作就是从原始的空间中顺序地找一组相互正交的坐标轴，新的坐标轴的选择与数据本身是密切相关的。其中，第一个新坐标轴选择是原始数据中方差最大的方向，第二个新坐标轴选取是与第一个坐标轴正交的平面中使得方差最大的，第三个轴是与第 1,2个轴正交的平面中方差最大的。依次类推，可以得到n个这样的坐标轴。通过这种方式获得的新的坐标轴，我们发现，大部分方差都包含在前面k个坐标轴中，后面的坐标轴所含的方差几乎为0。于是，我们可以忽略余下的坐标轴，只保留前面k个含有绝大部分方差的坐标轴。事实上，这相当于只保留包含绝大部分方差的维度特征，而忽略包含方差几乎为0的特征维度，实现对数据特征的降维处理。

通过降维处理，各省份和直辖市分类结果在二维平面的散点图如图 3所示

图 3 使用PCA之后的散点图

2.使用系统聚类法

使用类平均法和离差平方和法两种态聚类法相同，同样聚为 4 类使用类平均法的聚类结果是：

表 2 使用类平均法的聚类结果

3.使用离差平方和法

表 3 使用离差平方和法的聚类结果

4.使用近邻传播聚类方法

Affinity Propagation Clustering是2007年在Science上发表的一篇 single-exemplar-based 的聚类方面的文章。特别适合高维、多类数据快速聚类，相比传统的聚类算法，从聚类性能和效率方面都有大幅度的提升。其优点有很多，其中最重要的是不需要指定最终聚类族的个数。

Affinity Propagation 聚类方法是通过在样本对之间发送消息直到收敛来创建聚类。然后使用少量示例样本作为聚类中心来描述数据集，聚类中心是数据集中最能代表一类数据的样本。在样本对之间发送的消息表示一个样本作为另一个样本的示例样本的适合程度 (suitability)，适合程度值再根据通信的反馈不断更新。更新迭代直到收敛，完成聚类中心的选取，因此也给出了最终聚类。

表 4 使用近邻传播聚类算法得到的结果

同样使用主成分分析法进行降维得到

图 4 降维之后的散点图

（四）各省的城镇居民平均收入水平差异性分析与结论

综合以上各种聚类方法可以得到，各省居民平均收入是北京市、上海市归为一类，西藏、天津、广东、江苏和浙江为一类，而其余省份之间差异并不是非常明显。从这些数据中我们可以看到北京、天津和以长三角和珠三角为中心的省份在我国居民收入水平仍然占据较高水平，其中西藏自治区平均薪资水平也普遍高于其他省份。

（五）对各省的全年 GDP 水平进行聚类分析

1.聚类依据变量的显示

为了真正显示各省全年的GDP水平，选取的宏观经济指标有第一产业的地区生产总值、第二产业的地区生产总值、第三产业地区生产总值、工业地区生产总值、建筑业地区生产总值、交通运输、仓储和邮政业地区生产总值、批发和零售业地区生产总值、住宿和餐饮业地区生产总值、金融业地区生产总值、房地产业地区生产总值和其他服务业地区生产总值这些宏观指标，各个指标之间的总量对比如图5 所示。

图 5 各个省份不同部门生产总值所占的比重

通过数据的可视化，我们可以发现部分省份的经济总量相对来说差距较大，而较容易聚类。

2.使用Kmeans进行聚类

为了方便研究聚成4类，聚类结果如下：

表 5 使用Kmeans 进行距聚类的结果

3.使用系统聚类法

使用类平均法和离差平方和法两种方式对该变量结果进行聚类，与使用动态聚类法相同，同样聚为4类，使用类平均法的聚类结果是：

表 6 类平均法的聚类结果

4.使用离差平方和法

表 7 使用离差平方和法的聚类结果

5.使用近邻传播聚类方法

表 8 使用近邻传播的聚类方法

四、对各省的全年生产总值水平差异性分析与结论

通过比较以上各种聚类方法，我们可以得出结论。部分省份之间的总产值具有较大差距，从而不同聚类方法得到聚类结果几乎一致，说明区域与区域之间经济规模存在代差，主要表现是广东和江苏两省远超其他省份的经济规模，其次是浙江和山东，经济体量大的省份都是沿海的省份，且以长三角和珠三角为代表，这也体现了我国改革开放以来先沿海后内地的逐步发展格局。

五、结果分析与结论

综合 2020 年全年各省份的经济总量和平均薪资水平的分类结果如下：

表 9

我们可以发现，由于各省份体量不同，有些省份如山东、河南和四川，虽然生产总值较高，但是平均薪资水平在全国处于较落后地位。但是有些地区虽然经济体量占据很小部分，但是城镇居民平均薪资水平处于领先地位，其中西藏较为明显。西藏地区作为依靠旅游业相关的服务业为支柱产业，根据^[2] 西藏的工资水平高，跟其地理环境和产业结构息息相关。西藏因为高海拔，地广人稀，农作物种植基础差，生态脆弱，一二产业整体比较薄弱。根据

2017 年西藏年报，第一、二、三产业增加值所占比重分别为 9.4%、39.2%、51.4%。虽然第三产业是支柱，但不同于北上广深等发达地区，其产业布局，是建立在一、二资源和环境禀赋先天受限的基础上的，并不是产业和经济结构自然进化成熟的结果。西藏的金融业平均工资遥遥领先，直逼北京和上海，远远高于国内其他省份。作为一个旅游产业占比很大的省份，西藏需要接纳大量外地游客，对于食宿和餐饮从业者的需求量也大。但西藏一共只有

300 多万人口，劳动力供应有限，这使得西藏地区食宿和餐饮从业者的平均工资，远远高出全国平均水平。通过本文对各省份经济状况的研究，可以发现不同经济体间的经济结构的发展水平，以便于为后续政策指定，保证经济平稳健康发展提供参考。

注：本文所有数据来源于CSMAR数字经济研究数据库。

参考文献：

[1]许振乾. 我国西部省份经济高质量发展水平测度与差异性研究 [D]. 新疆大学,2020.

[2]张甜迪. 金融化影响金融, 非金融行业收入差距的区域异质性研究——基于中国省际面板的实证分析 [J]. 南方经济, 2017,36(4):96–108.

作者简介：华光辉（1999.07-），男，汉，河南开封人，上海对外经贸大学统计与信息学院本科在读，经济统计专业。

指导老师：柳树，上海对外经贸大学副教授。