主成分聚类分析在行业统计数据中的应用_主成分聚类分析

【摘要】:改革开放以来,在高速发展的中国经济带动下,各行各业有了飞跃的进步。当然,中国经济的发展也离不开各行各业认人士的辛勤劳动。虽然每个人从事的行业有所不同,但是每个人也都能在自己的行业上作出自己的贡献。文章以我国31个行政单位为研究对象,采用主成分聚类分析方法,运用spss19.0版软件,针对按照行业统计的31个行政地区的就业人数数据对31个行政地区进行聚类分析,表明了行业就业人数与地区的经济有关。

【关键词】:行业统计;主成分分析法;聚类分析法

中国分类号:C81 文献标识码:A

The Application of Clustering Analysis in Industry Statistical Data

Abstract: Since China"s reform and opening up, in the rapid development of Chinese economy, the progress of all walks of life has a leap. Of course, China"s economic development is inseparable from all walks of life to recognize people"s hard work. Although everyone is engaged in the industry is different, but everyone also can in their own industry to make its own contribution. Article 31 administrative units in China as the research object, using the principal component cluster analysis method and spss19.0 version software, according to industry statistics of 31 administrative region"s employment data clustering analysis was carried out on the 31 administrative regions, suggests that the industry employment related to the region"s economy.

Keywords: industry statistics, Principal component analysis, Clustering analysis

0 引言

在2003年7月24日公交行业统计工作座谈会上,国家统计局局长李德水同志讲话中提出:“行业统计是政府统计的重要组成部分。”[1],从而行业统计的地位和作用在此得到国家政府统计机构的明确和肯定。因此,对我国行业统计数据运用统计方法进行分析具有很重要的理论和现实意义。

1 指标的选取及分析方法

1.1 指标的选取

由于行业的种类繁多,本文引用的是《2012年中国统计年鉴》[2]中有关中国31个行政单位在行业统计中的就业人数数据来进行整理,得到19个反映各地区行业就业的评价指标。这些指标包括:农、林、牧、渔业( )、采矿业( )、制造业( )、电力、燃气及水的生产和供应业( )、建筑业( )、交通运输、仓储和邮政业( )、信息传输、计算机服务和软件业( )、批发和零售业( )、住宿和餐饮业( )、金融业( )、房地产业( )、租赁和商务服务业( )、科学研究、技术服务和地质勘查业( )、水利、环境和公共设施管理业( )、居民服务和其他服务业( )、教育( )、卫生、社会保障和社会福利业( )、文化、体育和娱乐业( )、公共管理和社会组织( )[2].

1.2 分析方法

1.2.1 主成分分析法

主成分分析主要是利用降维的思想,把原来众多具有一定相关性的指标(如 个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标[3]。它借助于一个正交变换,将指标数据进行标准化处理,然后再根据指标之间的相关性判定分类,最后就是确定主成分的个数。本文就是采用主成分分析法对我国31个行政地区的行业发展水平分析。

1.2.2 聚类分析法

聚类分析又称为分类分析、群聚分析、集群分析,是研究“物以类聚”的一种多元统计分析方法。它直接比较各研究对象之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类[4]。聚类分析分为两种:Q型聚类和R型聚类。Q型聚类是对观测个体的分类,R型聚类是对变量的分类,两者在数学上是对称的,没有本质的区别。聚类分析的方法包括层次聚类法和非层次聚类法。层次聚类法包括聚集法和分解法。非层次聚类法最常用的就是K平均数法。本文就是先对数据进行主成分分析,然后对主成分分析的结果再进行聚类分析,

采用的聚类分析方法就是K平均数法。

2 主成分分析过程

本文使用的是spss19.0版软件作为分析的工具。首先,调用spss软件中的分析——降维——因子分析。将19个变量依次都导入因子分析的变量框中,进行主成分分析。

通过聚类结果可以看出,第一类有6个对象,第二类有11个对象,第三类有14个对象。

第一类包括以下行政单位:北京,上海,江苏,浙江,广东,山东。

第二类包括以下行政单位:天津,内蒙古,吉林,黑龙江,海南,贵州,西藏,甘肃,青海,宁夏,新疆。

第三类包括以下行政单位:河北,山西,辽宁,安徽,福建,江西,广西,河南,湖北,湖南,重庆,四川,云南,陕西。

根据上边的分类,第一类对象为经济相对发达地区,第二类对象为相对欠发达地区,第三类城市为全国一般水平地区。这三类聚类结果与实际情况不相符合,尤其是把天津分到了第二类。这说明,存在着小范围的误差。但是从地区行业统计数据的聚类结果分析可以看出,经济发展之间的差异是存在的。

4结论

本文应用spss软件结合主成分分析和聚类分析技术,对我国31个行政地区的19个行业的发展水平进行了综合分析,结果表明:我国各地区各行业人数还是受到各地区经济发展水平的影响,但是也受到其他方面因素的相互影响。

【参考文献】

[1]蔡红飞,安建荣.行业统计[J].中国包装,2004,(3).

[2]国家统计局.中国统计年鉴 2012[M].北京:中国统计出版社,2012.

[3]谢汉龙,尚涛。SAS统计分析与数据挖掘[M].北京:电子工业出版社.2012.

[4]骆方,刘红云,黄崑.SPSS数据统计与分析[M].北京:清华大学出版社,2011.