PCA:必须知道的降维手段

(principal components analysis)

1.前期需要掌握的知识点及其相关课程：

⑴高等代数/线性代数：线性方程组、特征值和特征向量

⑵统计学：方差分析等

2.主成分分析思想：

主成分分析是利用降维的思想，在损失较少信息的前提下，用几个综合指标来代替之前多个指标的一种多元统计方法。我们把这些综合指标称为主成分，其中每一个主成分是原来变量的线性组合，并且各个主成分之间互不相关。

3.主成分分析的几点要求

⑴每一个主成分都是原始变量的线性组合。

⑵主成分的数目要求远远小于原始变量的数目。

⑶主成分保留了原始变量绝大多数的信息。

⑷各个主成分之间互不相关。

4.选取主成分的几点选择方法

⑴累积贡献率达到85%。

⑵观察碎石图，当趋势变的平稳，则说明选取该主成分的数量比较合适。

⑶选取特征值大于1的主成分。

5.主成分的几个很重要的用途

⑴进行分类

我们可以通过主成分分析得到主成分得分，通过计算出总得分来进行分类，或者将前两个主成分得分放到四象限图中来进行分类。

⑵进行排名

通过主成分分析得到主成分得分，通过一定的手段计算出总得分来进行对样本的排名。

⑶ 主成分回归

由于在实际问题中，我们尽可能多的选取变量，这样会导致多重共线性问题的出现。主成分分析可以用少数几个综合变量来代替原始的变量，很有效的消除多重共线性。

实际例子(分类、排名)

在企业经济效益的评价中，设计的指标往往很多。为了可以简化系统结构，抓住经济效益评价的主要问题，我们用百元固定资产原值实现值、百元固定资产原值实现利税、百元资产实现利税、百元工业总产值实现利税、百元销售收入实现利税、每吨标准煤实现工业产值、每千瓦时电力实现工业产值、全员劳动生产率、百元流动资金实现产值，涉及到9项指标，28个样本数。

图1：相关矩阵

应该有这个意识，变量之间的存在着较强的相关性，主成分分析才会更加适用。而且如果原始大部分变量间的相关系数都小于0.3，运用主成分分析不会得到的很好的效果。经过图1，我们可以看到这9个变量之间的相关系数矩阵，我们发现变量间的相关性较强，适合运用主成分分析来进行后续的工作。

图2：信息提取率

上图是在主成分分析过程中从每一个变量中提取的信息。例如：百元固定资产原值实现值(96.7%)、百元固定资产原值实现利税(97.8%)、百元资产实现利税(97%)、百元工业总产值实现利税(79.9%)、百元销售收入实现利税(54.3%)、每吨标准煤实现工业产值(89.2%)、每千瓦时电力实现工业产值(87.9%)、全员劳动生产率(76.3%)、百元流动资金实现产值(83.2%)。

我们可以看到，除了百元销售收入实现利税(54.3%)信息损失的较多外，在其余变量提取的信息还是可以的。

图3：方差贡献率

在提取主成分的时候，我们一般保留特征根大于1的主成分。在这个案例中，我们只保留前两个主成分，这样我们就可以在损失较少信息的前提下，用两个综合指标(主成分)来代替原始的9个变量，达到降维的效果。

(96.7%+97.8%+97%+79.9%+54.3%+89.2%+87.9%+76.3%+83.2%)/9=84.7%

图4：碎石图

观察碎石图，我们发现第二个和第三个特征值的变化已经趋于平稳，则说明只提取两个或者三个主成分即可。

图5：载荷矩阵

虽然我们在选取主成分的时候，只需要选取前两个主成分即可，但是为了说明我们前面的主成分的性质，我们将这9个主成分全部列出。

在软件输出的结果中，我们得到的是因子载荷矩阵，而不是主成分的系数矩阵，因此我们要对因子载荷矩阵中的每一列除以对应的特征根的平方根，就可以得到主成分分析的系数。

我们利用以第一主成分为x轴，第二主成分为y轴，建立平面直角坐标系。并且用象限图来进行表示。

图6：四象限分布图

首先，分布在第一象限的是上海、北京、天津和广西四个省，这四个省的效益在全国属于比较好的(个人觉得不好，广西觉得不在这个范围里面)。第四象限的是湖北、山东、福建、安徽、广东、江苏、浙江7个省区，由于第四象限的主要特征第一主成分，第一主成分所占的信息较大，效益也不错。分布在第二三象限的为一类，效益不好。

下面我们来计算总得分并且来对上面28个省区进行排名。

⑵由于第一主成分占用的信息量很大，因此我们可以第一主成分来进行排名，前提是第一主成分的系数必须全部为正数。

我们从上面的排名其实可可以进行聚类，以分数的形式呈现。

注：谢谢大家的聆听，欢迎提出宝贵意见，本人WeChat为sunzlxshine，可以多交流学习。

发表评论取消回复

推荐访问

发表评论 取消回复

发表评论取消回复