典型相关分析

来自 http://blog.sina.com.cn/s/blog_50a9598801010xq3.html

1 什么时候用典型相关分析？

典型相关分析技术实际上是多元回归和相关分析的一种延伸。在多元回归分析中，为预测一个变量Y，要寻找P个变量，X₁，X₂，X₃，┉，X_P，的一个最佳线性组合。复相关系数是Y和其预测值之间的简单相关系数。因此，在多元回归和相关分析中，我们关注的是考察几个X变量和单一的一个Y变量之间的关系。

在典型相关分析中，要考察一组X变量和一组Y变量(两个或几个Y变量)之间的线性关系。这种方法包括寻找X变量的几个线性组合，以及同样个数的Y变量的线性组合，所找出的线性组合要能最佳地表示这两组变量集合之间的相关性。称这些线性组合为典型变量，对应的成对典型变量之间的相关系数称为典型相关系数。

这种技术的典型用法是，把其中的Y变量代表结果变量或因变量，而X变量代表自变量或预测变量。如在校准计量情形，也许测量Y变量比测量X变量更难。

应用典型相关分析的场合是：可以使用回归方法，但有两个或两个以上的因变量；特别是因变量或准则变量相互间有一定的相关性，无视它们之间相互依赖的关系而分开处理，研究就毫无意义。另一种有效用法是检验X变量集合和Y变量集合间的独立性。

2 数据举例

可以利用加州大学洛杉矶分校网站上的抑郁症数据集合(use http://www.ats.ucla.edu/stat/stata/examples/cama4/depress, clear)来解释典型相关分析。用CESD和健康状况做因变量，自变量集合包括：性别、年龄、教育程度和收入水平。表1和表2给出了这个数据的描述性统计数。

表1 抑郁症数据集合的均值和标准差

Variable	Mean	Std. Dev.
cesd	8.88	8.82
health	1.77	0.84
sex	1.62	0.49
age	44.41	18.09
educat	3.48	1.31
income	20.57	15.29

考察表2的相关系数矩阵，显示CESD和健康水平与其它所有自变量都不存在高度的相关关系。实际上，在这个矩阵中，相关度最高的是教育程度和收入水平。还有就是CESD与年龄、教育程度、收入水平之间是负相关的(年纪轻、受教育少、低收入的人，抑郁程度高)。CESD与性别正相关显示女性比男性的抑郁度高。自认健康的人多数是收入和教育程度都高、但年纪轻的人。

表2 抑郁症数据集合的相关系数矩阵

	cesd	health	sex	age	educat	income
cesd	1.0000	0.212	0.124	-0.164	-0.101	-0.158
health		1.0000	0.098	0.304	-0.270	-0.183
sex			1.0000	0.044	-0.106	-0.180
age				1.0000	-0.208	-0.192
educat					1.0000	0.429
income						1.0000

下面考察因变量(自我认识的健康状况和抑郁程度)与自变量集合间的关系。

3 典型相关的基本概念

假定要考察一组变量X₁，X₂，…，X_P和另一组变量Y₁，Y₂，…，Y_Q间的关系。我们把这些X变量视为自变量或预测变量，而把变量Y视为因变量或结果变量。假定对任何给定的样本，都已经用每个变量的原始观测值减去它的均值，这样所有变量X和所有变量Y的样本均值都等于0。下面讨论如何评价这两组变量集合间的联系程度，并介绍几种相关的假设检验。

第一个典型相关

典型相关分析的基本思想是首先找到变量Y的一个线性组合，如为：

U₁=a₁Y₁+a₂Y₂…a_QY_Q

以及变量X的一个线性组合，如为：

V₁=b₁X₁+b₂X₂++b_PX_P

任选一组系数(若干个a和若干个b)，可以用每个样本点分别计算出U₁和V₁的值。如果样本中包含N个样本点，可以算出U₁和V₁的N个数对，再按一般的方式计算出U₁和V₁的简单相关系数。计算出的相关系数的大小取决于之前所选择的系数a和系数b。

在典型相关分析中，我们选取的系数a和系数b的值，要使U₁和V₁之间的相关系数达到最大值。这样选取系数a和系数b，得到的线性组合U₁称为变量Y的第一个典型变量， V₁称为变量X的第一个典型变量。注意，U₁和V₁的均值都等于0。所得到的U₁和V₁之间的相关系数称为第一个典型相关系数。第一个典型相关系数的平方称为第一个特征根。

因此，第一个典型相关系数是变量X的线性组合和变量Y的线性组合之间所有可能的相关中最大的一个。从这个意义上说，它是X变量集合和Y变量集合之间最大的线性相关。第一个典型相关系数类似于单个变量Y和变量X的集合之间的复相关系数。差别在于典型相关分析中变量Y有几个，因而必需找出它们的一个线性组合。

表3是软件程序计算的系数a和系数b，其中第一组是在计算典型变量U₁和V₁时要用的系数值。

表3 第一个相关的典型相关系数(抑郁症数据集合)

Coefficients	Standardized coefficients
b₁=.051(Sex)	b₁=0.025(Sex)
b₂=.048(age)	b₂=0.871(age)
b₃=-0.29(education)	b₃=-0.383(education)
b₄=0.005(income)	b₄=0.082(income)
a₁=-0.055(CESD)	a₁=-0.490(CESD)
a₂=1.17(health)	a₂=0.982(health)

表4表示了计算典型相关系数的过程。先把X变量各样本点的观测值都减去平均值，再用所得的差和系数b计算出各样本点的V₁值。可以用同样的方法计算出U₁的值。表10.4显示的是前三个样本点的计算过程。最后再用这294个U₁和V₁的值，计算出U₁和V₁的相关系数。要注意的是，U₁和V₁的方差都等于1。

表3还给出了标准化系数，用于计算标准化的变量。计算标准化系数的一种方法是用各非标准化系数乘对应变量的标准差。例如，y₁(CESD)的非标准化系数是a₁=-0.0555，依据表10.1，y₁的标准差是8.82，所以，y₁的标准化系数是-0.490。

本例中得到的典型相关系数是0.405，这个值代表的是自变量所有可能的线性组合和因变量所有可能的线性组合之间，相关系数的最大可能值。特别的一点是，这个相关系数比单个x变量和单个y变量之间的所有简单相关系数都要大(见表2)。解释这个线性组合的一种方法是考察标准化系数。对x变量而言，该典型变量主要是由age和education决定的。因此，一个年纪相对大、受教育相对少的人，其典型变量V₁的数值应该大；用y构建的典型变量U₁在自我认知的健康水平上的权重是一个大的正数，而CESD的权重为负数。因此，自认健康水平变量取值高(自我认知的健康水平差)、抑郁症量表得分值低的人，其典型变量U₁的数值大。与之相对比，受教育程度高的年青人，其V₁值应该小；而一个自认比较健康、抑郁程度相对低的人，其U₁值应该小。有时，由于同一集合内有两个变量高度相关，可能一个变量的存在使得另一个变量的系数变小，从而导致解释上的困难。在我们所举的例子中，两个变量集合的内部都不存在非常强相关的变量。

表4 U₁和V₁的计算

		Sex	Age	Education	Income
Individual	V₁=	+b₁( )	+b₂( )	+b₃( )	+b₄( )
1	1.49=	+0.051(1-0.62)	+0.048(68-44.4)	-0.29(2-3.48)	+0.0054(1-20.57)
2	0.44=	+0.051(0-0.62)	+0.048(58-44.4)	-0.29(4-3.48)	+0.0054(15-20.57)
3	0.23=	+0.051(1-0.62)	+0.048(45-44.4)	-0.29(3-3.48)	+0.0054(28-20.57)
…
294
		CESD	Health
Individual	U₁=	+a₁( )	+a₂( )
1	0.76=	-0.055(0-8.88)	+1.17(2-1.77)
2	-0.64=	-0.055(4-8.88)	+1.17(1-1.77)
3	-0.54=	-0.055(4-8.88)	+1.17(2-1.77)
…
294

总之，我们的结论是，年纪大但受教育少的人往往并不抑郁，尽管自认健康欠佳。因为第一个典型相关系数是可能的最大值，这个印象是从分析这组数据所能得到的最强的结论。但这个数据也许还可以得出其它重要结论，留待后面讨论。

必需指出，解释典型相关系数是比较困难的，特别是有两个X变量高度相关的时候，或者如某个X变量几乎是其它几个X变量的线性组合的时候。对Y变量也是如此。建议认真考察相关系数矩阵或每个变量与所有其它变量的散点图。

其它典型相关

通过推导出其它的典型相关变量组及对应的典型相关系数，可以获取这些x和y之间关系的进一步解释。具体而言，我们推导第二个典型变量V₂(x的线性组合)和对应的典型变量U₂(y的线性组合)。按满足以下条件选择这些线性组合的系数：

(1)V₂与V₁和U₁不相关；

(2)U₂与V₁和U₁不相关；

(3)在满足条件1和条件2的前提下，V₂和U₂具有最大可能的相关系数。

U₂和V₂之间的相关系数称为第二个典型相关系数，而且必然小于等于第一个典型相关系数。

对所举的例子，用标准化系数表示的第二组典型变量为：

V₂=0.396(sex)-0.443(age)-0.448(education)-0.555(income)

U₂=0.899(CESD)+0.288(health)

注意到计算U₂时，CESD的权重大，且为正数，health的权重小，但也是正数；而与之对比，计算V₂时，所有四个变量的权重都为中等大小，且只有性别(sex)变量的权重为正数。与V₂取大值相联系的是年青、受教育少、收入低的女性；与U₂取大值相联系的是CESD量表得分值高(抑郁症患者)、健康变量值大(自我认知的健康情况较差)，但主要取决于前者。第二个典型相关系数的值是0.266。

一般地，可以持续这个过程，从而获得其它组典型变量U₃，V₃；U₄，V₄，等等。典型相关系数的个数及对应的典型变量组数的最大值，等于P(x变量个数)和Q(y变量个数)的最小值。对所举的数据例子，因为P=4，而Q=2，所以，典型相关系数最多有两个。

假设检验

多数统计软件都输出典型变量的系数、典型相关系数和依据各个样本点计算的典型变量值(典型变量分值)。另一个共同的特点是检验“k个最小的总体典型相关系数都等于0”的原假设。一般有两个检验，即Bartlett的卡方检验(Bartlett，1941；Lawley，1959)，或近似F检验(Rao，1973)。推导这两个检验的前提都是假定X变量和Y变量的联合分布是多元正态分布的。卡方检验统计量或F统计量的数值大时，显示k个总体的相关系数并非都等于0。

对所举的例子，要检验“总体的两个典型相关系数都等于0”，用软件程序计算近似F检验统计量，自由度为8和576、P值=0.0001时，F值=9.68。所以，结论是总体的典型相关系数至少有一个不等于0。再继续检验“最小的一个典型相关系数是0”的假设，自由度为3和289时，F值等于7.31，P值又一次等于0.0001，结论是两个典型相关系数都显著地不等于0。用STATISTICA做Bartlett检验所得结果与上述结论类似。

如果数据集合包含更多的变量，可以用这些检验帮助确定有几个显著的典型相关系数。考察检验的结果，以确定哪一步之后，可以认为剩下的典型相关系数都等于0。此时，象逐步回归一样，显著性水平不应按字面来解释。

4 典型相关的其它问题

绘制典型变量分值图

可以用软件绘制典型相关变量分值U_i对V_i的图形，例如，U₁对V₁的散点图。从散点图得出的印象是典型相关系数(0.405)偏弱但仍属显著。如果数据服从多元正态分布，这个图应该近似一个集中椭圆。可以用这样的图凸显出异常的样本点，作为可能的离群点(outliers)或有误点(blunders)。例如，U₁的最小分值点是第289号样本点。这个样本点是一位19岁的女士，她上过高中，年收入28000元，由这些资料算出的V₁值=-0.73。还有，这位女士自认非常健康(health观测值=1)，但感到非常抑郁(CESD=47)，因此，算出的U₁值=-3.02。从而，这个人就代表了一种极端的情形，因为她年纪青，受教育少，但收入高。尽管自认很健康，但非常抑郁。虽然这个样本点是一个不寻常的搭配，但并不必然是一个采集时有错误的样本点。

绘制出的U₁对V₁的散点图并不是一个明显非线性的散点图，看起来也不像一个二元的正态分布(形状上象一个椭圆)。或许是CESD分布的偏度致使U₁的分布也有些偏，尽管健康状况对第一个典型变量的整体影响较大。如果这个模式再极端一些，可能就需要考虑对一些变量做变换，如变量CESD。

典型相关变量的另一种解释

软件输出的另一个有用选项是这些典型相关变量和原有变量间的相关系数集合。如果自变量集合或因变量集合内，有某些变量相互高度相关时，这个输出提供了一种解释典型相关变量的途径。对抑郁症数据，这些相关系数如表5所示。有时，称这些相关系数为典型相关变量的载荷(canonical variables loadings)，或用典型相关载荷(canonical loadings)，典型相关结构系数(canonical structural coefficients)等其它术语。

因为典型相关变量载荷可以解释为每个变量和典型相关变量之间的简单相关系数，它们有助于理解原有变量和典型相关变量之间的关系。当一个典型相关变量中所用的变量集合不相关时，典型相关变量的载荷等于典型相关变量标准化后的系数。如果一些原有变量高度相关，这些载荷和系数的差异可能非常大。一些统计学家发现，在此类情况下，解释起来更简单的是典型相关变量的载荷，而不是典型相关变量的系数。例如，假定有两个X变量高度正相关，且每个都与典型相关变量正相关。那么，典型相关变量的系数可能一个为正，另一个为负，而典型相关变量的载荷都为正，这正是我们期望的结果。

对所举例的数据集合，变量之间既不是0相关，也不是强相关。把表5和表3中第一个典型相关变量的结果进行比较，可以看出，标准化系数和典型相关变量载荷的符号相同，但数值的大小有所不同。

表5 典型相关变量和对应的变量间的相关系数(抑郁症数据集合)

	U₁	U₂
CESD	-0.281	0.960
Health	0.878	0.478
	V₁	V₂
Sex	0.089	0.525
Age	0.936	-0.225
Education	-0.532	-0.636
Income	-0.254	-0.7338

冗余分析(Redundancy analysis)

对第一个典型相关变数(canonical variate)V₁的典型相关变量载荷的平方求平均值，得出X变量方差中由第一个典型相关变数解释的比例。对U₁和Y也有同样的结论。类似的结果对其它每个典型相关变数都成立。例如对U₁有：[(-0.281)² + 0.878²]/2=0.425，即Y变量的方差中，由第一个典型相关变数解释的还不到一半。有时，解释的方差比例相当低，即使典型相关系数较大也是如此。这可能是因为对典型相关变数有主要影响的只是一个或两个变量。

上述计算点出了所谓冗余分析的一个方面。另外，很多同级都能计算出一个称之为冗余系数的量，它也可以用来评估依据典型相关分析进行预测的充分性。这个系数是反映Y变量集合的方差由V集合解释的平均比例这样一个指标。它可以与多元线性回归分析中多元相关系数的平方相比较。也有可能得出X变量的方差由U变量解释的比例，但通常人们对其关注较少。

5 注意事项

因为典型相关分析可以看做是多元线性回归分析的延伸，所以，第6章—第8章结束部分给出的很多注意事项，这里也同样需要留心。用户应当注意以下几点：

(1)对调查者想做出推断的总体来说，样本必需具有代表性。一个简单的随机样本就具有这种性质。如果做不到这一点，调查者至少应确保所选择的样本点包含了总体中能够发生的各种情况。如果人为地限制了样本的取值范围，会影响相关系数的估计结果。

(2)计量可靠性低的话，会导致X变量之间和Y变量之间的相关系数估计值偏低。

(3)应该通过绘制变量序对的直方图和散点图找出离群点。

(4)这里并未介绍逐步程序。几乎没什么影响、而且理论模型中不需要的变量，应当成为剔除的对象。可能有必要多次运行程序，以达到变量的合理选择。

(5)调查者应该核对的一点是，典型相关系数要足够大到值得考察这些系数的程度。尤为重要的是，这个相关系数不是只因为一个因变量和一个自变量。应该考察方差的比例，如果比例小的话，减少模型中变量的个数可能是合理的。

(6)如果样本量足够大，建议将样本分拆，对拆成两半的两个样本分别做典型相关分析，再把结果进行比较，看看结果是否类似。

(7)如果典型相关系数和典型变量载荷差异相当大(即如果它们符号不同)，那么，应该对两者都进行认真考察，以帮助解释结果。与解释第一个典型相关变数相比，第二或第三个典型相关变数的解释更困难。要求以后陆续得出的变量线性组合与已获得的线性组合相独立，这个条件对结果所施加的限制可能难于理解。

(8)关于典型相关的假设检验，是以X变量和Y变量的联合分布是多元正态分布为前提的。如果要研究需要报告这种检验，就应该检查这个假设。

(9)因为典型相关既用到X变量集合，也用到Y变量集合，分析中包含的变量总数可能会相当多。这可能会使因缺失值而没用上很多样本点的问题变得严重起来。此时，要么需认真选择变量，要么需要利用推算技术。

6 总结

这里介绍了典型相关分析的基本概念，它是多元回归和相关分析的一种延伸。所延伸的是，用两个或更多的因变量取代了只有一个因变量的情况。如果因变量的个数Q等于1，那么，典型相关分析将恢复为多元回归分析。

一般而言，分析得到的典型相关系数量化了因变量集合和自变量集合之间的关联强度。推导出的典型相关变量显示出原有变量的哪些线性组合最佳地展现了这种关联。

1 什么时候用典型相关分析？

2 数据举例