1 什么时候用典型相关分析?
典型相关分析技术实际上是多元回归和相关分析的一种延伸。在多元回归分析中,为预测一个变量Y,要寻找P个变量,X1,X2,X3,┉,XP,的一个最佳线性组合。复相关系数是Y和其预测值之间的简单相关系数。因此,在多元回归和相关分析中,我们关注的是考察几个X变量和单一的一个Y变量之间的关系。
在典型相关分析中,要考察一组X变量和一组Y变量(两个或几个Y变量)之间的线性关系。这种方法包括寻找X变量的几个线性组合,以及同样个数的Y变量的线性组合,所找出的线性组合要能最佳地表示这两组变量集合之间的相关性。称这些线性组合为典型变量,对应的成对典型变量之间的相关系数称为典型相关系数。
这种技术的典型用法是,把其中的Y变量代表结果变量或因变量,而X变量代表自变量或预测变量。如在校准计量情形,也许测量Y变量比测量X变量更难。
应用典型相关分析的场合是:可以使用回归方法,但有两个或两个以上的因变量;特别是因变量或准则变量相互间有一定的相关性,无视它们之间相互依赖的关系而分开处理,研究就毫无意义。另一种有效用法是检验X变量集合和Y变量集合间的独立性。
2 数据举例
可以利用加州大学洛杉矶分校网站上的抑郁症数据集合(use http://www.ats.ucla.edu/stat/stata/examples/cama4/depress, clear)来解释典型相关分析。用CESD和健康状况做因变量,自变量集合包括:性别、年龄、教育程度和收入水平。表1和表2给出了这个数据的描述性统计数。
表1 抑郁症数据集合的均值和标准差
Variable
|
Mean
|
Std. Dev.
|
cesd |
8.88
|
8.82
|
health |
1.77
|
0.84
|
sex |
1.62
|
0.49
|
age |
44.41
|
18.09
|
educat |
3.48
|
1.31
|
income |
20.57
|
15.29
|
考察表2的相关系数矩阵,显示CESD和健康水平与其它所有自变量都不存在高度的相关关系。实际上,在这个矩阵中,相关度最高的是教育程度和收入水平。还有就是CESD与年龄、教育程度、收入水平之间是负相关的(年纪轻、受教育少、低收入的人,抑郁程度高)。CESD与性别正相关显示女性比男性的抑郁度高。自认健康的人多数是收入和教育程度都高、但年纪轻的人。
表2 抑郁症数据集合的相关系数矩阵
|
cesd
|
health
|
sex
|
age
|
educat
|
income
|
cesd |
1.0000
|
0.212
|
0.124
|
-0.164
|
-0.101
|
-0.158
|
health |
|
1.0000
|
0.098
|
0.304
|
-0.270
|
-0.183
|
sex |
|
|
1.0000
|
0.044
|
-0.106
|
-0.180
|
age |
|
|
|
1.0000
|
-0.208
|
-0.192
|
educat |
|
|
|
|
1.0000
|
0.429
|
income |
|
|
|
|
|
1.0000
|
下面考察因变量(自我认识的健康状况和抑郁程度)与自变量集合间的关系。
3 典型相关的基本概念
假定要考察一组变量X1,X2,…,XP和另一组变量Y1,Y2,…,YQ间的关系。我们把这些X变量视为自变量或预测变量,而把变量Y视为因变量或结果变量。假定对任何给定的样本,都已经用每个变量的原始观测值减去它的均值,这样所有变量X和所有变量Y的样本均值都等于0。下面讨论如何评价这两组变量集合间的联系程度,并介绍几种相关的假设检验。
第一个典型相关
典型相关分析的基本思想是首先找到变量Y的一个线性组合,如为:
U1=a1Y1+a2Y2…aQYQ
以及变量X的一个线性组合,如为:
V1=b1X1+b2X2++bPXP
任选一组系数(若干个a和若干个b),可以用每个样本点分别计算出U1和V1的值。如果样本中包含N个样本点,可以算出U1和V1的N个数对,再按一般的方式计算出U1和V1的简单相关系数。计算出的相关系数的大小取决于之前所选择的系数a和系数b。
在典型相关分析中,我们选取的系数a和系数b的值,要使U1和V1之间的相关系数达到最大值。这样选取系数a和系数b,得到的线性组合U1称为变量Y的第一个典型变量, V1称为变量X的第一个典型变量。注意,U1和V1的均值都等于0。所得到的U1和V1之间的相关系数称为第一个典型相关系数。第一个典型相关系数的平方称为第一个特征根。
因此,第一个典型相关系数是变量X的线性组合和变量Y的线性组合之间所有可能的相关中最大的一个。从这个意义上说,它是X变量集合和Y变量集合之间最大的线性相关。第一个典型相关系数类似于单个变量Y和变量X的集合之间的复相关系数。差别在于典型相关分析中变量Y有几个,因而必需找出它们的一个线性组合。
表3是软件程序计算的系数a和系数b,其中第一组是在计算典型变量U1和V1时要用的系数值。
表3 第一个相关的典型相关系数(抑郁症数据集合)
Coefficients
|
Standardized coefficients
|
b1=.051(Sex) |
b1=0.025(Sex) |
b2=.048(age) |
b2=0.871(age) |
b3=-0.29(education) |
b3=-0.383(education) |
b4=0.005(income) |
b4=0.082(income) |
a1=-0.055(CESD) |
a1=-0.490(CESD) |
a2=1.17(health) |
a2=0.982(health) |
表4表示了计算典型相关系数的过程。先把X变量各样本点的观测值都减去平均值,再用所得的差和系数b计算出各样本点的V1值。可以用同样的方法计算出U1的值。表10.4显示的是前三个样本点的计算过程。最后再用这294个U1和V1的值,计算出U1和V1的相关系数。要注意的是,U1和V1的方差都等于1。
表3还给出了标准化系数,用于计算标准化的变量。计算标准化系数的一种方法是用各非标准化系数乘对应变量的标准差。例如,y1(CESD)的非标准化系数是a1=-0.0555,依据表10.1,y1的标准差是8.82,所以,y1的标准化系数是-0.490。
本例中得到的典型相关系数是0.405,这个值代表的是自变量所有可能的线性组合和因变量所有可能的线性组合之间,相关系数的最大可能值。特别的一点是,这个相关系数比单个x变量和单个y变量之间的所有简单相关系数都要大(见表2)。解释这个线性组合的一种方法是考察标准化系数。对x变量而言,该典型变量主要是由age和education决定的。因此,一个年纪相对大、受教育相对少的人,其典型变量V1的数值应该大;用y构建的典型变量U1在自我认知的健康水平上的权重是一个大的正数,而CESD的权重为负数。因此,自认健康水平变量取值高(自我认知的健康水平差)、抑郁症量表得分值低的人,其典型变量U1的数值大。与之相对比,受教育程度高的年青人,其V1值应该小;而一个自认比较健康、抑郁程度相对低的人,其U1值应该小。有时,由于同一集合内有两个变量高度相关,可能一个变量的存在使得另一个变量的系数变小,从而导致解释上的困难。在我们所举的例子中,两个变量集合的内部都不存在非常强相关的变量。
表4 U1和V1的计算
|
Sex
|
Age
|
Education
|
Income
|
Individual
|
V1=
|
+b1( )
|
+b2( )
|
+b3( )
|
+b4( )
|
1
|
1.49= |
+0.051(1-0.62) |
+0.048(68-44.4) |
-0.29(2-3.48) |
+0.0054(1-20.57) |
2
|
0.44= |
+0.051(0-0.62) |
+0.048(58-44.4) |
-0.29(4-3.48) |
+0.0054(15-20.57) |
3
|
0.23= |
+0.051(1-0.62) |
+0.048(45-44.4) |
-0.29(3-3.48) |
+0.0054(28-20.57) |
…
|
|
|
|
|
|
294
|
|
|
|
|
|
|
|
CESD |
Health |
|
|
Individual
|
U1= |
+a1( ) |
+a2( ) |
|
|
1
|
0.76= |
-0.055(0-8.88) |
+1.17(2-1.77) |
|
|
2
|
-0.64= |
-0.055(4-8.88) |
+1.17(1-1.77) |
|
|
3
|
-0.54= |
-0.055(4-8.88) |
+1.17(2-1.77) |
|
|
…
|
|
|
|
|
|
294
|
|
|
|
|
|
总之,我们的结论是,年纪大但受教育少的人往往并不抑郁,尽管自认健康欠佳。因为第一个典型相关系数是可能的最大值,这个印象是从分析这组数据所能得到的最强的结论。但这个数据也许还可以得出其它重要结论,留待后面讨论。
必需指出,解释典型相关系数是比较困难的,特别是有两个X变量高度相关的时候,或者如某个X变量几乎是其它几个X变量的线性组合的时候。对Y变量也是如此。建议认真考察相关系数矩阵或每个变量与所有其它变量的散点图。
其它典型相关
通过推导出其它的典型相关变量组及对应的典型相关系数,可以获取这些x和y之间关系的进一步解释。具体而言,我们推导第二个典型变量V2(x的线性组合)和对应的典型变量U2(y的线性组合)。按满足以下条件选择这些线性组合的系数:
(1)V2与V1和U1不相关;
(2)U2与V1和U1不相关;
(3)在满足条件1和条件2的前提下,V2和U2具有最大可能的相关系数。
U2和V2之间的相关系数称为第二个典型相关系数,而且必然小于等于第一个典型相关系数。
对所举的例子,用标准化系数表示的第二组典型变量为:
V2=0.396(sex)-0.443(age)-0.448(education)-0.555(income)
U2=0.899(CESD)+0.288(health)
注意到计算U2时,CESD的权重大,且为正数,health的权重小,但也是正数;而与之对比,计算V2时,所有四个变量的权重都为中等大小,且只有性别(sex)变量的权重为正数。与V2取大值相联系的是年青、受教育少、收入低的女性;与U2取大值相联系的是CESD量表得分值高(抑郁症患者)、健康变量值大(自我认知的健康情况较差),但主要取决于前者。第二个典型相关系数的值是0.266。
一般地,可以持续这个过程,从而获得其它组典型变量U3,V3;U4,V4,等等。典型相关系数的个数及对应的典型变量组数的最大值,等于P(x变量个数)和Q(y变量个数)的最小值。对所举的数据例子,因为P=4,而Q=2,所以,典型相关系数最多有两个。
假设检验
多数统计软件都输出典型变量的系数、典型相关系数和依据各个样本点计算的典型变量值(典型变量分值)。另一个共同的特点是检验“k个最小的总体典型相关系数都等于0”的原假设。一般有两个检验,即Bartlett的卡方检验(Bartlett,1941;Lawley,1959),或近似F检验(Rao,1973)。推导这两个检验的前提都是假定X变量和Y变量的联合分布是多元正态分布的。卡方检验统计量或F统计量的数值大时,显示k个总体的相关系数并非都等于0。
对所举的例子,要检验“总体的两个典型相关系数都等于0”,用软件程序计算近似F检验统计量,自由度为8和576、P值=0.0001时,F值=9.68。所以,结论是总体的典型相关系数至少有一个不等于0。再继续检验“最小的一个典型相关系数是0”的假设,自由度为3和289时,F值等于7.31,P值又一次等于0.0001,结论是两个典型相关系数都显著地不等于0。用STATISTICA做Bartlett检验所得结果与上述结论类似。
如果数据集合包含更多的变量,可以用这些检验帮助确定有几个显著的典型相关系数。考察检验的结果,以确定哪一步之后,可以认为剩下的典型相关系数都等于0。此时,象逐步回归一样,显著性水平不应按字面来解释。
4 典型相关的其它问题
绘制典型变量分值图
可以用软件绘制典型相关变量分值Ui对Vi的图形,例如,U1对V1的散点图。从散点图得出的印象是典型相关系数(0.405)偏弱但仍属显著。如果数据服从多元正态分布,这个图应该近似一个集中椭圆。可以用这样的图凸显出异常的样本点,作为可能的离群点(outliers)或有误点(blunders)。例如,U1的最小分值点是第289号样本点。这个样本点是一位19岁的女士,她上过高中,年收入28000元,由这些资料算出的V1值=-0.73。还有,这位女士自认非常健康(health观测值=1),但感到非常抑郁(CESD=47),因此,算出的U1值=-3.02。从而,这个人就代表了一种极端的情形,因为她年纪青,受教育少,但收入高。尽管自认很健康,但非常抑郁。虽然这个样本点是一个不寻常的搭配,但并不必然是一个采集时有错误的样本点。
绘制出的U1对V1的散点图并不是一个明显非线性的散点图,看起来也不像一个二元的正态分布(形状上象一个椭圆)。或许是CESD分布的偏度致使U1的分布也有些偏,尽管健康状况对第一个典型变量的整体影响较大。如果这个模式再极端一些,可能就需要考虑对一些变量做变换,如变量CESD。
典型相关变量的另一种解释
软件输出的另一个有用选项是这些典型相关变量和原有变量间的相关系数集合。如果自变量集合或因变量集合内,有某些变量相互高度相关时,这个输出提供了一种解释典型相关变量的途径。对抑郁症数据,这些相关系数如表5所示。有时,称这些相关系数为典型相关变量的载荷(canonical variables loadings),或用典型相关载荷(canonical loadings),典型相关结构系数(canonical structural coefficients)等其它术语。
因为典型相关变量载荷可以解释为每个变量和典型相关变量之间的简单相关系数,它们有助于理解原有变量和典型相关变量之间的关系。当一个典型相关变量中所用的变量集合不相关时,典型相关变量的载荷等于典型相关变量标准化后的系数。如果一些原有变量高度相关,这些载荷和系数的差异可能非常大。一些统计学家发现,在此类情况下,解释起来更简单的是典型相关变量的载荷,而不是典型相关变量的系数。例如,假定有两个X变量高度正相关,且每个都与典型相关变量正相关。那么,典型相关变量的系数可能一个为正,另一个为负,而典型相关变量的载荷都为正,这正是我们期望的结果。
对所举例的数据集合,变量之间既不是0相关,也不是强相关。把表5和表3中第一个典型相关变量的结果进行比较,可以看出,标准化系数和典型相关变量载荷的符号相同,但数值的大小有所不同。
表5 典型相关变量和对应的变量间的相关系数(抑郁症数据集合)
|
U1
|
U2
|
CESD |
-0.281
|
0.960
|
Health |
0.878
|
0.478
|
|
V1
|
V2
|
Sex |
0.089
|
0.525
|
Age |
0.936
|
-0.225
|
Education |
-0.532
|
-0.636
|
Income |
-0.254
|
-0.7338
|
冗余分析(Redundancy analysis)
对第一个典型相关变数(canonical variate)V1的典型相关变量载荷的平方求平均值,得出X变量方差中由第一个典型相关变数解释的比例。对U1和Y也有同样的结论。类似的结果对其它每个典型相关变数都成立。例如对U1有:[(-0.281)2 + 0.8782]/2=0.425,即Y变量的方差中,由第一个典型相关变数解释的还不到一半。有时,解释的方差比例相当低,即使典型相关系数较大也是如此。这可能是因为对典型相关变数有主要影响的只是一个或两个变量。
上述计算点出了所谓冗余分析的一个方面。另外,很多同级都能计算出一个称之为冗余系数的量,它也可以用来评估依据典型相关分析进行预测的充分性。这个系数是反映Y变量集合的方差由V集合解释的平均比例这样一个指标。它可以与多元线性回归分析中多元相关系数的平方相比较。也有可能得出X变量的方差由U变量解释的比例,但通常人们对其关注较少。
5 注意事项