发新话题
打印

方差、标准差、共变、相关系数

方差、标准差、共变、相关系数

转自:http://bbs.chinahrd.net/space/viewspacepost.aspx?postid=4137&spaceid=2477

在管理的研究中常常有因果的问题。比如激励(motivation)是不是工作表现(job performance)的前因。当然,用调查(survey)是很难证明因果关系的。不过,起码我们要给人家证据「激励」与「表现」是有关系的(是不是因果关系就是另外一个问题了)。怎么知道「激励」与「表现」是不是有关系呢?


最理想 的是当「激励」在改变的时候,「工作表现」会跟着改变。「激励」增加,「工作表现」就增加。而且每一次「激励」的改变幅度一样的话,「工作表现」的改变幅 度都一样。这就是完美的相关了。可是“改变”要有一个“参考值”。我们说「激励」“增加”了,那是对于什么来讲“增加”了?统计上一般用“平均值”作为 “参考值”。所以问题就变成是每一次当员工的「激励」相对于他们的“激励平均值”增加了多少时,员工的「工作表现」也是不是相对于他们的“工作表现平均 值”增加了多少。这个概念叫做「共变」(covariance σxy),意思是「激励」与「工作表现」是不是一齐(“共”的意思)改变。除了「共变」以外,也有人把 covariance 翻译成「协方差」。

 

我暂时叫「激励」做X;叫「表现」做Y。「激励」的平均值叫做Mx;「表现」的平均值叫做My。用数学的方法表现的话,


如果我们有10个员工,他们的激励(用量表来量)数值写在第一纵列(1),他们的工作表现(由主管打分)是纵列(2)。10个员工的平均激励是3.610个员工的平均表现是3.1。当第一个员工的激励离开平均激励是(-0.6)的时候(就是比平均激励小0.6)(纵列3),这个员工的工作表现比起所有员工的平均表现低1.1(纵列4)。第二个员工的激励比所有员工的“平均激励”高1.4;他的工作表现就比所有员工的表现高2.9


纵列(5)是纵列(3)的平方;纵列(6)是纵列(4)的平方。因为我们要知道「激励」和「表现」的“分散程度”(variation,为什么要知道我等下讲),可是不可以拿纵列(3)的平均,不然“正数”跟“负数”就勾消了,所以要先把纵列(3)平方,然后才平均。这个均值叫做「方差」(variance,是“差数的平方的意思”the square of a difference between two numbers)。「方差」表现了这10个 员工的「激励」和「表现」有多分散。方差越大,员工的「激励」和「表现」离开他们的平均值就越远,分散度就越高。因为在计算方差的时候,我们把数据与平均 数的“差”平方了,在计算了“平均的平方差”(方差)以后可以再求這個平方差的平均數的平方根作为还原的步骤。这个「方差」的平方根叫做「标准差」(standard deviation)。「标准差」的意义与「方差」是一模一样的,標準差方差的平方根。变量的分散度越高,它的「标准差」就越大。统计上「方差」(variance,  σ2x)与「标准差」(standard deviation,  σx)的公式是:

                           

纵列(5)和纵列(6)的最后一行是XY的“平方差除10,也就是“平均的平方差”,也就是方差。X的方差是2.84Y的方差是1.96。如果我们计算这两个方差的平方根,X的标准差是1.685Y的标准差是1.300

 

纵列(7)是什么呢?纵列(7)是纵列(3)与纵列(4)的乘积。它告诉我当员工1激励少于平均激励0.6时,同一个员工的「表现」就少于平均表现1.1

如果我们用图表表示的话:



图中每一个圈就是一个员工。黑色的圈是「激励」和「表现」的平均值。现在员工1(红色圈)比平均的激励多了0.6x1-Mx ,蓝色的双箭头),同一个员工的表现就比所有员工的平均表现多了1.1 y1-My ,红色的双箭头)。「共变」,也就是对于所有的10个 员工来说,这两个值的乘积的平均,代表了「激励」这个变量与「表现」这个变量的变化是不是一致的。比如说,如果「激励」增加时,「表现」反而减少,「共 变」就是负数。如果「激励」增加时,「表现」有时候是增加,有时候是减少,乘积就有时候是正,有时候是负数,平均起来就会很小。纵列(7)的结果是这个乘积的平均是1.44


统计上两个变数XY的「共变」(covariance between X and Y,  σxy)的公式是:

                                

但是用「共变」来表现两个变量的变化的一致性有一个问题,就是「共变」的大小受着衡量的单位影响。上面的数据是基于一个七点的李克特量表(7-point Likert scale)制定的。如果我们用一个70点的量表,就算「激励」与「表现」的关系完全不变,比如员工1 的「激励」与「表现」现在分别是3020;员工2 的「激励」与「表现」现在分别是5060,理论上「激励」与「表现」根本没有变,只是所有的数值都乘大了10而已,但是新的「共变」就变成144了,大了100倍。


为了使「共变」不受测量的单位的影响,我们在创立一个新的东西,是把两个变量的「共变」除于这两个变量的标准差。因为分散度越大,标准差也会越大,所以这个“经过标准差调节的共变”不会受测量的单位的影响。我们把原来的「共变」1.44 X 的标准差1.685Y的标准差1.3,结果是0.657。现在如果我们把所有的「激励」与「表现」数值都乘大了10,「共变」是大了100倍,可是「激励」与「表现」的标准差也分别大了10倍,“经过标准差调节的共变”结果还是0.657

 

这个“经过标准差调节的共变”就叫做「相关系数」(correlation coefficientrxy)。在统计上的术语,「相关系数」是经过“标准化”(就是除与XY的标准差)的「共变」。我们再看看原来的图。当每一次X离开“X的平均值”时,如果Y离开“Y的平均值”的大小都一样的话,图中所有的小圆圈都会停在一条直线上(黑色的直线),这样的情形「相关系数」 rxy =1.0。图中XY的相关是0.657 所以小圆圈(每一个员工)虽然不是全在黑色的直线上,但是还可以规范在一个蓝色的椭圆形里。如果X离开“X的平均值”时,Y离开“Y的平均值”的大小和方向都是乱来的话,rxy =0,「激励」和「工作表现」的关系在图上看来就好像一个圆形了。



最后,还是要用很多人都不习惯看的相关系数的公式作为总结:

   


TOP

发新话题