协方差,又称共变异数,被用来描述两个随机变量之间线性相关程度4,常用的符号有cov(X, Y),σ(X, Y)等。
协方差 cov(X, Y) 定义为两个随机变量X和Y偏离其期望值的乘积的期望,即cov(X,Y) = E[(X - E[X])(Y - E[Y])] 1。其中:E[X] 和 E[Y] 分别是随机变量 X 和 Y 的期望值, cov 是协方差的英文 “covariance” 的缩写。当协方差为正值时,表明随机变量X和Y倾向于同时偏离其平均值,呈正相关关系;反之,若协方差为负值,则表明一个变量高于平均值时,另一个倾向于低于平均值,呈负相关关系。如果协方差为零,这意味着两个变量之间没有线性关系。
卡尔·皮尔逊(KarlPearson) 是现代相关分析的奠基者,他在1896年发表的论文中正式定义了相关系数3,并在研究中广泛使用协方差的概念。
历史
卡尔·皮尔逊(KarlPearson) 是现代相关分析的奠基者,他在1896年发表的论文中正式定义了相关系数3,并在研究中广泛使用协方差。它给出了相关系数公式的标准化形式:
其中,是协方差,
和
分别是
和
的标准差。这篇论文3标志着现代相关系数和协方差的形式化定义的诞生。
在此之前,19世纪的统计学家,比如弗朗西斯·高尔顿(Francis Galton),也曾在研究遗传学和变量相关性时间接使用过协方差的思想。高尔顿的研究开启了对变量间关系的定量分析,而皮尔逊进一步发展了这些思想。
如今,随着矩阵运算和线性代数的普及,协方差矩阵被广泛用于多元统计分析、机器学习和数据科学等领域,并在经济学、遗传学等领域有着重要作用。
定义
设和
为两个实值随机变量,它们的协方差定义为它们偏离各自期望值的乘积的期望值(或均值)1:
其中,是
的期望值,cov是协方差的英文covariance的缩写。协方差有时也记为
或
,与方差的表示类似。
的方差为
可以看出协方差的形式类似于方差,只是把其中的一个换成了
;协方差又有
二者的协同参与,由此得出“协方差”的名称1。
通过利用期望的线性性质,协方差的计算公式可以简化为乘积的期望减去各自期望值的乘积:
如果随机变量对是离散实值随机变量,且可以取值
,其中
,且每种取值的概率相等(即
),则协方差可以用随机变量的均值
和
表示为:
也可以不直接涉及均值表示为2:
更一般地,若有
个可能的离散取值
,且各取值的概率为
,则协方差为:
当离散随机变量和
的联合概率分布
时,协方差的计算使用双重求和:
意义与由来
协方差被用来描述两个随机变量之间线性相关程度4。
假设两个随机变量存在线性关系:
。为使这种关系最接近于实际的
的分布,需要使误差的平方和(均方误差
)达到最小。经过计算求出使S达到最小的a, b值,代入化简得
分别为
的方差。要使S最小,必须使:
达到最大。
由此,我们定义协方差,相关系数
。则
由该式可知:若越大,则S越小,
与
的相关程度越高;若
越小,则
与
的相关程度越低。因此,我们可用它来作为衡量
与
相关程度的一个量,并称之为相关系数4。
相关系数是一个无量纲的量,用它来描述
与
的线性相关关系不受单位影响;而
则不同,它是一个有量纲的量,必须依赖于
与
的度量单位。因此人们通常用
而不用
来判断
与
来源: 百度百科
内容资源由项目单位提供