协方差,又称共变异数,被用来描述两个随机变量之间线性相关程度4,常用的符号有cov(X, Y),σ(X, Y)等。

协方差 cov(X, Y) 定义为两个随机变量X和Y偏离其期望值的乘积的期望,即cov(X,Y) = E[(X - E[X])(Y - E[Y])] 1。其中:E[X] 和 E[Y] 分别是随机变量 X 和 Y 的期望值, cov 是协方差的英文 “covariance” 的缩写。当协方差为正值时,表明随机变量X和Y倾向于同时偏离其平均值,呈正相关关系;反之,若协方差为负值,则表明一个变量高于平均值时,另一个倾向于低于平均值,呈负相关关系。如果协方差为零,这意味着两个变量之间没有线性关系。

卡尔·皮尔逊(KarlPearson) 是现代相关分析的奠基者,他在1896年发表的论文中正式定义了相关系数3,并在研究中广泛使用协方差的概念。

历史

卡尔·皮尔逊(KarlPearson) 是现代相关分析的奠基者,他在1896年发表的论文中正式定义了相关系数3,并在研究中广泛使用协方差。它给出了相关系数公式的标准化形式:

其中,是协方差,分别是的标准差。这篇论文3标志着现代相关系数和协方差的形式化定义的诞生。

在此之前,19世纪的统计学家,比如弗朗西斯·高尔顿(Francis Galton),也曾在研究遗传学和变量相关性时间接使用过协方差的思想。高尔顿的研究开启了对变量间关系的定量分析,而皮尔逊进一步发展了这些思想。

如今,随着矩阵运算和线性代数的普及,协方差矩阵被广泛用于多元统计分析、机器学习和数据科学等领域,并在经济学、遗传学等领域有着重要作用。

定义

为两个实值随机变量,它们的协方差定义为它们偏离各自期望值的乘积的期望值(或均值)1:

其中,的期望值,cov是协方差的英文covariance的缩写。协方差有时也记为,与方差的表示类似。

的方差为

可以看出协方差的形式类似于方差,只是把其中的一个换成了;协方差又有二者的协同参与,由此得出“协方差”的名称1。

通过利用期望的线性性质,协方差的计算公式可以简化为乘积的期望减去各自期望值的乘积:

如果随机变量对是离散实值随机变量,且可以取值,其中,且每种取值的概率相等(即),则协方差可以用随机变量的均值表示为:

也可以不直接涉及均值表示为2:

更一般地,若个可能的离散取值,且各取值的概率为,则协方差为:

当离散随机变量的联合概率分布时,协方差的计算使用双重求和:

意义与由来

协方差被用来描述两个随机变量之间线性相关程度4。

假设两个随机变量存在线性关系:。为使这种关系最接近于实际的的分布,需要使误差的平方和(均方误差)达到最小。经过计算求出使S达到最小的a, b值,代入化简得

分别为的方差。要使S最小,必须使:

达到最大。

由此,我们定义协方差,相关系数。则

由该式可知:若越大,则S越小,的相关程度越高;若越小,则的相关程度越低。因此,我们可用它来作为衡量相关程度的一个量,并称之为相关系数4。

相关系数是一个无量纲的量,用它来描述的线性相关关系不受单位影响;而则不同,它是一个有量纲的量,必须依赖于的度量单位。因此人们通常用而不用来判断

来源: 百度百科

内容资源由项目单位提供