图文详情

协方差，又称共变异数，被用来描述两个随机变量之间线性相关程度4，常用的符号有cov(X, Y)，σ(X, Y)等。

协方差 cov(X, Y) 定义为两个随机变量X和Y偏离其期望值的乘积的期望，即cov(X,Y) = E[(X - E[X])(Y - E[Y])] 1。其中：E[X] 和 E[Y] 分别是随机变量 X 和 Y 的期望值， cov 是协方差的英文 “covariance” 的缩写。当协方差为正值时，表明随机变量X和Y倾向于同时偏离其平均值，呈正相关关系；反之，若协方差为负值，则表明一个变量高于平均值时，另一个倾向于低于平均值，呈负相关关系。如果协方差为零，这意味着两个变量之间没有线性关系。

卡尔·皮尔逊（KarlPearson）是现代相关分析的奠基者，他在1896年发表的论文中正式定义了相关系数3，并在研究中广泛使用协方差的概念。

历史

卡尔·皮尔逊（KarlPearson）是现代相关分析的奠基者，他在1896年发表的论文中正式定义了相关系数3，并在研究中广泛使用协方差。它给出了相关系数公式的标准化形式：

$r%3D%5Cfrac%7B%5Coperatorname%7BCov%28X%2CY%29%7D%7D%7B%CF%83_X%CF%83_Y%7D$

其中，是协方差，和分别是和的标准差。这篇论文3标志着现代相关系数和协方差的形式化定义的诞生。

在此之前，19世纪的统计学家，比如弗朗西斯·高尔顿（Francis Galton），也曾在研究遗传学和变量相关性时间接使用过协方差的思想。高尔顿的研究开启了对变量间关系的定量分析，而皮尔逊进一步发展了这些思想。

如今，随着矩阵运算和线性代数的普及，协方差矩阵被广泛用于多元统计分析、机器学习和数据科学等领域，并在经济学、遗传学等领域有着重要作用。

定义

设和为两个实值随机变量，它们的协方差定义为它们偏离各自期望值的乘积的期望值（或均值）1：

其中，是的期望值，cov是协方差的英文covariance的缩写。协方差有时也记为或，与方差的表示类似。

的方差为

可以看出协方差的形式类似于方差，只是把其中的一个换成了；协方差又有二者的协同参与，由此得出“协方差”的名称1。

通过利用期望的线性性质，协方差的计算公式可以简化为乘积的期望减去各自期望值的乘积：

如果随机变量对是离散实值随机变量，且可以取值，其中，且每种取值的概率相等（即），则协方差可以用随机变量的均值和表示为：

$%5Coperatorname%7Bcov%7D%28X%2CY%29%3D%5Cfrac%7B1%7D%7Bn%7D%5Csum_%7Bi%3D1%7D%5En%28x_i-E%5BX%5D%29%28y_i-E%5BY%5D%29$

也可以不直接涉及均值表示为2:

$%5Cmathrm%7Bcov%7D%28X%2CY%29%3D%5Cfrac%7B1%7D%7Bn%5E2%7D%5Csum_%7Bi%3D1%7D%5En%5Csum_%7Bj%3D1%7D%5En%5Cfrac%7B1%7D%7B2%7D%28x_i-x_j%29%28y_i-y_j%29%3D%5Cfrac%7B1%7D%7Bn%5E2%7D%5Csum_i%5E%7B%20%7D%5Csum_%7Bj%3Ei%7D%5E%7B%20%7D%28x_i-x_j%29%28y_i-y_j%29.$

更一般地，若有个可能的离散取值，且各取值的概率为，则协方差为：

当离散随机变量和的联合概率分布时，协方差的计算使用双重求和：

意义与由来

协方差被用来描述两个随机变量之间线性相关程度4。

假设两个随机变量存在线性关系:。为使这种关系最接近于实际的的分布，需要使误差的平方和（均方误差）达到最小。经过计算求出使S达到最小的a, b值，代入化简得

$S%3DDY%5Cleft%5B1-%5Cleft%28%5Cfrac%7BE%5Cleft%28%28X-EX%29%28Y-EY%29%5Cright%29%7D%7B%5Csqrt%7BDX%7D%5Ccdot%5Csqrt%7BDY%7D%7D%5Cright%29%5E2%5Cright%5D$

分别为的方差。要使S最小，必须使：

$%5Cfrac%7B%5Cmathrm%7BE%7D%5Cleft%28%5Cmathrm%7B%28X-EX%29%28Y-EY%29%7D%5Cright%29%7D%7B%5Csqrt%7B%5Cmathrm%7BDX%7D%7D%5Ccdot%5Csqrt%7B%5Cmathrm%7BDY%7D%7D%7D$

达到最大。

由此，我们定义协方差，相关系数 $%5Cquad%20p_%7B%5Cmathrm%7Bxy%7D%7D%3D%5Cfrac%7B%5Cmathrm%7BCov%7D%28%5Cmathrm%7BX%7D%2C%5Cmathrm%7BY%7D%29%7D%7B%5Csqrt%7B%5Cmathrm%7BDX%7D%7D%5Ccdot%5Csqrt%7B%5Cmathrm%7BDY%7D%7D%7D$ 。则