卡尔·皮尔逊(KarlPearson) 是现代相关分析的奠基者,他在1896年发表的论文中正式定义了相关系数[3] ,并在研究中广泛使用协方差。它给出了相关系数公式的标准化形式:
其中, 是协方差, 和 分别是 和 的标准差。这篇论文[3] 标志着现代相关系数和协方差的形式化定义的诞生。
在此之前,19世纪的统计学家,比如弗朗西斯·高尔顿(Francis Galton),也曾在研究遗传学和变量相关性时间接使用过协方差的思想。高尔顿的研究开启了对变量间关系的定量分析,而皮尔逊进一步发展了这些思想。
如今,随着矩阵运算和线性代数的普及,协方差矩阵被广泛用于多元统计分析、机器学习和数据科学等领域,并在经济学、遗传学等领域有着重要作用。
设 和 为两个实值随机变量,它们的协方差定义为它们偏离各自期望值的乘积的期望值(或均值)[1] :
其中, 是 的期望值,cov是协方差的英文covariance的缩写。协方差有时也记为 或 ,与方差的表示类似。
的方差为
可以看出协方差的形式类似于方差,只是把其中的一个 换成了 ;协方差又有 二者的协同参与,由此得出“协方差”的名称[1] 。
通过利用期望的线性性质,协方差的计算公式可以简化为乘积的期望减去各自期望值的乘积:
如果随机变量对 是离散实值随机变量,且可以取值 ,其中 ,且每种取值的概率相等(即 ),则协方差可以用随机变量的均值 和 表示为:
也可以不直接涉及均值表示为[2] :
更一般地,若 有 个可能的离散取值 ,且各取值的概率为 ,则协方差为:
当离散随机变量 和 的联合概率分布 时,协方差的计算使用双重求和:
协方差被用来描述两个随机变量之间线性相关程度[4] 。
假设两个随机变量 存在线性关系: 。为使这种关系最接近于实际的 的分布,需要使误差的平方和(均方误差 )达到最小。经过计算求出使S达到最小的a, b值,代入化简得
分别为 的方差。要使S最小,必须使: