07-12 07:58 阅读 148

机器学习基础 | 互相关系数和互信息异同探讨

主要阐述互相关系数和互信息的区别和联系，先说结论：

对于高斯分布，两者是等价的，且存在转换公式，当X与Y互相关系数为零时，两者相互独立，且互信息为零；当互相关系数为±1时，两者完全相关且互信息为无穷大，转换公式：

I(X,Y)=−12log(1−r2)
一般情形，互相关系数只是反应了两者之间的线性相关关系，而互信息则直接从概率分布角度考虑变量之间的相互独立性，相互独立一定不相关，不相关不一定相互独立

互相关系数

互相关系数是研究变量之间 线性相关 程度的量，定义公式如下：

r(X,Y)=Cov(X,Y)Var[X]Var[Y]−−−−−−−−−−−−√

其中：Cov(X,Y)为X与Y之间的协方差，Var[X]为X的方差，Var[Y]为Y的方差。

互相关系数的基本性质如下：

注：

互相关系数的另一种表达式：

λ(X,Y)=1−det(C(Z))det(C(X))det(C(Y))−−−−−−−−−−−−−−−−−−−−√

其中：Z=(X,Y)，C(Z)=E[(Z−E[Z])⋅(Z−E[Z])T]是高维变量的协方差矩阵，若X和Y都是一维向量，则

因此：λ(X,Y)=|r(x,y)|

两个变量的互信息的定义如下：

I(X,Y)=∫p(x,y)logp(x,y)p(x)p(y)dxdy

定理： 若Z=(X,Y)服从高斯分布，则

I(X,Y)=−12log(det(C(Z))det(C(X)det(C(Y))))

证明： 只须证明如下两点即可：

I(X,Y)=H(X)+H(Y)−H(X,Y)
多元正态分布的信息熵：设X1,X2,...,Xn服从均值为μ，协方差矩阵为K的果园正态分布，则

H(X1,X2,...,Xn)=12log[(2πe)ndet(K)]

上述两点的证明按照互信息的定义和正态分布的概率密度函数直接推导即可，这里不再重复，感兴趣的读者可以查阅本文的参考文献。根据上述两点，我们有

I(X,Y)=12log[(2πe)det(C(X))]+12log[(2πe)det(C(Y))]−12log[(2πe)2det(C(Z))]=−12log(det(C(Z))det(C(X)det(C(Y))))

证毕。

根据上述定理以及λ(X,Y)，可以定义一个度量Λ(X,Y)：

Λ(X,Y)=1−e2I(X,Y)−−−−−−−−−√

注： Λ(X,Y)具有如下性质：

根据上面的分析很容易得到两者的关系如下：

对于高斯分布，两者是等价的，且存在转换公式，当X与Y互相关系数为零时，两者相互独立，且互信息为零；当互相关系数为±1时，两者完全相关且互信息为无穷大，转换公式：

I(X,Y)=−12log(1−r2)
一般情形，互相关系数只是反应了两者之间的线性相关关系，而互信息则直接从概率分布角度考虑变量之间的相互独立性，相互独立一定不相关，不相关不一定相互独立

更为重要的是：

来源https://www.cnblogs.com/fangsf/p/15000465.html