阅读 148

机器学习基础 | 互相关系数和互信息异同探讨

机器学习基础 | 互相关系数和互信息异同探讨

主要阐述互相关系数和互信息的区别和联系,先说结论:

  • 对于高斯分布,两者是等价的,且存在转换公式,当XXYY互相关系数为零时,两者相互独立,且互信息为零;当互相关系数为±1±1时,两者完全相关且互信息为无穷大,转换公式:


    I(X,Y)=12log(1r2)I(X,Y)=−12log⁡(1−r2)


  • 一般情形,互相关系数只是反应了两者之间的线性相关关系,而互信息则直接从概率分布角度考虑变量之间的相互独立性,相互独立一定不相关,不相关不一定相互独立

互相关系数

互相关系数是研究变量之间 线性相关 程度的量,定义公式如下:


r(X,Y)=Cov(X,Y)Var[X]Var[Y]r(X,Y)=Cov(X,Y)Var[X]Var[Y]


其中:Cov(X,Y)Cov(X,Y)XXYY之间的协方差,Var[X]Var[X]XX的方差,Var[Y]Var[Y]为Y的方差。

  • Cov(X,Y)=E[(XE[X])(YE(Y))]=E[XY]E[X]E[Y]Cov(X,Y)=E[(X−E[X])(Y−E(Y))]=E[XY]−E[X]E[Y]

  • Var[X]=E[(XE[X])2]=E[X2]E[X]2Var[X]=E[(X−E[X])2]=E[X2]−E[X]2

互相关系数的基本性质如下:

  1. |r(X,Y)|1|r(X,Y)|≤1

  2. r(X,Y)>0r(X,Y)>0,则两者之间是正相关;若r(X,Y)<0r(X,Y)<0,则两者之间是负相关

  3. XXYY不相关,则r(X,Y)=0r(X,Y)=0;反过来,若r(X,Y)=0r(X,Y)=0,则XXYY不相关,这里的不相关指的是两者之间不存在线性关系,不能排除其他关系。

  4. XXYY相互独立,则r(X,Y)=0r(X,Y)=0;反过来,若r(X,Y)=0r(X,Y)=0,只能表明XXYY不相关,两者之间并不一定相互独立。

注:

  • 相互独立指的是p(x,y)=p(x)p(y),x,yp(x,y)=p(x)p(y),∀x,y

  • 相互独立一定不相关,不相关不一定相互独立,例如x=cosα,Y=sinαx=cos⁡α,Y=sin⁡α,两者协方差为零,但是两者不独立。

  • 对于正态分布,不相关和独立是等价的。

互相关系数的另一种表达式:


λ(X,Y)=1det(C(Z))det(C(X))det(C(Y))λ(X,Y)=1−det(C(Z))det(C(X))det(C(Y))


其中:Z=(X,Y)C(Z)=E[(ZE[Z])(ZE[Z])T]Z=(X,Y),C(Z)=E[(Z−E[Z])⋅(Z−E[Z])T]是高维变量的协方差矩阵,若XXYY都是一维向量,则

  • C(X)=Var[X]C(X)=Var[X]C(Y)=Var[Y]C(Y)=Var[Y]

  • det(C(Z))=Var[X]Var[Y]Cov(X,Y)2det(C(Z))=Var[X]Var[Y]−Cov(X,Y)2

因此:λ(X,Y)=|r(x,y)|λ(X,Y)=|r(x,y)|

互信息

两个变量的互信息的定义如下:


I(X,Y)=p(x,y)logp(x,y)p(x)p(y)dxdyI(X,Y)=∫p(x,y)log⁡p(x,y)p(x)p(y)dxdy


定理: 若Z=(X,Y)Z=(X,Y)服从高斯分布,则


I(X,Y)=12log(det(C(Z))det(C(X)det(C(Y))))I(X,Y)=−12log⁡(det(C(Z))det(C(X)det(C(Y))))


证明: 只须证明如下两点即可:

  1. I(X,Y)=H(X)+H(Y)H(X,Y)I(X,Y)=H(X)+H(Y)−H(X,Y)

  2. 多元正态分布的信息熵:设X1,X2,...,XnX1,X2,...,Xn服从均值为μμ,协方差矩阵为KK的果园正态分布,则


    H(X1,X2,...,Xn)=12log[(2πe)ndet(K)]H(X1,X2,...,Xn)=12log⁡[(2πe)ndet(K)]


上述两点的证明按照互信息的定义和正态分布的概率密度函数直接推导即可,这里不再重复,感兴趣的读者可以查阅本文的参考文献。根据上述两点,我们有


I(X,Y)=12log[(2πe)det(C(X))]+12log[(2πe)det(C(Y))]12log[(2πe)2det(C(Z))]=12log(det(C(Z))det(C(X)det(C(Y))))I(X,Y)=12log⁡[(2πe)det(C(X))]+12log⁡[(2πe)det(C(Y))]−12log⁡[(2πe)2det(C(Z))]=−12log⁡(det(C(Z))det(C(X)det(C(Y))))


证毕。

根据上述定理以及λ(X,Y)λ(X,Y),可以定义一个度量Λ(X,Y)Λ(X,Y)


Λ(X,Y)=1e2I(X,Y)Λ(X,Y)=1−e2I(X,Y)


注: Λ(X,Y)Λ(X,Y)具有如下性质:

  1. Λ(X,Y)Λ(X,Y)是互信息的一种归一化,取值范围从[0,][0,∞]归一化到了[0,1][0,1],且Λ(X,Y)Λ(X,Y)同时包含了变量之间的线性关系和非线性关系

  2. (X,Y)(X,Y)服从高斯分布时,Λ(X,Y)=λ(X,Y)Λ(X,Y)=λ(X,Y),即其此时和互相关系数等价

  3. 若令DMI(X,Y)=Λ(X,Y)λ(X,Y)DMI(X,Y)=Λ(X,Y)−λ(X,Y),则DMIDMI刻画了变量之间的非线性关系,可用于指示变量之间是否存在非线性关系,分析系统的非线性动力学变化。

两者的关系

根据上面的分析很容易得到两者的关系如下:

  • 对于高斯分布,两者是等价的,且存在转换公式,当XXYY互相关系数为零时,两者相互独立,且互信息为零;当互相关系数为±1±1时,两者完全相关且互信息为无穷大,转换公式:


    I(X,Y)=12log(1r2)I(X,Y)=−12log⁡(1−r2)


  • 一般情形,互相关系数只是反应了两者之间的线性相关关系,而互信息则直接从概率分布角度考虑变量之间的相互独立性,相互独立一定不相关,不相关不一定相互独立

更为重要的是:

  • DMI(X,Y)=Λ(X,Y)λ(X,Y)DMI(X,Y)=Λ(X,Y)−λ(X,Y) 刻画了变量之间的非线性关系,可用于指示变量之间是否存在非线性关系,分析系统的非线性动力学变化。

来源https://www.cnblogs.com/fangsf/p/15000465.html

文章分类
后端
版权声明:本站是系统测试站点,无实际运营。本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 XXXXXXo@163.com 举报,一经查实,本站将立刻删除。
相关推荐