高斯核函数参数确定,调和函数公式
日光糖豆场调和函数是一种半监督学习方法,也是一种直推式学习(transductive learning )方法。 也就是说,由于测试样本是已知的,在学习过程中可以利用测试样本,使得所学习的模型能够更好地预测测试样本。
1 .日光糖豆随机场(Gaussian Random Fields,$L ) )个已标记样本() x_1,y_1)、(x_l,y_l ) $、$ u \(L ) (和) u )表示未标记的采样的集合。 假设这是两种类型的问题,\ ) y _ l\in\{ 0,1\}\(。 以每个示例为节点,构建连接图((g=) v,e ) )。 其中v是节点,e是边。 使用n \times n\(的权重矩阵(W\) )表示边。 \w$可以通过RBF核计算:
\[w\_{ij}=exp(-\FRAC(1) ) sigma )2) _sum ) {d=1}^m ) x_{id}-x_{id} ) ^2。
在节点上,定义一个名为$ f : l\cupu\right arrow\math bb { r } $的实数函数。 我们希望相似的节点,其类别标签也相似。 因此,可以定义二次能量函数
\[e(f )=(FRAC )1}{2} ) sum_{I,j}w ) {ij} ) f ) I )-f ) j ) ) ^2) ]
我想找一个合适的\(f ),使能量函数最小化。 标记数据类别是已知的,可以向\(f )添加约束条件) ) f )=y_i,i\in L\)。
定义(f\)函数的概率分布:
\[p(f )=(frac {1} { z } e ^ {-(beta e ) f ) } )
\ (beta )是参数,\(z )是分配函数
\ [ z=\int _ { f _ _ l=y _ _ l } exp (-\ betae (f ) ) df ) ]
我们更感兴趣的是\(p ) f_I|y\_l,i \in U\)。
(p(f ) )和(f(_u|y ) _l ) )都是遵从多元日光的菜豆的分布。 所以,\(p )被称为阳光糖豆随机场。
2 .图hhdtd(thegraphlaplacian )本文引入组合hhdtd((Delta ) )。 定义对角矩阵((d ) )。 其中((d ) _{ii}=) sum _ jw ({ ij } )是节点) ) I )的度。 hhdtd的定义是
\[\Delta=D - W\]
能量函数可以表述为:
\[e(f ) ) FRAC )1}{2} ) sum_{I,j}w ) {ij} ) f ) I-f ) j ) ) )2=f^t ) deltaf (() ) ) ) )
阳光糖豆随机场可以写:
\[p(f )=(FRAC{1}{z} ) e ^ {-(beta f ^ t (增量f ) ) ]
\(p(f ) )是) (f )的二次函数。 ((delta ) )是太阳能增益分布的精度矩阵。 如果\(w\)对称且为非负,则\(delta\)必须至少为半正定。
3 .调和函数(Harmonic Functions )可以证明最小能量函数() (f=argmin({f_l=y_l}e ) f ) )是调和的。 也就是说,对于未标记的数据\(deltaf=0),对于已标记的数据\ (deltaf=y _ _ l\)。 以下用\(h )表示该调和函数。
调和函数的性质意味着每个未标记点的\(h ) I )值是近邻的平均值。
\[h(I )=) FRAC )1}{d({ii}} ) sum_{j(inn_p ) I ) }w ) {ij}h ) j ),); for \ I \in U \]
这也与图的平滑性假设一致。 由于调和函数的最大值原理,\(h )是唯一的,在\(I\inu\) (的情况下,\(0\leh ) I ) le1\) ) (\(i\in L\)的情况下
为了求解调和函数((h ) ),分割为权重矩阵) (w )、((d )和) (Delta ) )块。
\ [ w=\left [\begin { array } { cc } w _ { ll } w _ { Lu } _ w _ { ul } w _ { CBD HB } _ end { }
根据上述性质((\(deltah=0) )和) ) h ) _l=y ) _l ) ),可以获得以下结果
\ [ h _ _ u=(d _ _ { CBD HB }-w _ _ { CBD HB } ) ^{-1}w_{ul}y__l___=-() Delta_{}
上述结果与标签传播算法的结果相同。 其中,(p=d^{-1}w ) )是图的变换矩阵。
4 .指定的标记样本(() x_1,y\_1)、() x_l,y_l ) )和未标记样本$x_{l 1}、x_{l u} $保持不变
首先求解调和函数\(h ) )
\ [ h _ _ u=(d _ { CBD HB }-w _ _ { CBD HB } ) ^{-1}w_{ul}y_l_]
通过\(h ) )来求解((y ) _u ) )
\[ y\_u=\begin{cases} 1 if \; h\_u \ge 0.5 \\\ 0 if \; h\_u 0.5 \\\ \end{cases} \]
该方法还与随机行走(Random Walk )、弹性网络(Electric Networks )和图表切割)密切相关。 还涉及到图的谱聚类、核正则化等。
参考文献:
小金珠,邹滨ghahramani, andjohnlafferty.semi-supervisedlearningusinggaussianfieldsandharmonicfunctions.in the 20 thinternationalconferenceonmachine 2003.icml 10-yearclassicpaperprize.Xiao jinzhu.semi-supervisedlearningwithgraphs.PhD thesis,carnegiemellonunnivent 200