11-25 01:40 阅读 134

CAN: 借助数据分布提升分类性能

模拟计算AN（Alternating Normalization）

首先我们设置一些矩阵和参数

$A0=[0.200.80.90.10001]b0=[0.500.5]Λq=[0.80.10.1]α=1,d=1\begin{aligned} A_0 &= \begin{bmatrix}0.2 & 0&0.8\\0.9 & 0.1& 0\\0&0&1\end{bmatrix}\\ b_0 &= \begin{bmatrix}0.5\\0\\0.5\end{bmatrix}\\ \Lambda_q &= \begin{bmatrix}0.8\\& 0.1\\&&0.1\end{bmatrix} \\ \alpha &= 1, d = 1 \end{aligned}$

稍微解释一下， $A_0$ 根据原算法描述是 $n$ 个置信度比较高的样本的预测概率分布进行拼接，可以看出只有3个样本置信度比较高，并且他们的预测类别分别为2，0，2； $b_0$ 是某样本 $x$ 的预测概率，因为是概率分布，所以必须满足求和为1； $Λq\Lambda_q$ 是三个类别的样本比例，可以看出第一个类别的数据非常多

首先是列归一化

$ΛS=D(L0Te)=D([0.200.80.90.100010.500.5]T[1111])=D([1.60.12.3])=[1.60.12.3]Sd=L0ΛS−1=[0.200.80.90.100010.500.5][1/1.6101/2.3]=[1/808/239/16100010/235/1605/23]\begin{aligned} \Lambda_S &= \mathcal{D}(L_0^T\mathbf{e})\\ &=\mathcal{D}({\begin{bmatrix}0.2&0&0.8\\0.9&0.1&0\\0&0&1\\ 0.5&0&0.5\end{bmatrix}}^T\begin{bmatrix}1\\1\\1\\1\end{bmatrix})\\ &=\mathcal{D}(\begin{bmatrix}1.6\\0.1\\2.3\end{bmatrix})\\ &= \begin{bmatrix}1.6&&\\&0.1&\\&&2.3\end{bmatrix}\\\\ S_d &=L_0\Lambda_S^{-1}\\ &=\begin{bmatrix}0.2&0&0.8\\0.9&0.1&0\\0&0&1\\0.5&0&0.5\end{bmatrix}\begin{bmatrix}1/1.6&&\\&10&\\&&1/2.3\end{bmatrix}\\ &= \begin{bmatrix}1/8&0&8/23\\9/16&1&0\\0&0&10/23\\5/16&0&5/23\end{bmatrix} \end{aligned}$

仔细观察矩阵 $S_d$ ，它每列求和都是1，也就是列归一化，如果我们追根溯源的话，实际上 $S_d$ 就是 $L_0$ 对每列求和，然后将 $L_0$ 每列元素除以该和

接着是行归一化

伪原创工具 https://www.237it.com/

$ΛL=D([1/808/239/16100010/235/1605/23][0.80.10.1][111])=D([31/23011/201/2325/92])=[31/23011/201/2325/92]L1=[230/3120/112392/25][1/808/239/16100010/235/1605/23][0.80.10.1]=[23/3108/319/112/11000123/2502/25]\begin{aligned} \Lambda_L &= \mathcal{D}(\begin{bmatrix}1/8&0&8/23\\9/16&1&0\\0&0&10/23\\5/16&0&5/23\end{bmatrix}\begin{bmatrix}0.8&&\\&0.1&\\&&0.1\end{bmatrix}\begin{bmatrix}1\\1\\1\end{bmatrix})\\ &= \mathcal{D}(\begin{bmatrix}31/230\\11/20\\1/23\\25/92\end{bmatrix})\\ &= \begin{bmatrix}31/230&&&\\&11/20&&\\&&&1/23&\\&&&&25/92\end{bmatrix}\\\\ L_1&= \begin{bmatrix}230/31&&&\\&20/11&&\\&&&23&\\&&&&92/25\end{bmatrix}\begin{bmatrix}1/8&0&8/23\\9/16&1&0\\0&0&10/23\\5/16&0&5/23\end{bmatrix}\begin{bmatrix}0.8&&\\&0.1&\\&&0.1\end{bmatrix}\\ &= \begin{bmatrix}23/31&0&8/31\\9/11&2/11&0\\0&0&1\\23/25&0&2/25\end{bmatrix} \end{aligned}$

我们只需要 $L_1$ 的最后一行，即 $b1=[23/2502/25]T\mathbf{b}_1=\begin{bmatrix}23/25&0&2/25\end{bmatrix}^T$ ，可以看，原本 $b0\mathbf{b}_0$ 的概率分布是 $[0.500.5]T\begin{bmatrix}0.5 &0&0.5\end{bmatrix}^T$ ，经过「先验」调整后的类别明显偏向数据占比比较多的第一类，并且 $b1\mathbf{b}_1$ 向量求和为1，符合概率的定义

作者：数学家是我理想
链接：https://juejin.cn/post/7034316748388040734