09-30 08:18 阅读 55

推理机的学习也是推理机

前两篇谈到一个在分类（回归）深度学习的概率模型中极易产生混淆的部位，推理机是推理机，对推理机的学习过程是另外一回事，这种概念上的区分对于在思维中形成清晰的问题结构是非常关键的。

推理机的概率模型：

(1)

用样本集合对它的学习（训练）的概率模型：

(2)

其中是参数化概率分布的参数，我们在这里对一般概率分布和参数化概率不再加以区分，而认为就是表示了一个一般分布的参数，虽然我们未必能够为这个参数赋予数学形式--这实际上是一个思想实验。具体的值在定义一个分布，机器学习的过程是在搜索这个分布。

那么，很自然地，我们可以把作为变量，并且是随机变量，既然是随机变量，它本身就有一个分布。有了这个概念，公式（2）中所描述机器学习的过程，实际上也是一个推理机结构。我们把样本集合标记为 , 把它本身作为一个随机变量。注意，这个随机变量是样本集合，而不是样本集合中的样本。这时学习就变成了推理：给出D的一个值，得到。这个推理机的概率模型是：

（3）

所以，对推理机的学习本身也是推理，对应一个概率推理机，这个推理机也是一个条件概率分布，条件是样本集合变量。

昨天第二篇中提到，学习是要找到一个使得d最有可能出现，在这种方法中实际上我们并未真正获得这个完整的推理机，没有获得d出现时这个概率分布，而是对这个分布做了最大似然点估计，most likelihood point estimation，在这个点上最大。真正获得这个分布的方法叫贝叶斯方法，得到的是公式（3）这个分布，并且取概率最大的那个，它与点估计所获得的之间有一个距离：

关于贝叶斯方法，那是另外一个故事了。

今天我们看到，推理机的学习也是推理机，这种概念递归下去就是关于meta learning，architecture learning以及hyperparameter learning。但那又是另外一个故事了。

作者:白玉琪

原文链接:https://www.jianshu.com/p/2daf87f107cd