阅读 55

推理机的学习也是推理机

    前两篇谈到一个在分类(回归)深度学习的概率模型中极易产生混淆的部位,推理机是推理机,对推理机的学习过程是另外一回事,这种概念上的区分对于在思维中形成清晰的问题结构是非常关键的。

    推理机的概率模型:

                                                                                                          (1)

    用样本集合对它的学习(训练)的概率模型:

                                                                      (2)

    其中 是参数化概率分布的参数,我们在这里对一般概率分布和参数化概率不再加以区分,而认为 就是表示了一个一般分布的参数,虽然我们未必能够为这个参数赋予数学形式--这实际上是一个思想实验。具体的 值在定义一个分布,机器学习的过程是在搜索这个分布。

    那么,很自然地,我们可以把 作为变量,并且是随机变量,既然是随机变量,它本身就有一个分布。有了这个概念,公式(2)中所描述机器学习的过程,实际上也是一个推理机结构。我们把样本集合标记为 , 把它本身作为一个随机变量。注意,这个随机变量是样本集合,而不是样本集合中的样本。这时学习就变成了推理:给出D的一个值,得到 。这个推理机的概率模型是:

                                                                                                        (3)

    所以,对推理机的学习本身也是推理,对应一个概率推理机,这个推理机也是一个条件概率分布,条件是样本集合变量。

    昨天第二篇中提到,学习是要找到一个 使得d最有可能出现,在这种方法中实际上我们并未真正获得这个完整的推理机,没有获得d出现时 这个概率分布,而是对这个分布做了最大似然点估计,most likelihood point estimation,在这个点上 最大。真正获得这个分布 的方法叫贝叶斯方法,得到的是公式(3)这个分布,并且取概率最大的那个 ,它与点估计所获得的 之间有一个距离:

               

    关于贝叶斯方法,那是另外一个故事了。

    今天我们看到,推理机的学习也是推理机,这种概念递归下去就是关于meta learning,architecture learning以及hyperparameter learning。但那又是另外一个故事了。

作者:白玉琪

原文链接:https://www.jianshu.com/p/2daf87f107cd

文章分类
后端
文章标签
版权声明:本站是系统测试站点,无实际运营。本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 XXXXXXo@163.com 举报,一经查实,本站将立刻删除。
相关推荐