阅读 220

正态分布的前世今生完结篇:七、八 & PDF版

(七)正态魅影


Everyone believes in it: experimentalists believing that it is a
mathematical theorem, mathematicians believing that it is an empirical fact.
—- Henri Poincare

图片


E.T. Jaynes 在《Probability Theory, the Logic of Science》提出了两个问题:

  1. 为什么正态分布被如此广泛的使用?

  2. 为什么正态分布在实践使用中非常的成功?


E.T. Jaynes 指出,正态分布在实践中成功的被广泛应用,更多的是因为正态分布在数学方面的具有多方面的稳定性质,这些性质包括:

  • 两个正态分布密度的乘积还是正态分布

  • 两个正态分布密度的卷积还是正态分布,也就是两个正态分布的和还是正态分布

  • 正态分布的傅立叶变换还是正态分布

  • 中心极限定理保证了多个随机变量的求和效应将导致正态分布

  • 正态分布和其它具有相同均值、方差的概率分布相比,具有最大熵


前三个性质说明了正态分布一旦形成,就容易保持该形态的稳定, Landon 对于正态分布的推导也表明了, 正态分布可以吞噬较小的干扰而继续保持形态稳定。后两个性质则说明, 其它的概率分布在各种的操作之下容易越来越靠近正态分布。正态分布具有最大熵的性质,所以任何一个对指定概率分布的操作, 如果该操作保持方差的大小,却减少已知的知识,则该操作不可避免的增加概率分布的信息熵, 这将导致概率分布向正态分布靠近。


正由于正态分布多种的稳定性质,使得它像一个黑洞一样处于一个中心的位置, 其它的概率分布形式在各种操作之下都逐渐向正态分布靠拢,Jaynes 把它描述为概率分布中重力现象(gravitating phenomenon)。


我们在实践中为何总是选择使用正态分布呢,正态分布在自然界中的频繁出现只是原因之一。Jaynes 认为还有一个重要的原因 是正态分布的最大熵性质。在很多时候我们其实没有任何的知识知道数据的真实分布是什么, 但是一个分布的均值和方差往往是相对稳定的。因此我们能从数据中获取到的比较好的知识就是均值和方差, 除此之外没有其它更加有用的信息量。因此按照最大熵的原理,我们应该选择在给定的知识的限制下,选择熵最大的 概率分布,而这就恰好是正态分布。即便数据的真实分布不是正态分布,由于我们对真实分布 一无所知,如果数据不能有效提供除了均值和方差之外的更多的知识,那这时候正态分布就是最佳的选择。


image.png

(八)大道至简,大美天成


To see a world in a grain of sand
And a heaven in a wild flower,
Hold infinity in the palm of your hand
And eternity in an hour.

图片



算术平均, 极其简单而朴素的一个式子,被人们使用了千百年,而在其身后隐藏着一个美丽的世界,而正态分布正是掌管这个美丽世界的女神。正态分布的发现与应用的最初历史,就是数学家们孜孜不倦的从概率论和统计学角度对算术平均不断深入研究的历史。中心极限定理在1773年棣莫弗的偶然邂逅的时候,它只是一粒普通的沙子, 两百多年来吸引了众多的数学家,这个浑金璞玉的定理不断的被概率学家们精雕细琢,逐渐的发展成为现代概率论的璀璨明珠。而在统计学的误差分析之中,高斯窥视了造物主对算术平均的厚爱,也发现了正态分布的美丽身影。殊途同归,那是偶然中的必然。一沙一世界,一花一天国, 算术平均或许只是一粒沙子, 正态分布或许只是一朵花,它们却包含了一个广阔而美丽的世界,几百年来以无穷的魅力吸引着科学家和数学家们。


高尔顿他对正态分布非常的推崇与赞美,1886 年他在人类学研究所的就职演讲中说过一段著名的话:”我几乎不曾见过像误差呈正态分布这么美妙而激发人们无穷想象的宇宙秩序。如果古希腊人知道这条曲线,想必会给予人格化乃至神格化。它以一种宁静无形的方式在最野性的混乱中实施严厉的统治。暴民越多,无政府状态越显现, 它就统治得越完美。他是无理性世界中的最高法律。当我们从混沌中抽取大量的样本,并按大小加以排列整理时, 那么总是有一个始料不及的美妙规律潜伏在其中。“


概率学家 Kac 在他的自述传记《机遇之谜》中描述他与正态分布的渊源:“我接触到正态分布之后马上被他深深的吸引, 我感到难以相信,这个来自经验直方图和赌博游戏的规律,居然会成为我们日常生活数学的一部分。” 另一位概率学家 Loeve 说:“如果我们要抽取 Levy 的概率中心思想,那我们可以这样说, 自从 1919 年以后,Levy 研究的主题曲就是正态分布,他一而再再而三的以他为出发点,并且坚决的又回到她…… 他是带着随机时钟沿着随机过程的样本路径作旅行的人。” 美国国家标准局的顾问 W.J.Youden 用如下一段排列为正态曲线形状的文字给予正态分布极高的评价,意思是说:误差的正态分布规律在人类的经验中具有“鹤立鸡群”的地位, 它在物理、社会科学、、医学、农业、工程等诸多领域都充当了研究的指南, 在实验和观测数据的解读中是不可或缺的工具。


图片


几乎所有的人都或多或少的接触数学,虽然各自的目的不同,对数学的感觉也不同。工程师、科学家们使用数学是因为他简洁而实用, 数学家们研究数学是因为它的美丽动人。像正态分布这样,既吸引着无数的工程师、科学家, 在实践中被如此广泛的应用,又令众多的数学家为之魂牵梦绕的数学存在,在数学的世界里也并不多见。我在读研究生的时候,经常逛北大未名BBS 的数学板,有一个叫 ukim 的著名 ID 在精华区里面留下了一个介绍数学家八卦的系列《Heroes in My Heart》,写得非常的精彩, 这些故事在喜欢数学的人群中也流传广泛。最后一个八卦是关于菲尔兹奖得主法国数学家 R.Thom的,它曾经令无数人感动, 我也借用来作为我对正态分布的八卦的结语:


在一次采访当中,作为数学家的 Thom同两位古人类学家讨论问题。谈到远古的人们为什么要保存火种时,一个人类学家说,因为保存 火种可以取暖御寒;另外一个人类学家说,因为保存火种可以烧出 鲜美的肉食。而 Thom 说,因为夜幕来临之际,火光摇曳妩媚,灿 烂多姿,是最美最美的……


图片


(九)推荐阅读

在终极的分析中,一切知识都是历史
在抽象的意义下,一切科学都是数学
在理性的基础上,所有的判断都是统计学
— C.R.Rao


本人并非统计学专业人士,只是凭一点兴趣做一点知识的传播,对统计学历史知识的介绍,专业性和系统性都不是我的目的。我更在乎的是趣味性,因为没有趣味就不会有传播。如果读完这段历史会让你觉得正态分布更加亲切,不再那么遥不可及, 那我的目的达到了。如果正态分布是一滴水,我愿大家都能看到它折射出的七彩虹。


本文所使用的大多是二手资料,有些历史细节并没有经过严格的考证,对于历史资料一定程度上按照个人喜好做了取舍, 本文主要基于如下的资料写成,对于历史细节感兴趣,不希望被我误导的,推荐阅读。

  • 陈希孺, 数理统计学简史

  • 蔡聰明,誤差論與最小平方法,数学传播

  • 吴江霞,正态分布进入统计学的历史演化

  • E.T. Jaynes, Probability Theory, The Logic of Science (概率论沉思录)

  • Saul Stahl, The Evolution of the Normal Distribution

  • Kiseon Kim, Why Gaussianity

  • Stigler, Stephen M. The History of Statistics: The Measurement of Uncertainty before 1900.

  • L.Le Cam, The Central Limit Theorem Around 1935

  • Hans Fischer, A History of the Central Limit Theorem: From Classical to Modern Probability Theory


注:关于这个文档的PDF链接,有同学提到52nlp网站上对应的微博网盘链接已删除,我这里放了一份到 AINLP-Resource上,感兴趣的同学可以在这个目录下自取:


https://github.com/panyang/AINLP-Resource/tree/master/rickjin






©著作权归作者所有:来自51CTO博客作者mb5fdb0a4002420的原创作品,如需转载,请注明出处,否则将追究法律责任


文章分类
后端
版权声明:本站是系统测试站点,无实际运营。本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 XXXXXXo@163.com 举报,一经查实,本站将立刻删除。
相关推荐