模型思维「pdf+epub+mobi+txt+azw3」
模型思维「pdf+epub+mobi+txt+azw3」
05 正态分布
我不敢说自己比其他65个人都更聪明——但是我当然要比那65个人的平均水平更高。
理查德·费曼(Richard Feynman)
分布构成任何建模者核心知识库的一部分。从本章开始,我们将利用各种分布来构建和分析路径依赖、随机游走、马尔可夫模型,以及各种搜索模型和学习模型。如果想要度量权力、收入和财富的不平等,并进行统计检验,也需要关于分布的知识。在本书中,我们花了篇幅不大的两章专门讨论分布。本章先讨论正态分布(normal distribution),下一章讨论幂律分布(长尾分布)。我们都是从建模者而不是从统计学家的角度来讨论的。作为建模者,我们对两个主要问题感兴趣:为什么要这样看待分布?为什么分布很重要?
要解决第一个问题,就需要重新认识分布。分布以数学的方式刻画变量的变差(在某个类型内部的差异)和多样性(不同类型之间的差异),将变量表示为在数值上或类别上定义的概率分布。正态分布的形状是我们熟悉的钟形曲线形状。大多数物种的高度和重量都满足正态分布,它们围绕着均值对称分布,而且不会包含特别大或特别小的事件,例如,我们从来没有遇到过1米长的蚂蚁,也没有看到过1千克重的麋鹿。我们可以通过中心极限定理(Central Limit Theorem)来解释正态分布的普遍性。中心极限定理告诉我们,只要把随机变量加总或求其平均值,就可以期望获得正态分布。许多经验现象,特别是像销售数据或投票总数这样的总量数据,都可以写成随机事件总和的形式。
当然,并不是所有事件的规模(大小)都是正态分布的。地震、战争死亡人数和图书销量都呈长尾分布,这种分布主要由很小的事件组成,也包括极少数非常巨大的大型事件。加利福尼亚州每年都发生超过10 000次地震,但是除非你一直盯着茉莉花的花瓣看它们是否在颤动,否则你不会注意到这些地震。然而,偶然也会出现大的地震:地面裂开、高速公路塌陷,整个城市都在颤抖。