Published on

正态分布模型

Authors
  • avatar
    Name
    Mao
    Twitter

我不敢说自己比其他65个人都更聪明——但是我当然要比那65个人的平均水平更高 --- 理查德·费曼(Richard Feynman)

分布构成任何建模者核心知识库的一部分,分布以数学的方式``刻画变量的变差(在某个类型内部的差异)多样性(不同类型之间的差异),将变量表示为在数值上或类别上定义的概率分布

结构

正态分布曲线

  • 均值:概率事件的平均值
  • 方差:数据与均值偏离程度的平方的平均值,计算公式为 σ2=1Ni=1N(xiμ)2\sigma^2 = \frac{1}{N}\sum_{i=1}^{N}(x_i - \mu)^2
  • 标准差:方差的算术平方根,计算公式为 σ=1Ni=1N(xiμ)2\sigma = \sqrt{\frac{1}{N}\sum_{i=1}^{N}(x_i - \mu)^2}

正态分布的特征在于其均值和标准差(或者等价地,其方差)。也就是说,所有正态分布的图形看上去都是相似的:

  • 大约68%的结果在均值的一个标准差内
  • 大约95%的结果在两个标准差内
  • 并且超过99%的结果在三个标准差内。

正态分布允许任何大小的结果或事件,不过"大"事件是非常罕见的,与均值距离超过五个标准差的事件发生的概率为200万分之一

逻辑

中心极限定理

只要各随机变量是相互独立的,每个随机变量的方差都是有限的,且没有任何一小部分随机变量贡献了大部分变差,那N≥20个随机变量的和就近似一个正态分布。

功能

平方根法则

检验显著性

六西格玛