中心极限定理(Central limit theorem,简称 CLT)是概率论中的一组定理。中心极限定理说明,在适当的条件下,大量相互独立随机变量的均值经适当标准化后依分布收敛于标准正态分布。这组定理是数理统计学和误差分析的理论基础,指出了大量随机变量之和近似服从正态分布的条件。
棣莫佛——拉普拉斯定理是中心极限定理的最初版本。1733年法国数学家棣莫佛首先在论文中使用正态分布去估计大量抛硬币出现正面次数的分布,但是,这个超越时代的成果险些被历史遗忘,法国数学家拉普拉斯在1812年发表的巨著《Théorie Analytique des Probabilités》中拯救了这个当时默默无闻的卢纶,并进行了扩展,进一步指出二项分布也可以用正态分布逼近。然而此结果也没有在当时得到重视。直到 1901年,俄国数学家李雅普诺夫用更普遍的随机变量定义中心极限定理并在数学上给予了严格的证明,才被认定为概率论中的基础定理。从而我们得意用现代数学语言描述和了解两个伟大数学家的研究结果。$$^{[1]}$$
若 $$X\sim B(n,p)$$ 是 n 次伯努利试验$$^{[2]}$$ 中事件 A 的出现次数,每次试验成功的概率为 $$p$$ ,且 $$q=1-p$$ ,则对任意有限区间 $$[a,b]$$ :
令 $$x_k = \frac{k-np}{\sqrt{npq}}$$ ,当 $$n\to\infty$$ 时:
- $$P(X=k)\to\frac{1}{\sqrt{npq}}\cdot\frac{1}{\sqrt{2\pi}}e^{-\frac{1}{2}x_k^2}$$
-
$$P\left(a\le\frac{X-np}{\sqrt{npq}}\le b\right)\to\int_a^b\varphi(x)dx$$ ,其中 $$\varphi(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}},(-\infty<x<\infty)$$
这是高尔顿绘制的高尔顿板模型,其中的小球显出钟形曲线。
棣莫弗-拉普拉斯定理指出二项分布的极限为正态分布。高尔顿板可以看作是伯努利试验的实验模型。如果我们把小球碰到钉子看作一次实验,而把从右边落下算是成功,从左边落下看作失败,就有了一次 $$p=\frac{1}{2}$$ 的伯努利试验。小球从顶端到底层共需要经过 n 排钉子,这就相当于一个 n 次伯努利试验。小球的高度曲线也就可以看作二项分布随机变量的概率密度函数。因此,中央极限定理解释了高尔顿板小球累积高度曲线为什么是正态分布独有的钟形曲线。
林德伯格-列维(Lindeberg-Levy)定理,是棣莫佛-拉普拉斯定理的扩展,讨论独立同分布随机变量序列的中央极限定理。它表明,独立同分布(简称:iid,即:independent and indentically distributed)、且数学期望和方差有限的随机变量序列的标准化和以标准正态分布为极限。
设随机变量 $$X_1,X_2,\cdots,X_n$$ 独立同分布,且具有有限的数学期望和方差 $$E(X_i)=\mu$$ ,$$D(X_i)=\sigma^2\ne0$$ ($$i=1,2,\cdots,n$$),即:
$$\overline{X}=\frac{1}{n}\sum_{i=1}^nX_i$$ ,$$\zeta_n=\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}$$ ,则 $${\rm{lim}}_{n\to\infty}P(\zeta_n\le z)=\Phi(z)$$
其中 $$\Phi(z)$$ 是标准正态分布的分布函数。
证明
令 $$X_{k}-\mu$$ 的特征函数为 $$ \varphi (t)$$ ,根据傅里叶变换,样本空间中的卷积在特征函数空间变为乘积,因此 $$\zeta {n}$$ 的特征函数为 $${\left[\varphi {\left({\frac {t}{\sigma {\sqrt {n}}}}\right)}\right]}^{n}$$ 。由于 $$E(X{k})=\mu ,D(X_{k})=\sigma ^{2}$$ ,故 $$\varphi '(0)=0,\varphi ''(0)=-\sigma ^{2}$$ 。因此:
$$\varphi (t)=1-{\frac {1}{2}}\sigma ^{2}t^{2}+o(t^{2})$$
所以:
$${\left[\varphi {\left({\frac {t}{\sigma {\sqrt {n}}}}\right)}\right]}^{n}=\left[1-{\frac {1}{2n}}t^{2}+o\left({\frac {t^{2}}{n}}\right)\right]^{n}\to {e^{-t^{2}/2}}$$
由于 $$e^{-t^{2}/2}$$ 是连续函数,它对应的分布函数为 $$\Phi (Z)$$ ,因此由逆极限定理知:
$$\lim _{n\rightarrow \infty }P\left(\zeta _{n}\leq z\right)\to \Phi \left(z\right)$$
证毕。
[1]. 维基百科:中心极限定理
[2]. 齐伟,机器学习数学基础[M],北京:电子工业出版社