如何抽取样本方差的分布
样本方差的分布其实是服从一个\chi^2分布的。所以,要抽样样本的方差只要知道这个分布是啥就行了。我们直接给出定理,然后证明,最后给个例子。
定理
假设:
1、X_1,\cdots,X_n是来自一个正态分布N(\mu,\sigma^2)的n个样本
2、\bar{X}=\frac{1}{n}\sum_{i=1}^nX_i是样本的均值
3、S^2= \frac{1}{n-1} \sum_{i=1}^n(X_i-\bar{X})^2是样本的方差
那么有:
1、\bar{X}与S^2是相互独立的。
2、\frac{(n-1)S^2}{\sigma^2}=\frac{\sum_{i=1}^2(X_i-\bar{X})}{\sigma^2}\sim \chi^2(n-1)
我们来证明一下第二个结论(如果您想直接看如何抽样,那就记住这个定理,跳过本段证明即可)
首先,假设有个W如下:
\begin{aligned} W &= \sum_{i=1}^n (\frac{X_i-\mu}{\sigma})^2 \\ &\\ &= \sum_{i=1}^n (\frac{ (X_i-\bar{X})^2- (\bar{X}-\mu)^2 }{\sigma})^2 \\ &\\ &= \sum_{i=1}^n(\frac{ X_i-\bar{X}}{\sigma})^2 + \sum_{i=1}^n(\frac{ \bar{X}-\mu}{\sigma})^2 + \frac{2}{\sigma^2}( \bar{X}-\mu)\sum_{i=1}^n( X_i-\bar{X}) \\ &\\ &= \sum_{i=1}^n(\frac{ X_i-\bar{X}}{\sigma})^2 + \sum_{i=1}^n(\frac{ \bar{X}-\mu}{\sigma})^2 + \frac{2}{\sigma^2}( \bar{X}-\mu)(\sum_{i=1}^nX_i-n\bar{X}) \\ &\\ &= \sum_{i=1}^n(\frac{ X_i-\bar{X}}{\sigma})^2 + \sum_{i=1}^n(\frac{ \bar{X}-\mu}{\sigma})^2 \end{aligned}
前面我们已经定义了样本方差,有:
\begin{aligned} S^2 &= \frac{1}{n-1} \sum_{i=1}^n(X_i-\bar{X})^2 \\ &\\ (n-1)S^2 &= \sum_{i=1}^n(X_i-\bar{X})^2 \\ \end{aligned}
因此,前面的公式可以改写成:
W = \frac{(n-1)S^2}{\sigma^2} +\frac{ n(\bar{X}-\mu)^2}{\sigma^2}
到这里,左边的W其实就是一个\chi^2分布了,不过其自由度是n。因为当X是一个正态分布的时候,(X-\mu)/\sigma就是一个标准正态分布。所以左边是n个正态分布随机变量的平方和,也就是\chi^2分布。同时,右边的\frac{ n(\bar{X}-\mu)^2}{\sigma^2}是自由度为1的\chi^2分布,假设它是Z^2=\chi^2(1)。。我们使用矩母函数来证明这个结果。
在统计学中,矩母函数是一个关于随机变量的实值函数,它可以替代密度函数来描述分布。也就是说,出了概率密度函数外,我们也可以通过矩母函数来描述分布。矩母函数具有单值性。也就是说,如果矩母函数相同,那么这两个分布在所有点上的值也是相同的。
关于矩母函数的介绍可以参考矩母函数简介(Moment-generating function)
右边可以使用如下的矩母函数表示(注:M(\cdot)表示矩母函数,它等于E[e^{t\cdot}],t是实数):
\begin{aligned} E[e^{t((n-1)S^2/\sigma^2+Z^2)}] &= E[e^{t((n-1)S^2/\sigma^2} \cdot e^{tZ^2}] \\ &\\ &= M_{(n-1)S^2/\sigma^2}(t) \cdot M_{Z^2}(t) \end{aligned}
前面已经说了,左边是自由度为n的\chi^2分布,右边第二个是自由度为1的\chi^2分布,而\chi^2分布的矩母函数的形式是:
(1-2t)^{-\frac{n}{2}}
因此,上式左右两边可以继续改写成:
(1-2t)^{-n/2} = M_{(n-1)S^2/\sigma^2}(t) \cdot (1-2t)^{-1/2}
最终我们得到:
M_{(n-1)S^2/\sigma^2}(t) = (1-2t)^{-(n-1)/2}
而这个式子就是自由度为n-1的\chi^2分布的矩母函数。也就是说:
\frac{(n-1)S^2}{\sigma^2} = \frac{ \sum_{i=1}^n (X_i - \bar{X})^2 }{\sigma^2} \sim \chi^2_{(n-1)}
接下来我们看一个有意思的东西,n个随机变量在转换成标准正态分布之后,其平方和服从自由度为n的\chi^2分布:
\frac{ \sum_{i=1}^n (X_i - \mu)^2 }{\sigma^2} \sim \chi^2(n)
但是,这些随机变量如果使用样本均值做转换却得到了一个自由度是n-1的\chi^2分布:
\frac{ \sum_{i=1}^n (X_i - \bar{X})^2 }{\sigma^2} \sim \chi^2(n)
这是因为我们使用样本均值\bar{X}估计未知的总体均值的时候,丢掉了一个自由度。这在一般情况下都成立,即在某种\chi^2随机变量下估计每一个参数都会丢失一个自由度。
一个例子
假设我们要估计一群人智商所服从的分布的参数。用X_i表示某个人的智商,i=1,\cdots,8。假设这群人智商的分布来自于均值是\mu=100,方差\sigma^2=16^2的正态分布,那么\frac{(n-1)S^2}{\sigma^2}的分布根据上述结论应该是一个自由度为7的\chi^2分布。即由于样本数量是8,所以有:
\frac{(8-1)S^2}{\sigma^2} = \frac{\sum_{i=1}^8(X_i-\bar{X})^2}{\sigma^2}
它是服从一个自由度为7的\chi^2分布的,其图像如下:

这些都是理论上的,如果要看看实际结果可以这样做实验。我们可以从均值是\mu=100,方差\sigma^2=16^2的正态分布中抽取1000组样本,每一组都是8个样本点。然后计算每一组8个样本点的方差,再把这些方差使用频率直方图画出来。图形结果应该和上述类似。有人做过这样的实验,其图形如下(应该说是非常相似了):

欢迎大家关注DataLearner官方微信,接受最新的AI技术推送
