统计推断之分布拟合检验

本文主要通过假设,去检验样本是否符合某个分布

  • 什么是一般总体数学期望的假设检验?

    • 经常是面对一个随机变量,其满足的分布不清楚,此时对总体的未知参数的假设检验属于非正态总体假设检验,即一般总体的假设检验问题。在样本很大(一般 n30n\geq30, 最好 n50n\geq50n100n\geq100), 可以使中心极限定理进行分析
  • 什么是一个总体均值的大样本假设检验?

    • 已知一个总体的均值和方差分别为:μ,σ2\mu,\sigma^2 , 一个样本的均值和方差分别为:X,S2\overline X,S^2 , 当 n 充分大时,中心极限定理可知,Un=Xμ0σ/nU_n=\frac{\overline X -\mu_0}{\sigma/\sqrt{n}} 近似服从标准正态分布 N (0,1)。所以这个问题可以使用―U 检验法进行分析。
    • 实际使用中,总体方差σ2\sigma^2 未知情况下,可使用样本方差S2S^2 进行替代
  • 什么是两个总体均值的大样本假设检验?

    • 两个总体的均值检验统计量可以构造如下,仍然使用 U 检验法进行检验

      U=XYS12/n1+S22/n2 N(0,1)U=\frac{\overline X -\overline Y}{\sqrt{S_1^2/n_1+S_2^2/n_2}} ~ N(0,1)

  • 什么是假设检验问题的 p 值检验法?

    • 以上问题均属于临界值检验法 ,下面介绍 P 值检验法 ,所谓 P 值检验法就是由检验统计量的样本观察值得出的原假设可被拒绝的最小显著性水水平
    • 临界值法假设检验:使用显著性水平得到统计量的拒绝域,结合样本统计量的值进行统计推断
    • P 值法假设检验:由统计量得到 P 值,然后显著性水平进行比较得出统计推断
  • 什么是分布拟合检验?

    • 实际问题中,首先要根据样本的观察结果对总体的分布类型进行检验。使用χ\chi 检验,可以检验总体是否具有某个指定的分布或者某个分布簇。
    • 设总体的分布函数为F(x)F(x),F(x)F(x) 未知,F0(x)F_0(x) 为某一已知分布函数,考虑如下检验问题:H0:F(x)=F0(x);H1:F(x)F0(x)H_0:F(x)=F_0(x);H_1:F(x) \neq F_0(x)F0(x)F_0(x) 不含未知参数时,考虑如下
    • 对于随机变量 XX, 将其分为 k 段互不相交的区间,分点依次记为 a0,a1,a2,.ak1a_0,a_1,a_2,….a_{k-1}, 记 Ai={ai1<X<ai}A_i=\left\{a_{i-1} < X < a_i \right\}
    • H0H_0成立时,有:P(Ai)=F0(ai)F0(ai1)=piP(A_i)=F_0(a_i)-F_0(a_{i-1})=p_i, 含义是随机变量落在区间AiA_i的概率。假设区间AiA_i的长度是nin_i, 在 n 次的随机实验中,当H0H_0成立且 n 足够大时,ni/nn_i/npip_i的近似。
    • 构造统计量 1: 用于衡量样本与H0H_0假设分布的吻合程度 i=1kCi(ninpi)2\sum_{i=1}^kC_i(\frac {n_i} {n} -p_i)^2
    • CiC_i 为给定常数,皮尔逊证明,当CiC_in/pin/p_i 时,上面的式子可以变化如下χ2=i=1knpi(ninpi)2=i=1k(ninpi)2npi\chi^2=\sum_{i=1}^k\frac{n}{p_i}(\frac {n_i} {n} -p_i)^2=\sum_{i=1}^k\frac{(n_i-np_i)^2}{np_i}
    • F0(x)F_0(x) 含有未知参数时,考虑:通过样本观察值 ,使用极大似然估计,求出pip_i 的估计值p^i=P^(Ai)\hat p_i=\hat P(A_i) , 再使用上述公式作统计量分析
  • 什么是皮尔逊定理?

    • 若理论分布函数F0(x)F_0(x) 不含未知参数,则当H0H_0 成立且 n 充分大是,统计量χ2=i=1k(ninpi)2npi\chi^2=\sum_{i=1}^k\frac{(n_i-np_i)^2}{np_i} 近似服从自由度为k1k-1χ\chi 分布;
    • 若理论分布函数F0(x)F_0(x) 含有未知参数,其未知参数个数为 r 时,统计量χ2=i=1k(ninpi)2npi\chi^2=\sum_{i=1}^k\frac{(n_i-np_i)^2}{np_i}近似服从自由度为kr1k-r-1χ\chi 分布
    • 从公式来看,nin_i 为区间 i 的实际频数,npinp_i 是理论频数。则统计量的含义可写为χ2=i=1k(ActualfrequencyTheoreticalfrequency)2Theoreticalfrequency\chi^2=\sum_{i=1}^k\frac{(Actualfrequency-Theoreticalfrequency)^2}{Theoreticalfrequency}
    • 给定显著性水平α\alpha ,H0H_0 的否定域是χ2>χα2\chi^2>\chi_\alpha^2 ,实际使用中,确保 n 足够大,npinp_i不能太小,一般是n50,npi5n \geq 50,np_i \geq 5, 如果npinp_i太小,可以进行合并
  • 统计 200 天高速公路的车祸次数,得到下表信息试问,在显著性水平α=0.25\alpha=0.25 的情况下,是否认为 X 满足泊松分布?

    • 泊松分布含有未知参数λ\lambda , 根据样本观察结合极大似然估计得

      λ^=x=1200i=04ini=0.61\hat{\lambda}=\overline x=\frac {1} {200} \sum_{i=0}^4i*n_i=0.61

    • 提出假设:H0:XP(0.61)H_0:X-P(0.61) , 若H0H_0 为真时,总体分布律的估计形式

      p^i=P(X=i)=0.61ii!e0.61\hat p_i=P(X=i)=\frac{0.61^i}{i!}e^{-0.61}

    • 因此,p^0=0.543p^1=0.331p^2=0.101p^3=0.021\hat p_0=0.543,\hat p_1=0.331,\hat p_2=0.101,\hat p_3=0.021,得p^4=1p0,1,2,3=0.004\hat p_{4}=1-p_{0,1,2,3}=0.004,其np4=0.8<5np_4=0.8 < 5 因此将p4p_4合并到p3p_3

      χ2=i=1k(ninpi)2npi=0.3837\chi^2=\sum_{i=1}^k\frac{(n_i-np_i)^2}{np_i}=0.3837

    • 合并后,k=4,r=1, 查表知:χ0.0252(411)=2.77\chi_{0.025}^2(4-1-1)=2.77 , 即χ2=0.03837<2.77\chi^2=0.03837<2.77 , 不满足拒绝条件,即认为在显著性水平α=0.25\alpha=0.25 下,样本来自泊松分布