导读:

  第六章 抽样推断

  

  
一.参数与统计量

  参数是指描述总体分布状况的数;

  统计量是指由样本构造出来的数。

  例如,一个班的学生的平均年龄为22岁,平均年龄即为班组总体的一个参数;在班级中抽出10名学生,了解其年龄,并根据10名学生的年龄计算平均数为21.5岁,则21.5即为由样本构造出来的统计量。

  抽样推断,就是由统计量推断总体的过程。

  

  
二.有放回条件下的简单随机抽样(
Simple Random Sampling
)误差计算

  

1
.样本平均数的分布

  从一个总体中抽出一部分单位,构成一个样本,可计算出一个样本平均数。

  无数次抽选的结果,将会产生无数个样本平均数,这些样本平均数具有自己的分布形式。根据大数定理,当样本量超过30时,样本平均数的分布为正态分布。

  

2
.基本公式

  在有放回条件下,简单随机抽样的误差计算公式如下

  

  

  

3
.统计推断

  利用正态分布的特征,可以计算出落在各个区间内的概率。区间的大小一般可以用一个概率度来表示。

  查标准正态分布表,可以获得下列概率度与概率值的对应关系

  概率度(t) 概率值( p ) 概率度( t ) 概率值( p )

  1.28 80% 1 68.27%

  1.64 90% 2 95.45%

  1.96 95% 3 99.73%

  2.58 99%

  考察这样一个例子:

  某总体标准差为100,平均值为40,抽出一个36个单位构成的样本,试在95%的置信度水平下,估计样本平均数的范围。

  从此例子可以逆推:

  某总体标准差为100,其一个36个单位组成的样本的平均数为40,试在95%的置信度水平下,估计总体平均数的范围。

  
4
.利用样本标准差推断总体标准差

  在实践中,可以使用样本的标准差作为总体标准差的无偏估计量。

  考察这样一个例子:

  在一批材料中抽查20根测得重量数值如下(单位:公斤)

  110 111 111 112 113 114 114 114 115

  116 116 117 118 119 119 119 119 120

  121 124

  试估计这批材料的平均重量,在95%的置信度水平下列出置信区间。

  
5
.无放回条件下的简单随机抽样误差

  可以简化作

  

  
三.影响抽样误差的因素

  根据抽样误差的计算公式,可以看出,影响抽样误差的主要因素主要有下列四个方面:

  1.目标总体的变异程度

  目标总体的变异程度()是影响抽样误差的最主要的因素之一,总体的变异程度越大,在确定样本下的抽样误差越大。

  2.样本容量

  对于一个确定的总体,减小抽样误差的主要手段就是增加样本量。从公式中可以知道,抽样误差与样本量的平方根成正比,欲使抽样误差缩小一半,必须使样本量增加到原来的四倍。

  3.抽样方式

  有放回抽样和无放回抽样的计算公式略有不同,如果采用无放回的方式,抽样误差会略小一些。

  需要注意,在抽样比()非常小的情况下,无放回抽样与有放回抽样的误差基本是相同的,可以利用有放回抽样的误差计算公式来代替无放回的情况。在这一公式中,没有总体单位数N的存在,也就是说,当抽样比非常小的情况下,总体单位数的大小对于抽样误差没有影响。

  这就说明了为什么在大城市进行调查和在小城市进行调查,要获得同样的精度时,所需的样本量相差无几。

  4.抽样的组织形式。

  抽样的组织形式是纯随机抽样、分层抽样、整群抽样或者多阶段抽样等方式,各种方式都有对应的误差计算公式,不同情况下的抽样误差相差也比较大。

  

  
四.样本量的计算

  
1
.简单随机抽样条件下样本量的计算公式

  样本量的计算方式是基于无放回简单随机抽样的误差计算公式

  为使抽样估计的误差范围小于某个指定的,需要使样本量n的值满足下列式子:

  由此计算出来的n是简单随机抽样条件下的样本量。

  考虑这样一个例子:

  已知某总体的标准差为100,欲在95%的置信度水平下使抽样估计的误差范围小于5,试求样本量。

  

2
.总体标准差的估算方法

  (1)根据以往的经验数值

  对于一些连续进行的调查来说,使用过去的经验数据进行估算是有可能的。

  (2)通过试访问进行估计

  通过试访问的方法,先获得少数一部分样本的误差数据,然后根据这些数据去计算最终所需要的样本量,然后再将所需要的样本量完成。

  (3)成数估计条件下采用的最大值法

  在成数估计的条件下,方差的最大值为0.25,因此可以使用最大的方差作为推断最大样本量的基础。

  (4)序贯抽样方法

  所谓序贯抽样,是指依次抽取样本,每抽取一次,进行一次误差计算,直至达到所需要的精度。

  

  
五.其他抽样方式的抽样误差计算

  
1
.分层抽样(
Stratified Sampling


  从计算公式中可以看到,层与层之间的误差不影响最终的抽样误差,因此,分层抽样应当努力使层间差异大,层内差异小。

  当各层的调查费用相等时,样本的最优分配为

  这一分配公式称为Neyman分配。

  
2
.整群抽样(
Cluster Sampling


  

3
.多阶段抽样(
Multi-stage Sampling


  多阶段抽样的误差计算取决于各阶段的抽样方式,以最简单的二阶段抽样为例,如果每一阶段的抽选都是简单随机抽样,一阶单位的规模相同,则有下列公式:

  其中:为第一阶段的抽样比,为第二阶段的抽样比。

  为总体一阶单位间的方差;

  为第二阶段的单位间方差。

  

4
.设计效应的计算

  当因子小于1时,说明抽样设计的效率高于SRS。

  如果一个复杂抽样的因子可以估计,则对应相同精度的简单随机抽样样本量,复杂抽样设计的样本量为:

版权声明:本文为ago52030原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
原文链接:https://blog.csdn.net/ago52030/article/details/2828260