第四章 分层抽样
第二节 分层抽样的简单估计
设X
ij为第i层第j个单位的标志
值(
i=1,2…
k,j=1,2…N
i), 为层内样本均
值, 为层
均
值, 为样本均 值, 为总体均 值, 为层总值
, 为总体总
值,则有:
iXix
x X iT
X
TX
iij
n
i nxx
i
一、层和总体体
参数的估计量。
iij
N
i
NNX
i
(即总体分为 k层,第i层有N
i
个单位,ΣN
i
=N)
第四章 分层抽样
nxnnxx
ii
K
iij
nKi
ii
Ni
j
ijiT
XNXX
1
NxNNxX
ii
K
iij
NiK
iiij
NiK
T xNxX
第四章 分层抽样
上
面六个式子中,只有 和 可通过样本资料计
算,其
余四个都需要估计。在简单估计下,各
估计量为:
i
xx
iiiTii xNXxX
ˆˆ
XNxNX
ii
K
T
ˆˆ
stii
K
ii
K
xNxNNXNX 记为
ˆˆ
第四章 分层抽样
容易证
明, 是 的无偏估计量。
进一
步可得 也是 的无偏估计量。
X
ˆ
XNxNE
NxENNxNEXE
ii
K
ii
K
ii
K
ˆ
TX
ˆ
TX
ii
WNN
i
ii
K
xWX
ˆ
X
(第 层单位数
占总体
单位数的比重)
如果
令
则:
第四章 分层抽样
???
思考问题 :
如何计算与估计
该地户均奶制品消费支
出?即如何计算样本
户户均奶制品消费
支
出?
算
法
1:
40
40
1
40
1
i
i
i
i x
n
x
x
第四章 分层抽样
算
法
2:
i
i
x
N
N
x
算
法
3:
i
i
i
x
N
n
x
应该采
用哪种算法?
第四章 分层抽样
总体比例的估计
iipWP
总体比例
P的估计为:
对于一般的分层抽样,
P的方差为:
)()(
iipVWpV
2
对于分层随机抽样,
P的方差为:
i
ii
ii
n
QP
fWpV )()( 1
2
第四章 分层抽样
的一个无偏估计为: )p(V
1
1
2
i
ii
ii
n
qp
fWpv )()(
【
例
3.2】
在例
3.1的调查中,同时调查了
居民
户拥家庭电脑
的情况, 获得如下数据(单位:
台
),如表
3.2。估计
该地区居民拥有家庭电脑
的比例及估计的标准差。
见教材P46页
。
第四章 分层抽样
如果按等比例抽样,即各层抽取的单位数
占
样本
n的比重等于
该层单位数 占总体
N的
比重。
即:
i
n
i
N
i
ii
W
N
N
n
n
iii
K
nfWX
222
1 )(
ˆ
则:
22 1
1
n
f
nWf
ii
)(
)(
)()( Nnffn
N
n
W
n
n
iii
i
i
i
i
K
2
1
等比例分层抽样
第四章 分层抽样
n
PPW
n
PP
P
n
W
n
X
i
K
ii
K
)()(
)
ˆ
(
)
ˆ
(
11
22
这样我
们就可得出等比例分层抽样的抽样平
均误差
公式
:
重
复抽样
第四章 分层抽样
不重
复抽样
)1(
1
1
)1(
)
ˆ
(
1
1)
ˆ
(
2
2
PPW
n
f
f
n
PP
P
W
n
f
f
n
X
i
K
ii
K
实际
应用中,以层内样本 方差代替总
体
方差。
第四章 分层抽样
解:本
题中
,. NNnn20fff
ii321
是等比例分配的分层抽样。
万元9211
501085060698530280010201
1
1
2
2
.
)...)(.(
)()()
ˆ
(
ii
i
SW
n
f
f
n
X
)(
...
ˆ
万元482
1206080030170010
ii
K
xWxX
84232 .)
ˆ
( Xtt
x
估计区间为 [48
2±23.84]
万元
第四章 分层抽样
此时,各层抽样比 也相等:
三
、各层应抽单位数 的确定
确定
最简单常用的 方法,它只考虑 各层单位
数
占总体
N的比重大小这一因
素。
in
i
n
i
N
nwNnNn
N
N
n
n
iii
ii
if
f
N
n
N
n
f
i
i
i
(1)比例分配
法。
第四章 分层抽样
此
法同时考虑了各层单位数和各层标准差两
个因
素。它在给定条件下,所确定的 能使估
计量的
方差达到最小。
i
n
nn
i
min)
ˆ
(
2
X
)()
ˆ
( nnXQ
i
2
(2)N
eyman
(
奈曼)分
配
即在
约束条件
建
立目标函数:
下
使
即: )()( nn
n
f
N
N
Q
i
i
i
i
i
2
2
2
1
第四章 分层抽样
i
2
i
2
2
i
i
2
i
2
2
i
i
2
i
i
i
2
2
i
i
2
i
i2
2
i
NN
N
nN
N
nN
n
1
N
N
n
f1
N
N
)(
)(
求 关于 的偏导,并
令其等于
0,得:
Q
i
n
0
2
2
2
2
i
ii
i nN
N
n
Q
NNn
iii
又
由于:
nNNn
iii
①
NnN
ii所以:
第四章 分层抽样
按此
法确定的 ,有 最小的估计量 方差为:
ii
ii
i
N
N
nn
i
n
i
i
i
i
i
N
n
f
N
N
W
N
W
n
W
f
nN
N
X
iiii
i
i
ii
22
2
2
2
2
1
ˆ
代
入①有:
(
请同学们自己 去推导)
第四章 分层抽样
若各层的标准差相等,则有:
nW
N
N
n
N
N
n
N
N
nn
i
i
i
i
ii
ii
i
即为比例分配。
???最优
分配可能可能出现 的情况 吗?
ii
Nn
第四章 分层抽样
按
最优分配公式,若有某层(不 妨记为第
1层)
的
最优分配样本量 ,则 令实际抽样量:
iiNn
11Nn
1Nn
i
ii
ii
i
N
N
Nnn
)(
1
步骤
如下:
对其
余各层
:
(i 2)
≥
若
仍有
:
如:
22Nn
第四章 分层抽样
则
令
: 2211 ,NnNn
ii
ii
i
N
N
NNnn
)(
21 (i 3)
≥
遇
到类似情况同样 处理,直到所有分配的样
本量都不
超过为止。
而此时
最优分配达到的最小方差公式②需
作相
应的修改,对于那些作全面调查的层,
不
产生抽样误应,因此方差只来自实际抽样
的层。
第四章 分层抽样
,)(
22
2
N
W
n
W
x
iiii
其中 为仅对
最后实际分配 的层求和,
为这
些层中抽样的样本量之和。
iiNn
n
某
些层需要超过
1
00%
抽样时
的
修正之例:
第四章 分层抽样
例:某个总体分为四层,资料如下,
设
n
=80,
问如何进行各层样本分配( 奈曼分
配)?
层 N
i S
i N
iS
i n
i
1
2
3
4
5
10
200
400
400
500
10
20
2000
5000
2000
8000
9.41
23.53
9.41
37.65
∑ 615 17000 80
第四章 分层抽样
考察
, 、 和调查费用
C三
个因素。即要在
调查总
费用既定、各层单位调查 费用不同的
条件
下,所确定的 能使估计量的 方差达到最
小。
i
N
i
i
n
ii
k
cncc
0
)(
2
st
x
(
三)经济分配法(最优分配)
其中C为总调查
费用,
C
0为
固定费用,
C
i为第层的单位调查
费用。
也就要在
约束条件 :
下,
使 最
小。
第四章 分层抽样
建
立目标函数:
)()(
0
ccncxVQ
ii
k
xt
求偏导并
令其为
0得:
0
2
2
2
2
i
i
ii
i
C
n
Q
N
N
n
Q
iiii cWn
iii
K
i cwnn
又
由于
两式相
除
iii
iii
iii
iii
i
cN
cN
n
cW
cW
nn
若各层单位调查
费
用相等,则 该
式同与
奈曼分配
得:
得:
第四章 分层抽样
按
经济方法 确定的估计量的 方差为:
若各层单位调查
费用相等,则 上式等同于
奈曼
分配。
iiist
nfxV
2
1)()(
i
ii
i
ii
N
W
n
W
2222
N
W
cW
n
cW
ii
iii
iii
2
第四章 分层抽样
① 相差不大时
;
可
见对于相同的
n,在不同分配
法下,有
不同的n
i和不同的估计量
方差 。
但
事实上,当各层 相差不大时, 经济分配法
意义
不大。
)(
st
xV
i
c
i
同时,在多数情况下,
奈曼分配法也无多大 “
优势”
。
???
② 未
知要用
S来
代替时。
都
难以保证奈曼 分配法一定优于比例分配 法
i
第四章 分层抽样
样本量的确定
一、一般
公式
令n
i=nw
i,其中w
i已经
选定
,于是当
方
差V给
定时
,可
由以下公式
:
L
i
i
i
i
L
i
i
i
i
L
i
i
i
i
i
S
N
W
S
n
W
S
n
f
WV
1
2
2
1
2
2
1
221
L
i
i
i
i
L
i
i
i
i
S
W
W
N
S
w
W
n
1
2
2
1
2
2
11
得到确定样本
量的一般
公式
为:
N
SW
V
w
SW
n
ii
i
ii
2
22
第四章 分层抽样
当按比例分配时,
实际工作中, n的计算可分两
步走
,先计算
:
iiWw
N
SW
V
SW
n
ii
ii
2
2
V
SW
n
ii
2
0
然后进行
修正:
N
n
n
n
0
0
1
第四章 分层抽样
当按N
eyman
分配
时
ii
ii
i
SW
SW
w
2
2
2
2
ii
ii
ii
ii
SWNV
SWN
N
SW
V
SW
n
)()(
当按
最优分配
(经济
分配
)时,由
下式
:
N
SW
cSW
n
cSW
V
ii
iii
iii
2
2
ii
iiiiii
SWNV
CSWCSWN
n
))(/(
第四章 分层抽样
例:某总体 N
=5000
,分
三层,资料如下
:
分层 N
i σ
i C
i
1
2
3
1000
2700
1300
100
212
510
2
6
10
125
265
530
合计 5000------------
iX
要求在总体均
值估计量方差不超过
3
50
的
前提下,分别计算比例分配、 奈曼分配
、
最优(经济)分配下的样本 容量。
第四章 分层抽样
四、分层抽样简单估计的效果分
析
优
V
比
V
纯
V
nfV /
2
1
纯
一般情况下,对于相同的 n,
有
≤≤
因为:
nWfV
ii/
2
1
比
第四章 分层抽样
而:
2
21
Xx
N
ij
Nik
21
XXXx
N
iiij
Ni
j
k
i
iij
N
ii
k
ii
Nik
iij
Nik
XxXx
N
Xx
N
Xx
N
211 22
2
211
XXN
N
N
N
ii
k
ii
k
22
2
2
p
iiii XXWW
即层内平均
方差
+层间
方
差
第四章 分层抽样
从而:
2
22 1
1 XXWW
n
f
nfV
iiii
/
纯
2
ii XXW
n
f1
V
比
显然
纯
V
比
V≥
第四章 分层抽样
又因为:
NWNWV
iii
//
22
奈
21
iiW
n
f
V
比
NWnW
ii
//
22
22
22
)(
)(
nWnWVV
iiii奈比
])([
22
EED
而:
故
:
0 )(D
当各层标准差相等时,等
号成立。
另
外, 一般介于 与 之间。
经
V
比
V
奈
V
第四章 分层抽样
1、在
纯随机抽样下估计量 方差为:
868.706
)1(
)(
2
Nn
nN
xV
2、按工资高低分两层,每次抽取 50%
的单位,其估计量
方差为:
高 320320315300
低 165170155120150160
583.22
)1(
)(
2
ii
ii
ii
st W
Nn
nN
xV
说明分层抽样的效果较好。
第四章 分层抽样
3、按性别分层进行分层抽样,每层
仍
抽50%的单位,估计量
方差为:
38.799
)1(
)(
2
ii
ii
ii
st
W
Nn
nN
xV
估计量
方差比纯随机抽样的还大,这样
的分层抽样是
很不好的。
分层抽样中选
择好分组标志的关 键是让
调查标志分层后的层间
方差达到最大。提
出以下
几点思路: