置信区间
置信区间的定义
CI的定义:
设总体X的分布函数为F(x; θ),其中θ未知。对给定的0<α<1,如果统计量L = L(X1,...,Xn)与U=U(X1,...,Xn)满足:
P{L(X1,X2,...Xn)<θ<U(X1,X2,...Xn)}=1−α
则称(L, U)为θ的置信水平为(1−α)的置信区间
NOTE:
- α的取值应较小
- θ为未知值,但L与U需为统计量。
单侧置信上/下限:
若统计量L = L(X1,X2,....,Xn)满足:
P{L(X1,X2,...,Xn)<θ}=1−α
则称L为θ的置信水平为(1−α)的单侧置信上限
NOTE:
也可以看做落在区间(−∞,L)上。
精确度:
置信区间(L, U)的平均长度E(U - L)可表示区间的精确度:E(U - L)越小,区间的精确度越高。
枢轴量法
如何得到未知参数θ满足给定置信度1−α的置信区间?
枢轴量法:
- 找到一个随机变量G,是未知参数θ和样本X1,X2,X3,...,Xn的函数,并且分布已知(不依赖于参数θ)
- 找到a < b,使得P(a < G < b) = 1−α
- 从a < G < b中解得L < θ < U
枢轴量定义:
设总体X有概率密度函数f(x;θ),其中θ为待估的未知参数。设X1,X2,...,Xn为样本,则随机变量:
G=G(X1,X2,...,Xn;θ)
的分布已知,则称G为枢轴量。
下面以几个例子进行置信区间的求解:
- 正态分布:
假设总体X∼N(μ,σ2),其中μ,σ均未知,求μ的置信水平为1 - α的双侧置信区间:
解:
对于正态总体,μ的极大似然估计为Xˉ,且有σ/nXˉ−μ∼N(0,1),但由于σ未知,故不可做枢轴量。
根据学生定理可以得到:
G=S/nXˉ−μ∼t(n−1)
故目标为确定a,b使得:
P(a<S/nXˉ−μ<b)=1−α
由此得到μ的置信区间为:
(Xˉ−bnS,Xˉ−anS)
此时的区间长度为:(b−a)nS,需要使得区间长度最小。推导可得对于正态这种对称的分布,b = a时区间长度最小。
故当b = -a = tα/2(n−1)时,置信区间为:
(Xˉ−tα/2(n−1)nS,Xˉ+tα/2(n−1)nS)
- 指数分布:
假设总体X ∼EXP(θ),其中θ未知。样本为X1,X2,...,Xn,求θ的置信水平为1−α的双侧置信区间。
由指数分布的性质可得,θx∼Exp(1).因此
G = nθXˉ=i=1∑n(θXi)∼T(n,1)为枢轴量。
记T(n,1)分布的上-α分位数为tα(n,1),选择a,b满足P(G <= a) = P(G >= b) = α/2,有a = T1−α/2(n,1), b = Tα/2(n,1),得到置信区间为:
(nXˉT1−α(n,1),nXˉTα(n,1))
正态总体的区间估计
单个正态总体的均值
设总体X ∼N(μ,σ2),样本为X1,X2,...,Xn。用Xˉ和S2来表示样本均值和样本方差。取置信水平为1 - α,求μ的置信区间。
case1:σ2=σ02已知:
此时可以选取枢轴量为:
G=σ0/nXˉ−μ
由于N(0, 1)关于0对称,故区间最短的a,b满足b = -a = zα/2.所以得到置信区间为:
(Xˉ−z2αnσ0,Xˉ+zα/2nσ0)
case2:σ2未知
此时可以使用S2代替σ2,得到枢轴量:
G=S/nXˉ−μ∼t(n−1)
同理可以得到双侧置信区间对称
单个正态总体的方差
设总体X∼N(μ,σ2),其中μ,σ未知,样本为X1,X2,...,Xn。用Xˉ和S2分别表示样本均值和样本方差。取置信水平1−α,求σ2的置信区间。
解:
由于S2为σ2的一个无偏估计。根据学生定理,选取枢纽量:
G=σ2(n−1)S2∼x2(n−1)
由于x2(n−1)不是对称分布的,可以选择a,b使得:
P(G <= a) = α/2, P(G >= b) = α/2
故可以使得a为x2(n−1)分布的上(1 - α/2)分位数,b为x2(n−1)分布的上α/2分位数。
故得到置信区间为:
(x2α(n−1)2(n−1)S2,(x1−2α(n−1)2(n−1)S2)
两个正态总体
设样本X1,...,Xn1与Y1,...,Yn2,分别来自总体X∼N(μ1,σ12)与Y∼N(μ2,σ22),且他们相互独立。样本均值为Xˉ与Yˉ,样本方差为S12与S22。置信水平为1−α。
Q1:若μ1−μ2的置信区间,假设σ12,σ22已知:
由题可知,μ1−μ2的一个估计量为Xˉ−Yˉ,故将其标准化后得到枢轴量:
n1σ12+n2σ2(Xˉ−Yˉ)−(μ1−μ2)∼N(0,1)
Q2:求μ1−μ2的置信区间,其中σ1=σ2=σ未知
采用学生定理得到枢轴量为:
Sw1/n1+1/n2(Xˉ−Yˉ)−(μ1−μ2)∼t(n1+n2−2)
Q3:求σ12/σ22的置信区间,假设μ1,μ2未知
由题可知S12/S22是其的一个估计量,且有:
σ22S22σ12S12∼F(n1−1,n2−1)
故将其作为枢轴量即可。