# 点估计和区间估计
# 点估计
- 是一个数
- 是使用单个样本的统计量来估计总体参数的方法
# 区间估计
- 是在点估计左右构造的一段区间
- 提供了估计值变动的更多的信息
区间估计举例
总体 μ=368 , σ=15.
如果一次抽样,样本容量n=25 ,则:
368±1.96×15/25=(362.12,373.88) (包含 95% 的样本均值)
- 如果不知道 μ, 则用 x 估计 μ
- 如果 x=362.3 ,则区间为:362.3±1.96×15/25=(356.42,368.18)
- 因为 356.42≤μ≤368.18, 基于该样本的区间给出了关于 μ 的表述
# 置信区间和置信水平
# 置信区间
置信区间给出了一个值的范围:
- 考虑不同样本之间样本统计量的变异
- 基于 1 个样本的观测
- 给出了接近总体参数程度的信息
# 置信水平(置信度)
相信该区间包含位置的总体参数
常说的 95% 置信区间 这里的 **95%** 就是置信水平
也可写为α=0.05,(1−α)=0.95
# 置信区间估计的计算
# 通用计算
CI=X±e
X 是点估计.
e 是边际误差
# 总体均值 μ 的置信区间估计
# 当总体标准差 σ 已知
假设:
- 总体标准差 σ 已知.
- 总体是正态分布(如果总体不是正态,则使用大样本).
CI=X±Zα/2⋅nσ
X 是点估计.
Zα/2 是每一侧α/2 概率处的正态分布临界值.
σ/n 是标准误.
# 当总体标准差 σ 未知
如果总体标准差 σ 未知,我们可以用样本标准差 S 代替.
- 这会带来额外的不确定性,因为 S 是随样本的变化而变化的.
- 因此我们用 t 分布 来代替正态分布.
CI=X±tα/2⋅nS
tα/2 是自由度为n−1,双尾两侧各 α/2 的临界值.
# 总体比例 π 的置信区间估计
如果样本足够大,则样本比例分布近似为正态分布,标准差可以用样本数据进行估计.
σp=nπ(1−π)≃np(1−p)
总体比例的置信区间上限与下限可用如下公式计算.
p±Zα/2⋅np(1−p)
Zα/2 是该置信度下的标准正态分布的临界值.
p 是样本比例.
n 是样本容量.
# 确定需要的样本容量
确定样本容量,可以通过确定给定置信度 (1−α) 下你可以容忍多大的抽样误差来达到.
# 确定均值需要的样本容量
e=Zα/2⋅np(1−p)⇒n=e2Zα/22σ2
确定均需要的样本容量,需要知道:
- 设定的置信度 1−α, 及其决定的临界值 Z_
- 可接受的抽样误差 e
- 标准差 σ
例:确定均值需要的样本容量
如果 σ=45, 在置信度 90% 水平下,估计总体均值抽样误差在±5 范围内,需要样本容量至少为多少?
n=e2Zα/22σ2=52(1.645)2×(45)2=219.19≈220
因此,需要的样本容量 n=220
# 确定比例需要的样本容量
e=Z⋅nπ(1−π)⇒n=e2Z2π(1−π)
确定比例所需要的样本容量,需要知道:
- 设定的置信度 1−α, 及其决定的临界值,Z_
- 可接受的抽样误差 e
- 比例的真值 π
- 必要时 π 可以用先期抽样样本进行估计
- 如果没有过去的信息或相关经历,可以用一个绝对不会低估样本容量的 π 值。当 π=0.5 时,可以使 π×(1−π) 最大化