# 相关 vs. 回归
相关分析
- 用来度量两个变量之间线性关系的强度
- 相关只考虑相关关系的强度
- 相关关系中不涉及因果关系
回归分析
- 根据至少一个自变量的值预测因变量的值
- 解释自变量的变化对因变量的影响
因变量 Dependent variable : 我们希望预测或解释的变量
自变量 Independent variable : 用来预测或解释因变量的变量
# 简单线性回归模型
- 只有一个自变量 X
- 用线性函数来描述 X 与 Y 之间的关系
- 假定 Y 的变化与 X 的变化相关
# 模型与假设
线性模型
Yi=β0+β1Xi+ϵi
Yi: 第 i 个观测的因变量值
Xi: 第 i 个观测的自变量值
β0: 截距 (总体参数)
β1: 斜率 (总体参数)
ϵi: 随机误差项
常见假设:
- 误差项均值为 0:E(ϵi)=0
- 方差齐性:Var(ϵi)=σ2
- 独立:ϵi 相互独立
- 正态:ϵi∼N(0,σ2) (用于推断)
回归模型方程
Y^i=b0+b1Xi
Y^i: 第 i 个观测的 Y 值预测值
b0: 回归截距的估计值 (当 X=0 时,Y 均值的估计值)
b1: 回归斜率的估计值 (当 X 变化一单位,Y 均值变化的估计值)
Xi: 第 i 个观测的 X 值
# 最小二乘法
b0 和 b1 通过最小化残差平方和得到:
mini=1∑n(Yi−Y^i)2=mini=1∑n(Yi−(b0+b1Xi))2
令残差 ei=Yi−Y^i。
# 最小二乘估计
记:
- X=n1∑i=1nXi
- Y=n1∑i=1nYi
Sxx=i=1∑n(Xi−X)2
Sxy=i=1∑n(Xi−X)(Yi−Y)
b1=SxxSxy
b0=Y−b1X
# 离差的度量
离差分解:
SST=SSR+SSE
# 总平方和 SST
SST=i=1∑n(Yi−Y)2
# 回归平方和 SSR
SSR=i=1∑n(Y^i−Y)2
# 残差平方和 SSE
SSE=i=1∑n(Yi−Y^i)2=i=1∑nei2
# 可决系数 r2
可决系数是衡量 Y 的总离差中由回归模型解释的部分所占的比例,记为 r2:
r2=SSTSSR
r2=1:
- X 和 Y 之间是完美的线性关系
- Y 的变动 100% 可以由 X 的变动解释
0<r2<1:
- X 和 Y 之间是更弱的线性关系
- Y 的变动有一些但不是全部可以由 X 的变动解释
r2=0:
- X 和 Y 之间完全无线性关系:
- Y 值的变动 不依赖于 X (Y 的变动 不能用 X 的变动解释)
# 相关系数 r
r=SxxSyySxy
其中:
Syy=i=1∑n(Yi−Y)2=SST
简单线性回归中:r2 与相关系数的关系为 r2=(r)2。
b1 与 r 同号。
# 标准误 S_
观测值围绕回归直线的方差的标准差可以用如下公式进行估计:
SYX=n−2SSE=n−2∑i=1n(Yi−Y^i)2
SSE: 残差平方和
n: 样本容量
# 回归的方差分析表 (Regression ANOVA)
| Source | SS | d.f. | MS | F |
|---|
| Regression | SSR | 1 | MSR=SSR/1 | MSR/MSE |
| Error | SSE | n−2 | MSE=SSE/(n−2) | |
| Total | SST | n−1 | | |
# 统计推断
# 斜率的 t 检验
检验 X 与 Y 是否存在线性关系,等价于检验斜率是否为 0。
假设:
- Two-tail test: H0:β1=0, H1:β1=0
斜率的标准误:
Sb1=SxxSYX
检验统计量:
tSTAT=Sb1b1−β1
在 H0:β1=0 下:
tSTAT=Sb1b1
自由度 d.f.=n−2
# 相关系数的 t 检验
假设:
- Two-tail test: H0:ρ=0, H1:ρ=0
检验统计量:
tSTAT=1−r2rn−2
自由度 d.f.=n−2
# 显著性的 F 检验
检验回归模型整体显著性:
假设:
- H0:β1=0
- H1:β1=0
均方:
MSR=1SSR, MSE=n−2SSE
检验统计量:
FSTAT=MSEMSR
自由度:分子 d.f.=1,分母 d.f.=n−2
简单线性回归中 FSTAT=tSTAT2 (针对 β1 的检验)。
# 斜率的置信区间估计
CI=b1±tα/2; n−2Sb1
若区间不包含 0,则通常认为斜率显著不为 0。