# 数据质量与清洗
# 缺失值处理
- 忽略元组:仅当类标签缺失时使用。
- 手动填充:费时,不推荐。
- 自动填充:
- 全局常数 (如
Unknown) - 属性均值 / 中位数
- 最可能的值:使用回归、贝叶斯或决策树预测 (最科学)。
- 全局常数 (如
# 噪声数据处理
噪声:测量变量中的随机误差或方差。
- 分箱 (Binning): 平滑局部数据 (均值平滑、边界平滑)。
- 回归:拟合函数来平滑。
- 聚类:检测并去除离群点 (Outliers)。
# 数据变换
# 标准化
目的:将数据缩放到特定区间,消除量纲影响。
# Min-Max 标准化
将数据线性映射到 [new_min, new_max] ,通常是 [0, 1] 。
例:收入范围 [2000, 5000],当前值 3500,映射到 [0, 1]。
计算: (3500-2000) / (5000-2000) = 1500 / 3000=0.5.
# Z-Score 标准化
当实际最大 / 最小值未知,或存在离群点时使用。
其中 是均值, 是标准差。
例:均值 = 50,标准差 0=10,当前值 v=30。
计算:(30-50)/10=-20/10=-2.0
注:考试时注意分辨样本标准差 (分母 n-1) 与总体标准差 (分母 n)。