# 数据质量与清洗

# 缺失值处理

  • 忽略元组:仅当类标签缺失时使用。
  • 手动填充:费时,不推荐。
  • 自动填充:
    • 全局常数 (如 Unknown )
    • 属性均值 / 中位数
    • 最可能的值:使用回归、贝叶斯或决策树预测 (最科学)。

# 噪声数据处理

噪声:测量变量中的随机误差或方差。

  • 分箱 (Binning): 平滑局部数据 (均值平滑、边界平滑)。
  • 回归:拟合函数来平滑。
  • 聚类:检测并去除离群点 (Outliers)。

# 数据变换

# 标准化

目的:将数据缩放到特定区间,消除量纲影响。

# Min-Max 标准化

将数据线性映射到 [new_min, new_max] ,通常是 [0, 1]

v=vminmaxmin×(maxnewminnew)+minnewv' = \frac{v- min}{max - min} \times (max_{new} - min_{new}) + min_{new}

例:收入范围 [2000, 5000],当前值 3500,映射到 [0, 1]。
计算: (3500-2000) / (5000-2000) = 1500 / 3000=0.5.

# Z-Score 标准化

当实际最大 / 最小值未知,或存在离群点时使用。

v=vμσv' = \frac{v - \mu}{\sigma}

其中 μ\mu 是均值,σ\sigma 是标准差。

例:均值 = 50,标准差 0=10,当前值 v=30。
计算:(30-50)/10=-20/10=-2.0
注:考试时注意分辨样本标准差 (分母 n-1) 与总体标准差 (分母 n)。

更新于

请我喝[茶]~( ̄▽ ̄)~*

梦前辈 微信支付

微信支付

梦前辈 支付宝

支付宝