第2章 数据预处理
# 数据质量与清洗 # 缺失值处理 忽略元组:仅当类标签缺失时使用。 手动填充:费时,不推荐。 自动填充: 全局常数 (如 Unknown ) 属性均值 / 中位数 最可能的值:使用回归、贝叶斯或决策树预测 (最科学)。 # 噪声数据处理 噪声:测量变量中的随机误差或方差。 分箱 (Binning): 平滑局部数据 (均值平滑、边界平滑)。 回归:拟合函数来平滑。 聚类:检测并去除离群点 (Outliers)。 # 数据变换 # 标准化 目的:将数据缩放到特定区间,消除量纲影响。 # Min-Max 标准化 将数据线性映射到 [new_min, new_max] ,通常是 [0,...
more...





