# 定义
从大量数据中挖掘有趣模式和知识的过程。
Data Mining ≠ Data Query (SQL)
# KDD 过程 (Knowledge Discovery in Databases)
- 数据清洗 (去除噪声、不一致)
- 数据集成 (多源合并)
- 数据选择 (提取相关数据)
- 数据变换 (归一化、离散化)
- 数据挖掘 (核心步骤:提取模式)
- 模式评估 (识别真正有趣的模式)
- 知识表示 (可视化)
# 核心任务分类
- 监督学习 (有标签)
- 分类 (预测离散类别)
- 回归 (预测连续数值)
- 无监督学习 (无标签)
- 聚类 (发现自然分组)
- 关联规则 (发现共现关系)