# 混淆矩阵
混淆矩阵(Confusion Matrix)是评估分类模型性能的基础工具,它以矩阵形式展示分类结果,记录预测值与真实值的四种组合情况。
| 预测正例 | 预测反例 | |
|---|---|---|
| 真实正例 | TP(真正例) | FN(假反例) |
| 真实反例 | FP(假正例) | TN(真反例) |
其中:
- TP(True Positive):正确预测为正例的样本数
- TN(True Negative):正确预测为反例的样本数
- FP(False Positive):错误预测为正例的样本数
- FN(False Negative):错误预测为反例的样本数
# 核心评估指标
# 准确率(Accuracy)
说明:准确率是指模型正确分类的样本数占总样本数的比例。
适用场景:
- 当正例和反例样本数量基本相等时使用
- 对所有类别的预测错误同等关注的场景
- 如:整体系统性能评估
注意:在严重的类别不平衡问题中(如欺诈检测),单独使用准确率会产生误导。
# 精确率(Precision)
说明:精确率是指在模型预测为正例的样本中,真正为正例的比例。反映模型的 "准确性"。
适用场景:
- 当假正例代价较高时优先使用,强调 "预测的可信度";
- 如:垃圾邮件判定、医学诊断的假阳性、推荐系统中,要求推荐内容的相关性高
示例:医生诊断患者患病,假如诊断为患病(正例)的患者中,实际患病的比例。
# 召回率(Recall)
说明:召回率是指在所有真实正例样本中,被正确预测出来的比例。反映模型的 "查全性"。
适用场景:
- 当假反例代价较高时优先使用,强调 "不遗漏";
- 如:癌症筛查、安全隐患检测、信贷风险评估
示例:在所有患病患者中,被医生正确诊断出来的比例。
# F1 值(F1-Score)
说明:F1 值是精确率和召回率的调和平均数,同时考虑两者的平衡。取值范围为 ,值越高越好。
适用场景:
- 当需要在精确率和召回率之间取得平衡时使用
- 类别不平衡的多分类问题
- 如:信息检索、文本分类、机器翻译等任务
# ROC 曲线与 AUC
# ROC 曲线
- 横轴: FPR (假正例率)=FP/(FP+TN)
- 纵轴: TPR (真正例率 / ReCall)=TP/(TP+FN)
- 描绘:随着分类阈值变化,TPR 与 FPR 的权衡关系。
曲线越靠近左上角越好。
# AUC (Area Under Curve)
ROC 曲线下的面积。
值域: 0.5 (随机猜测) 到 1.0 (完美模型)。
优点:对类别不平衡不敏感。