# 混淆矩阵

混淆矩阵(Confusion Matrix)是评估分类模型性能的基础工具,它以矩阵形式展示分类结果,记录预测值与真实值的四种组合情况。

预测正例预测反例
真实正例TP(真正例)FN(假反例)
真实反例FP(假正例)TN(真反例)

其中:

  • TP(True Positive):正确预测为正例的样本数
  • TN(True Negative):正确预测为反例的样本数
  • FP(False Positive):错误预测为正例的样本数
  • FN(False Negative):错误预测为反例的样本数

# 核心评估指标

# 准确率(Accuracy)

Accuracy=TP+TNTP+TN+FP+FNAccuracy = \frac{TP+TN}{TP+TN+FP+FN}

说明:准确率是指模型正确分类的样本数占总样本数的比例。

适用场景

  • 当正例和反例样本数量基本相等时使用
  • 对所有类别的预测错误同等关注的场景
  • 如:整体系统性能评估

注意:在严重的类别不平衡问题中(如欺诈检测),单独使用准确率会产生误导。

# 精确率(Precision)

Precision=TPTP+FPPrecision = \frac{TP}{TP+FP}

说明:精确率是指在模型预测为正例的样本中,真正为正例的比例。反映模型的 "准确性"。

适用场景

  • 假正例代价较高时优先使用,强调 "预测的可信度";
  • 如:垃圾邮件判定、医学诊断的假阳性、推荐系统中,要求推荐内容的相关性高

示例:医生诊断患者患病,假如诊断为患病(正例)的患者中,实际患病的比例。

# 召回率(Recall)

Recall=TPTP+FNRecall = \frac{TP}{TP+FN}

说明:召回率是指在所有真实正例样本中,被正确预测出来的比例。反映模型的 "查全性"。

适用场景

  • 假反例代价较高时优先使用,强调 "不遗漏";
  • 如:癌症筛查、安全隐患检测、信贷风险评估

示例:在所有患病患者中,被医生正确诊断出来的比例。

# F1 值(F1-Score)

F1=2×Precision×RecallPrecision+Recall=2×TP2×TP+FP+FN\begin{aligned} F1 &= 2 \times \frac{Precision \times Recall}{Precision + Recall} \\ &= \frac{2 \times TP}{2 \times TP+FP+FN} \end{aligned}

说明:F1 值是精确率和召回率的调和平均数,同时考虑两者的平衡。取值范围为 [0,1][0, 1],值越高越好。

适用场景

  • 当需要在精确率和召回率之间取得平衡时使用
  • 类别不平衡的多分类问题
  • 如:信息检索、文本分类、机器翻译等任务

# ROC 曲线与 AUC

# ROC 曲线

  • 横轴: FPR (假正例率)=FP/(FP+TN)
  • 纵轴: TPR (真正例率 / ReCall)=TP/(TP+FN)
  • 描绘:随着分类阈值变化,TPR 与 FPR 的权衡关系。
    曲线越靠近左上角越好。

# AUC (Area Under Curve)

ROC 曲线下的面积。
值域: 0.5 (随机猜测) 到 1.0 (完美模型)。
优点:对类别不平衡不敏感。

更新于

请我喝[茶]~( ̄▽ ̄)~*

梦前辈 微信支付

微信支付

梦前辈 支付宝

支付宝