1.4k 1 分钟

# 混淆矩阵 混淆矩阵(Confusion Matrix)是评估分类模型性能的基础工具,它以矩阵形式展示分类结果,记录预测值与真实值的四种组合情况。 预测正例 预测反例 真实正例 TP(真正例) FN(假反例) 真实反例 FP(假正例) TN(真反例) 其中: TP(True Positive):正确预测为正例的样本数 TN(True Negative):正确预测为反例的样本数 FP(False Positive):错误预测为正例的样本数 FN(False Negative):错误预测为反例的样本数 # 核心评估指标 #...
1.9k 2 分钟

# 决策树 核心思想: 分而治之 (Divide and Conquer)。通过一系列规则对数据进行划分。 ID3 算法 核心指标:信息增益 (Information Gain). 原理:选择能使熵 (Entropy) 下降最快的属性进行分裂。 缺点:偏向于选择取值较多 (Pure) 的属性 (如 ID 号)。 C4.5 算法 核心指标:增益率 (Gain Ratio)。 原理:在信息增益基础上除以 "分裂信息"(SplitInfo),惩罚多值属性。 优点:克服了 ID3 的偏见,能处理连续属性。 CART 算法:使用 ++ 基尼指数 (Gini...
662 1 分钟

# 数据质量与清洗 # 缺失值处理 忽略元组:仅当类标签缺失时使用。 手动填充:费时,不推荐。 自动填充: 全局常数 (如 Unknown ) 属性均值 / 中位数 最可能的值:使用回归、贝叶斯或决策树预测 (最科学)。 # 噪声数据处理 噪声:测量变量中的随机误差或方差。 分箱 (Binning): 平滑局部数据 (均值平滑、边界平滑)。 回归:拟合函数来平滑。 聚类:检测并去除离群点 (Outliers)。 # 数据变换 # 标准化 目的:将数据缩放到特定区间,消除量纲影响。 # Min-Max 标准化 将数据线性映射到 [new_min, new_max] ,通常是 [0,...
240 1 分钟

# 定义 从大量数据中挖掘有趣模式和知识的过程。 Data Mining ≠ Data Query (SQL) # KDD 过程 (Knowledge Discovery in Databases) 数据清洗 (去除噪声、不一致) 数据集成 (多源合并) 数据选择 (提取相关数据) 数据变换 (归一化、离散化) 数据挖掘 (核心步骤:提取模式) 模式评估 (识别真正有趣的模式) 知识表示 (可视化) # 核心任务分类 监督学习 (有标签) 分类 (预测离散类别) 回归 (预测连续数值) 无监督学习 (无标签) 聚类 (发现自然分组) 关联规则 (发现共现关系)
4.2k 4 分钟

# 常见相似函数的区别 # 检验 test 相关 # z.test 包:BSDA / TeachingDemos 用途:均值或比例的 z 检验,用于大样本或已知总体标准差的情况。 语法: z.test(x, y=NULL, mu=0, sigma.x, sigma.y=NULL, alternative="two.sided", conf.level=0.95) 主要参数: x, y :样本向量(单样本或双样本) mu :原假设均值(默认 0) sigma.x, sigma.y :已知总体标准差(必填) alternative...
12k 11 分钟

# 数据可视化 假设有 SP 和 SQ 两只股票在 1996~2010 年的年平均价格数据; 绘制左右两个不同刻度的 Y 轴,进行直观比较。 12345678910111213141516171819202122# 实训:股票library(readxl)stock <- read_excel("251014/data/stock.xlsx", sheet = 1, col_names = TRUE)ylim <- range(stock$SP, stock$SQ) # y轴范围#...
3.1k 3 分钟

# 使用 R 完成统计学任务 # 1. 描述统计 集中趋势: mean/median/quantile ; weighted.mean ;众数 DescTools::Mode 。 离散程度: var/sd ,极差 max-min , IQR ,自定义加权方差 / 标准差。 列级统计: apply(df, 2, mean/sd) ;变异系数 cv <- sd/mean ; scale 标准化。 形态: e1071::skewness/kurtosis ; psych::describe 。 1234data1 <-...
2.8k 3 分钟

# R 语言可视化 # 常用绘图参数速查 type : "p" 点, "l" 线, "b" 点线;常用于 plot / lines 。 pch :点形状,整数或字符;常见 16 (实心圆)、19 (大实心圆)、21 (填充圆)。 col / border / fill :颜色; col.axis / col.lab / col.main 控制轴 / 标签 / 标题颜色。 cex :整体缩放; cex.axis / cex.lab / cex.main 控制字号缩放。 lwd :线宽;...
1.4k 1 分钟

# 1. 向量 构造: c() ;序列 1:5 、 seq() ;重复 rep() ;混合类型转字符。 索引:正负下标、区间、逻辑、 which/which.max/which.min 。 运算与汇总: sqrt/sum/mean/var/sd/min/max/range/rev/sort/order/rank 。 1234f <- seq(1, 10)f[c(3, 5, 8)]f[-c(3, 5, 8)]f[f > 5] # 2. 矩阵与数组 创建: matrix(data, nrow, ncol, byrow=FALSE, dimnames=...) ;...
490 1 分钟

# R 语言基础 # 1. 基本语法与赋值 赋值两种: x <- 1 、 1 -> x 。 向量构造: c(1, 2, 3) ;混合类型会字符化。 序列与重复: 1:4 + 1 , seq(from = 2, to = 10, by = 2) , rep(1:4, times = 2) 。 1234x <- seq(1, 10)x[3:5] # 切片x[x > 5] # 逻辑筛选which.max(x) # 最大值位置 # 2. 基本函数与汇总 数值: sqrt/sum/mean/var/sd/min/max/range...