Yume Shoka = あさめの図書館 = Shoka.asame.space

2025-12-30 1.4k 字 1 分钟

第4章分类算法的评估指标

# 混淆矩阵混淆矩阵（Confusion Matrix）是评估分类模型性能的基础工具，它以矩阵形式展示分类结果，记录预测值与真实值的四种组合情况。预测正例预测反例真实正例 TP（真正例） FN（假反例）真实反例 FP（假正例） TN（真反例）其中： TP（True Positive）：正确预测为正例的样本数 TN（True Negative）：正确预测为反例的样本数 FP（False Positive）：错误预测为正例的样本数 FN（False Negative）：错误预测为反例的样本数 # 核心评估指标 #...

more...

2025-12-30 1.9k 字 2 分钟

第3章分类算法

# 决策树核心思想: 分而治之 (Divide and Conquer)。通过一系列规则对数据进行划分。 ID3 算法核心指标：信息增益 (Information Gain). 原理：选择能使熵 (Entropy) 下降最快的属性进行分裂。缺点：偏向于选择取值较多 (Pure) 的属性 (如 ID 号)。 C4.5 算法核心指标：增益率 (Gain Ratio)。原理：在信息增益基础上除以 "分裂信息"(SplitInfo)，惩罚多值属性。优点：克服了 ID3 的偏见，能处理连续属性。 CART 算法：使用 ++ 基尼指数 (Gini...

more...

2025-12-30 662 字 1 分钟

第2章数据预处理

# 数据质量与清洗 # 缺失值处理忽略元组：仅当类标签缺失时使用。手动填充：费时，不推荐。自动填充: 全局常数 (如 Unknown ) 属性均值 / 中位数最可能的值：使用回归、贝叶斯或决策树预测 (最科学)。 # 噪声数据处理噪声：测量变量中的随机误差或方差。分箱 (Binning): 平滑局部数据 (均值平滑、边界平滑)。回归：拟合函数来平滑。聚类：检测并去除离群点 (Outliers)。 # 数据变换 # 标准化目的：将数据缩放到特定区间，消除量纲影响。 # Min-Max 标准化将数据线性映射到 [new_min, new_max] ，通常是 [0,...

more...

2025-12-30 240 字 1 分钟

第1章什么是数据挖掘

# 定义从大量数据中挖掘有趣模式和知识的过程。 Data Mining ≠ Data Query (SQL) # KDD 过程 (Knowledge Discovery in Databases) 数据清洗 (去除噪声、不一致) 数据集成 (多源合并) 数据选择 (提取相关数据) 数据变换 (归一化、离散化) 数据挖掘 (核心步骤：提取模式) 模式评估 (识别真正有趣的模式) 知识表示 (可视化) # 核心任务分类监督学习 (有标签) 分类 (预测离散类别) 回归 (预测连续数值) 无监督学习 (无标签) 聚类 (发现自然分组) 关联规则 (发现共现关系)

more...

2025-12-29 4.2k 字 4 分钟

R 附录

# 常见相似函数的区别 # 检验 test 相关 # z.test 包：BSDA / TeachingDemos 用途：均值或比例的 z 检验，用于大样本或已知总体标准差的情况。语法： z.test(x, y=NULL, mu=0, sigma.x, sigma.y=NULL, alternative="two.sided", conf.level=0.95) 主要参数： x, y ：样本向量（单样本或双样本） mu ：原假设均值（默认 0） sigma.x, sigma.y ：已知总体标准差（必填） alternative...

more...

2025-12-29 12k 字 11 分钟

R 语言习题汇总

# 数据可视化假设有 SP 和 SQ 两只股票在 1996～2010 年的年平均价格数据；绘制左右两个不同刻度的 Y 轴，进行直观比较。 12345678910111213141516171819202122# 实训：股票library(readxl)stock <- read_excel("251014/data/stock.xlsx", sheet = 1, col_names = TRUE)ylim <- range(stock$SP, stock$SQ) # y轴范围#...

more...

2025-12-29 3.1k 字 3 分钟

R 语言统计应用

# 使用 R 完成统计学任务 # 1. 描述统计集中趋势： mean/median/quantile ； weighted.mean ；众数 DescTools::Mode 。离散程度： var/sd ，极差 max-min ， IQR ，自定义加权方差 / 标准差。列级统计： apply(df, 2, mean/sd) ；变异系数 cv <- sd/mean ； scale 标准化。形态： e1071::skewness/kurtosis ； psych::describe 。 1234data1 <-...

more...

2025-12-29 2.8k 字 3 分钟

R 语言可视化

# R 语言可视化 # 常用绘图参数速查 type ： "p" 点， "l" 线， "b" 点线；常用于 plot / lines 。 pch ：点形状，整数或字符；常见 16 (实心圆)、19 (大实心圆)、21 (填充圆)。 col / border / fill ：颜色； col.axis / col.lab / col.main 控制轴 / 标签 / 标题颜色。 cex ：整体缩放； cex.axis / cex.lab / cex.main 控制字号缩放。 lwd ：线宽；...

more...

2025-12-29 1.4k 字 1 分钟

R 语言数据结构

# 1. 向量构造： c() ；序列 1:5 、 seq() ；重复 rep() ；混合类型转字符。索引：正负下标、区间、逻辑、 which/which.max/which.min 。运算与汇总： sqrt/sum/mean/var/sd/min/max/range/rev/sort/order/rank 。 1234f <- seq(1, 10)f[c(3, 5, 8)]f[-c(3, 5, 8)]f[f > 5] # 2. 矩阵与数组创建： matrix(data, nrow, ncol, byrow=FALSE, dimnames=...) ；...

more...

2025-12-29 490 字 1 分钟

R 语言基础

# R 语言基础 # 1. 基本语法与赋值赋值两种： x <- 1 、 1 -> x 。向量构造： c(1, 2, 3) ；混合类型会字符化。序列与重复： 1:4 + 1 ， seq(from = 2, to = 10, by = 2) ， rep(1:4, times = 2) 。 1234x <- seq(1, 10)x[3:5] # 切片x[x > 5] # 逻辑筛选which.max(x) # 最大值位置 # 2. 基本函数与汇总数值： sqrt/sum/mean/var/sd/min/max/range...

more...