Yume Shoka = 夢の書架 = Yume Senpai Presents

2026-01-02 5.5k 字 5 分钟

# 相关 vs. 回归相关分析用来度量两个变量之间线性关系的强度相关只考虑相关关系的强度相关关系中不涉及因果关系回归分析根据至少一个自变量的值预测因变量的值解释自变量的变化对因变量的影响因变量 Dependent variable : 我们希望预测或解释的变量自变量 Independent variable : 用来预测或解释因变量的变量 # 简单线性回归模型只有一个自变量 XXX 用线性函数来描述 XXX 与 YYY 之间的关系假定 YYY 的变化与 XXX 的变化相关 # 模型与假设线性模型 Yi=β0+β1Xi+ϵiY_i = \beta_0...

more...

2026-01-02 4.7k 字 4 分钟

第9章方差检验

# 单因素方差分析只有一个因素或因变量，有 2 个或多个水平，用单因素方差分析进行分析假设：总体服从正态分布不同总体有相同的方差样本随机、独立抽取假设 H0:μ1=μ2=μ3=⋯=μcH_0: \mu_1 =\mu_2 =\mu_3 = \cdots = \mu_cH0:μ1=μ2=μ3=⋯=μc 所有样本均值都相等即，没有因素效果 (不同组的均值没有变化) 假设 H1:Not all μj are the sameH_1: Not\ all\ \mu_j\ are\...

more...

2026-01-02 3k 字 3 分钟

第8章两个样本检验

# 均值检验 # 相互独立样本 # σ1\sigma_1σ1 与 σ2\sigma_2σ2 未知，假设相等用 SpS_pSp 估计未知的 σ\sigmaσ. 使用混合方差 t 检验 Pooled-variance t-test 假设检验 Lower-tail test: H0:μ1−μ2≥0,H1:μ1−μ2<0H_0: \mu_1 - \mu_2 \ge 0, H_1: \mu_1 - \mu_2 <...

more...

2026-01-02 2.7k 字 2 分钟

第7章假设检验

# 假设检验基础假设是关于总体参数的声明或断言 # 零假设 (原假设) H0H_0H0 假设检验从假定零假设为真开始. 零假设表示现状或历史值包含 === , ≤\leq≤ 或 ≥\geq≥ 符号可能会或不会被拒绝例：美国家庭平均拥有的电视机数量等于 3 H0:μ=3H_0: \mu = 3H0:μ=3 注意：是关于总体参数，而不是样本参数，即，不是 H0:X‾=3H_0: \overline{X} = 3H0:X=3 # 备择假设 H1H_1H1 与零假设是对立的永远不包含 === , ≤\leq≤ 或 ≥\geq≥...

more...

2026-01-02 2.6k 字 2 分钟

第6章置信区间估计

# 点估计和区间估计 # 点估计是一个数是使用单个样本的统计量来估计总体参数的方法 # 区间估计是在点估计左右构造的一段区间提供了估计值变动的更多的信息区间估计举例总体 μ=368\mu = 368μ=368 ， σ=15\sigma = 15σ=15. 如果一次抽样，样本容量n=25n = 25n=25 ，则： 368±1.96×15/25=(362.12,373.88)368 \pm 1.96 \times 15 / \sqrt{25} = (362.12,...

more...

2025-12-31 2.1k 字 2 分钟

第6章关联规则挖掘

场景：购物篮分析。"啤酒与尿布"。形式: X→YX \rightarrow YX→Y (买了 x 的人也会买 Y) # 三个核心指标 # 支持度（Support） support(A→B)=P(A∪B)=∣t:A⊆t 且 B⊆t∣N \begin {aligned} \text{support}(A \rightarrow B) &= P(A \cup B) \\ &= \frac{|{t: A \subseteq t \...

more...

2025-12-30 529 字 1 分钟

第5章聚类算法

聚类是无监督学习：将数据对象划分为多个组 (簇)，使得: 簇内相似度高 (Intra-class similarity is high) 簇间相似度低 (Inter-class similarity is low) 主要方法划分法：K-Means,K-Medoids 层次法：Agglomerative (凝聚),Divisive (分裂) 基于密度：DBSCAN (能发现任意形状簇) 距离度量欧氏距离 Euclidean 最常用。对于二元变量，可用 Jaccard 系数。 # K-Means 算法输入: K (簇的数量) 步骤: 初始化：随机选择 K 个点作为初始质心...

more...

2025-12-30 1.4k 字 1 分钟

第4章分类算法的评估指标

# 混淆矩阵混淆矩阵（Confusion Matrix）是评估分类模型性能的基础工具，它以矩阵形式展示分类结果，记录预测值与真实值的四种组合情况。预测正例预测反例真实正例 TP（真正例） FN（假反例）真实反例 FP（假正例） TN（真反例）其中： TP（True Positive）：正确预测为正例的样本数 TN（True Negative）：正确预测为反例的样本数 FP（False Positive）：错误预测为正例的样本数 FN（False Negative）：错误预测为反例的样本数 # 核心评估指标 #...

more...

2025-12-30 1.9k 字 2 分钟

第3章分类算法

# 决策树核心思想: 分而治之 (Divide and Conquer)。通过一系列规则对数据进行划分。 ID3 算法核心指标：信息增益 (Information Gain). 原理：选择能使熵 (Entropy) 下降最快的属性进行分裂。缺点：偏向于选择取值较多 (Pure) 的属性 (如 ID 号)。 C4.5 算法核心指标：增益率 (Gain Ratio)。原理：在信息增益基础上除以 "分裂信息"(SplitInfo)，惩罚多值属性。优点：克服了 ID3 的偏见，能处理连续属性。 CART 算法：使用 ++ 基尼指数 (Gini...

more...

夢の書架

管理统计附录

第10章线性回归

第9章方差检验

第8章两个样本检验

第7章假设检验

第6章置信区间估计

第6章关联规则挖掘

第5章聚类算法

第4章分类算法的评估指标

第3章分类算法