第10章 线性回归
# 相关 vs. 回归 相关分析 用来度量两个变量之间线性关系的强度 相关只考虑相关关系的强度 相关关系中不涉及因果关系 回归分析 根据至少一个自变量的值预测因变量的值 解释自变量的变化对因变量的影响 因变量 Dependent variable : 我们希望预测或解释的变量 自变量 Independent variable : 用来预测或解释因变量的变量 # 简单线性回归模型 只有一个自变量 XXX 用线性函数来描述 XXX 与 YYY 之间的关系 假定 YYY 的变化与 XXX 的变化相关 # 模型与假设 线性模型 Yi=β0+β1Xi+ϵiY_i = \beta_0...
more...第8章 两个样本检验
# 均值检验 # 相互独立样本 # σ1\sigma_1σ1 与 σ2\sigma_2σ2 未知,假设相等 用 SpS_pSp 估计未知的 σ\sigmaσ. 使用混合方差 t 检验 Pooled-variance t-test 假设检验 Lower-tail test: H0:μ1−μ2≥0,H1:μ1−μ2<0H_0: \mu_1 - \mu_2 \ge 0, H_1: \mu_1 - \mu_2 <...
more...第6章 置信区间估计
# 点估计和区间估计 # 点估计 是一个数 是使用单个样本的统计量来估计总体参数的方法 # 区间估计 是在点估计左右构造的一段区间 提供了估计值变动的更多的信息 区间估计举例 总体 μ=368\mu = 368μ=368 , σ=15\sigma = 15σ=15. 如果一次抽样,样本容量n=25n = 25n=25 ,则: 368±1.96×15/25=(362.12,373.88)368 \pm 1.96 \times 15 / \sqrt{25} = (362.12,...
more...第6章 关联规则挖掘
场景:购物篮分析。"啤酒与尿布"。 形式: X→YX \rightarrow YX→Y (买了 x 的人也会买 Y) # 三个核心指标 # 支持度(Support) support(A→B)=P(A∪B)=∣t:A⊆t 且 B⊆t∣N \begin {aligned} \text{support}(A \rightarrow B) &= P(A \cup B) \\ &= \frac{|{t: A \subseteq t \...
more...第5章 聚类算法
聚类是无监督学习:将数据对象划分为多个组 (簇),使得: 簇内相似度高 (Intra-class similarity is high) 簇间相似度低 (Inter-class similarity is low) 主要方法 划分法:K-Means,K-Medoids 层次法:Agglomerative (凝聚),Divisive (分裂) 基于密度:DBSCAN (能发现任意形状簇) 距离度量 欧氏距离 Euclidean 最常用。 对于二元变量,可用 Jaccard 系数。 # K-Means 算法 输入: K (簇的数量) 步骤: 初始化:随机选择 K 个点作为初始质心...
more...第4章 分类算法的评估指标
# 混淆矩阵 混淆矩阵(Confusion Matrix)是评估分类模型性能的基础工具,它以矩阵形式展示分类结果,记录预测值与真实值的四种组合情况。 预测正例 预测反例 真实正例 TP(真正例) FN(假反例) 真实反例 FP(假正例) TN(真反例) 其中: TP(True Positive):正确预测为正例的样本数 TN(True Negative):正确预测为反例的样本数 FP(False Positive):错误预测为正例的样本数 FN(False Negative):错误预测为反例的样本数 # 核心评估指标 #...
more...第3章 分类算法
# 决策树 核心思想: 分而治之 (Divide and Conquer)。通过一系列规则对数据进行划分。 ID3 算法 核心指标:信息增益 (Information Gain). 原理:选择能使熵 (Entropy) 下降最快的属性进行分裂。 缺点:偏向于选择取值较多 (Pure) 的属性 (如 ID 号)。 C4.5 算法 核心指标:增益率 (Gain Ratio)。 原理:在信息增益基础上除以 "分裂信息"(SplitInfo),惩罚多值属性。 优点:克服了 ID3 的偏见,能处理连续属性。 CART 算法:使用 ++ 基尼指数 (Gini...
more...




