3.7k 3 分钟

# 相关 vs. 回归 相关分析 用来度量两个变量之间线性关系的强度 相关只考虑相关关系的强度 相关关系中不涉及因果关系 回归分析 根据至少一个自变量的值预测因变量的值 解释自变量的变化对因变量的影响 因变量 Dependent variable : 我们希望预测或解释的变量 自变量 Independent variable : 用来预测或解释因变量的变量 # 简单线性回归模型 只有一个自变量 XXX 用线性函数来描述 XXX 与 YYY 之间的关系 假定 YYY 的变化与 XXX 的变化相关 # 模型与假设 线性模型 Yi=β0+β1Xi+ϵiY_i = \beta_0...
4.7k 4 分钟

# 单因素方差分析 只有一个因素或因变量,有 2 个或多个水平,用单因素方差分析进行分析 假设: 总体服从正态分布 不同总体有相同的方差 样本随机、独立抽取 假设 H0:μ1=μ2=μ3=⋯=μcH_0: \mu_1 =\mu_2 =\mu_3 = \cdots = \mu_cH0​:μ1​=μ2​=μ3​=⋯=μc​ 所有样本均值都相等 即,没有因素效果 (不同组的均值没有变化) 假设 H1:Not all μj are the sameH_1: Not\ all\ \mu_j\ are\...
3k 3 分钟

# 均值检验 # 相互独立样本 # σ1\sigma_1σ1​ 与 σ2\sigma_2σ2​ 未知,假设相等 用 SpS_pSp​ 估计未知的 σ\sigmaσ. 使用混合方差 t 检验 Pooled-variance t-test 假设检验 Lower-tail test: H0:μ1−μ2≥0,H1:μ1−μ2<0H_0: \mu_1 - \mu_2 \ge 0, H_1: \mu_1 - \mu_2 <...
2.7k 2 分钟

# 假设检验基础 假设是关于总体参数的声明或断言 # 零假设 (原假设) H0H_0H0​ 假设检验从假定零假设为真开始. 零假设表示现状或历史值 包含 === , ≤\leq≤ 或 ≥\geq≥ 符号 可能会或不会被拒绝 例:美国家庭平均拥有的电视机数量等于 3 H0:μ=3H_0: \mu = 3H0​:μ=3 注意: 是关于总体参数,而不是样本参数, 即,不是 H0:X‾=3H_0: \overline{X} = 3H0​:X=3 # 备择假设 H1H_1H1​ 与零假设是对立的 永远不包含 === , ≤\leq≤ 或 ≥\geq≥...
2.6k 2 分钟

# 点估计和区间估计 # 点估计 是一个数 是使用单个样本的统计量来估计总体参数的方法 # 区间估计 是在点估计左右构造的一段区间 提供了估计值变动的更多的信息 区间估计举例 总体 μ=368\mu = 368μ=368 , σ=15\sigma = 15σ=15. 如果一次抽样,样本容量n=25n = 25n=25 ,则: 368±1.96×15/25=(362.12,373.88)368 \pm 1.96 \times 15 / \sqrt{25} = (362.12,...
2.1k 2 分钟

场景:购物篮分析。"啤酒与尿布"。 形式: X→YX \rightarrow YX→Y (买了 x 的人也会买 Y) # 三个核心指标 # 支持度(Support) support(A→B)=P(A∪B)=∣t:A⊆t 且 B⊆t∣N \begin {aligned} \text{support}(A \rightarrow B) &= P(A \cup B) \\ &= \frac{|{t: A \subseteq t \...
529 1 分钟

聚类是无监督学习:将数据对象划分为多个组 (簇),使得: 簇内相似度高 (Intra-class similarity is high) 簇间相似度低 (Inter-class similarity is low) 主要方法 划分法:K-Means,K-Medoids 层次法:Agglomerative (凝聚),Divisive (分裂) 基于密度:DBSCAN (能发现任意形状簇) 距离度量 欧氏距离 Euclidean 最常用。 对于二元变量,可用 Jaccard 系数。 # K-Means 算法 输入: K (簇的数量) 步骤: 初始化:随机选择 K 个点作为初始质心...
1.4k 1 分钟

# 混淆矩阵 混淆矩阵(Confusion Matrix)是评估分类模型性能的基础工具,它以矩阵形式展示分类结果,记录预测值与真实值的四种组合情况。 预测正例 预测反例 真实正例 TP(真正例) FN(假反例) 真实反例 FP(假正例) TN(真反例) 其中: TP(True Positive):正确预测为正例的样本数 TN(True Negative):正确预测为反例的样本数 FP(False Positive):错误预测为正例的样本数 FN(False Negative):错误预测为反例的样本数 # 核心评估指标 #...
1.9k 2 分钟

# 决策树 核心思想: 分而治之 (Divide and Conquer)。通过一系列规则对数据进行划分。 ID3 算法 核心指标:信息增益 (Information Gain). 原理:选择能使熵 (Entropy) 下降最快的属性进行分裂。 缺点:偏向于选择取值较多 (Pure) 的属性 (如 ID 号)。 C4.5 算法 核心指标:增益率 (Gain Ratio)。 原理:在信息增益基础上除以 "分裂信息"(SplitInfo),惩罚多值属性。 优点:克服了 ID3 的偏见,能处理连续属性。 CART 算法:使用 ++ 基尼指数 (Gini...