662 1 分钟

# 数据质量与清洗 # 缺失值处理 忽略元组:仅当类标签缺失时使用。 手动填充:费时,不推荐。 自动填充: 全局常数 (如 Unknown ) 属性均值 / 中位数 最可能的值:使用回归、贝叶斯或决策树预测 (最科学)。 # 噪声数据处理 噪声:测量变量中的随机误差或方差。 分箱 (Binning): 平滑局部数据 (均值平滑、边界平滑)。 回归:拟合函数来平滑。 聚类:检测并去除离群点 (Outliers)。 # 数据变换 # 标准化 目的:将数据缩放到特定区间,消除量纲影响。 # Min-Max 标准化 将数据线性映射到 [new_min, new_max] ,通常是 [0,...
240 1 分钟

# 定义 从大量数据中挖掘有趣模式和知识的过程。 Data Mining ≠ Data Query (SQL) # KDD 过程 (Knowledge Discovery in Databases) 数据清洗 (去除噪声、不一致) 数据集成 (多源合并) 数据选择 (提取相关数据) 数据变换 (归一化、离散化) 数据挖掘 (核心步骤:提取模式) 模式评估 (识别真正有趣的模式) 知识表示 (可视化) # 核心任务分类 监督学习 (有标签) 分类 (预测离散类别) 回归 (预测连续数值) 无监督学习 (无标签) 聚类 (发现自然分组) 关联规则 (发现共现关系)
4.2k 4 分钟

# 常见相似函数的区别 # 检验 test 相关 # z.test 包:BSDA / TeachingDemos 用途:均值或比例的 z 检验,用于大样本或已知总体标准差的情况。 语法: z.test(x, y=NULL, mu=0, sigma.x, sigma.y=NULL, alternative="two.sided", conf.level=0.95) 主要参数: x, y :样本向量(单样本或双样本) mu :原假设均值(默认 0) sigma.x, sigma.y :已知总体标准差(必填) alternative...
12k 11 分钟

# 数据可视化 假设有 SP 和 SQ 两只股票在 1996~2010 年的年平均价格数据; 绘制左右两个不同刻度的 Y 轴,进行直观比较。 12345678910111213141516171819202122# 实训:股票library(readxl)stock <- read_excel("251014/data/stock.xlsx", sheet = 1, col_names = TRUE)ylim <- range(stock$SP, stock$SQ) # y轴范围#...
3.1k 3 分钟

# 使用 R 完成统计学任务 # 1. 描述统计 集中趋势: mean/median/quantile ; weighted.mean ;众数 DescTools::Mode 。 离散程度: var/sd ,极差 max-min , IQR ,自定义加权方差 / 标准差。 列级统计: apply(df, 2, mean/sd) ;变异系数 cv <- sd/mean ; scale 标准化。 形态: e1071::skewness/kurtosis ; psych::describe 。 1234data1 <-...
2.8k 3 分钟

# R 语言可视化 # 常用绘图参数速查 type : "p" 点, "l" 线, "b" 点线;常用于 plot / lines 。 pch :点形状,整数或字符;常见 16 (实心圆)、19 (大实心圆)、21 (填充圆)。 col / border / fill :颜色; col.axis / col.lab / col.main 控制轴 / 标签 / 标题颜色。 cex :整体缩放; cex.axis / cex.lab / cex.main 控制字号缩放。 lwd :线宽;...
1.4k 1 分钟

# 1. 向量 构造: c() ;序列 1:5 、 seq() ;重复 rep() ;混合类型转字符。 索引:正负下标、区间、逻辑、 which/which.max/which.min 。 运算与汇总: sqrt/sum/mean/var/sd/min/max/range/rev/sort/order/rank 。 1234f <- seq(1, 10)f[c(3, 5, 8)]f[-c(3, 5, 8)]f[f > 5] # 2. 矩阵与数组 创建: matrix(data, nrow, ncol, byrow=FALSE, dimnames=...) ;...
490 1 分钟

# R 语言基础 # 1. 基本语法与赋值 赋值两种: x <- 1 、 1 -> x 。 向量构造: c(1, 2, 3) ;混合类型会字符化。 序列与重复: 1:4 + 1 , seq(from = 2, to = 10, by = 2) , rep(1:4, times = 2) 。 1234x <- seq(1, 10)x[3:5] # 切片x[x > 5] # 逻辑筛选which.max(x) # 最大值位置 # 2. 基本函数与汇总 数值: sqrt/sum/mean/var/sd/min/max/range...
1.5k 1 分钟

# IT 基础设施 # 演化过程 通用大型机和小型机:1959 个人机 PC: 1981 Client/Server 客户机 / 服务器: 1983 企业计算:1992 云计算和移动计算:2000 # 七个主要组成部分 计算机硬件平台 Computer Hardware Platforms 操作系统平台 Operating Systems Platforms 企业软件应用 Enterprise Software Applications 数据管理与存储 Data Management and Storage 网络和远程通信 Networking /...
1.5k 1 分钟

# 为什么要开发信息系统? 自动化 Automation 提高工作效率 替代手工 / 人工劳动,不改变工作流程 流程合理化 / 梳理业务流程 Rationalization of procedures 简化 / 梳理标准操作流程 SOP 业务流程再造 Business process redesign 分析、简化和重新设计业务流程 重新组织工作流程,合并步骤,消除重复环节 范式转变 / 思维转变 Paradigm shifts 重新思考企业的本质 设计新的业务 / 企业模式 改变组织的本质 评判信息系统的四个目标? # 系统开发过程 目标:...