商业分析的实验室分析很少 小而精
*******判断小数据和大数据:
样本 质量 模型 关注点 样本技术 场景
小数据:1万行以内 质量高 统计 精确度 抽样(假设检验) 实验室和问卷
大数据:10万行以上 质量低 机器 速度 非抽样 数据库和云技术
图片为非结构数据 看做大数据 行是一个图片,列是按照像素来分
统计学上找y
1.预测误差 未来是否不确定
2.成本高
3.抽象性
业务标准找到y
1.业务增益
2.业务危机
3.业务后端
统计学家族回归(商业和工业常用模型):
GLM Y是连续的 t检验(1个x分类) 方差(多个x分类) 回归(x分类连续) 协方差(x连续)
gen mod Y分类的 logistic 泊松 gamma 生存
multi var x筛选 主成分 银子 对应分析 多维偏好
sem 多个y 结构方程 cfa 中介 调节 多群组
QC 多个y 质量控制工业比较多 过程能力指标 统计分析 实验设计 过程性能指标
********方差分析强调分类变量的解释 回归强调连续的解释 协方差还是分类解释
方差可加性 线性模型