楼主: peylinn8
635 1

[学习笔记] 【学习笔记】2019/12/03 《增强型分析-AI驱动的数据分析、业务决策与案例实践 ... [推广有奖]

  • 0关注
  • 6粉丝

副教授

4%

还不是VIP/贵宾

-

威望
0
论坛币
3852 个
通用积分
378.7263
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
2958 点
帖子
532
精华
0
在线时间
3 小时
注册时间
2017-3-31
最后登录
2023-10-31

楼主
peylinn8 发表于 2019-12-3 19:43:58 来自手机 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
2019/12/03
《增强型分析-AI驱动的数据分析、业务决策与案例实践》读书笔记
《No.2: p13-p29》第2章 大数据探索与预处理

1        大数据探索
1.1        数值类型:区间型数据、分类型数据、序数型数据
1.2        连续型数据探索:
1.2.1        缺失值、均值、最大值最小值、方差、标准差、中位数、众数、四分位数、四分位距、偏斜度、峰态
1.2.2        首要关注重点: 缺失值
1.2.3        偏斜度绝对值若大于1或接近1时,需进行Log转换才能使用。
1.3        分类型数据探索: 缺失值、类别个数、类别中的个体数量、众数
1.4        示例: 用加州大学欧文学院创建的Machine Leaning Repository数据集,Bank Marketing Data Set的市场营销数据来说明
1.5        双变量关系探查
1.5.1        连续型-连续型: 用《散点图》来探查其线性关系
1.5.2        分类型-分类型: 用《堆叠柱状图》或《卡方检验》,来探查两者关系
1.5.3        连续型-分类型: 用《ANOVA方差》进行分析
1.6        数据预处理: 包括数据清洗、数据集成、数据变换、数据归约。
1.6.1        数据清洗
1.6.1.1        缺失值处理
1.6.1.1.1        连续型变量: 采用均值来代替缺失值
1.6.1.1.2        序数型变量: 采用中位数来代替缺失值
1.6.1.1.3        分类型变量: 采用众数来代替缺失值
1.6.1.2        越界值处理
1.6.1.2.1        少数越界值会被当做离群值来处理
1.6.1.2.2        大量的越界值需要用"业务知识"来判断
1.6.1.2.3        处理方式
1.6.1.2.3.1        移除越界值
1.6.1.2.3.2        采用Z-SCORE转换数据
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:学习笔记 数据分析 习笔记 增强型 Marketing

沙发
jessie68us 发表于 2020-1-27 14:32:08 来自手机

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-23 22:31