1780 1

[基础理论] CDA LEVEL II 数据建模师培训学习笔记(二)数据前处理 [推广有奖]

  • 0关注
  • 66粉丝

教授

55%

还不是VIP/贵宾

-

威望
1
论坛币
13016 个
通用积分
64.7722
学术水平
26 点
热心指数
25 点
信用等级
15 点
经验
8663 点
帖子
617
精华
0
在线时间
170 小时
注册时间
2016-12-6
最后登录
2017-4-8

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币


写在前面:此笔记是张梦根据李玉玺老师在CDA LEVEL II 数据建模师培训的上课内容整理而成的。

—————————————–作者说明——————————————————

CDA level 2 4天笔记。

重点在操作和老师口述的无关内容。由于开始没安装成功EM,所以没有截图。

有讲义的笔记都记录在讲义上。复习参考讲义。

2015/9/20

上一节笔记中讲述了软件的安装,这一节主要讲述数据前处理
1.    Attribute Selection

数据整合;

数据过滤:

建立区隔化模型(SAS FILTER)不同客群,用不同的变量进行建模。如高收入人群的年龄比较不重要。

难点在于如何知道哪个字段可以区隔。

2.    DATA CLESNSING 数据清洗:噪声消除。
针对类别数据,找错误值

purpose x->undef或者‘$null$’

针对数值数据,找离群值

平均值法min=avg-3std  max=ave+3std老师的例子中不适用,因为数量小,outlier影响均值和标准差较大。

四分位数法 Q1+1.5IQR;

离群值3.0(3个标准差)极端值5.0(5个标准差)

1.5 IQR   3IQR

找到outlier可以: 视为空值(不推荐,可能在填补时成为错误值);试用ceiling和floor发;函数矫正法(取log,不推荐)

使用SAS replacement可以处理错误值+outliers

空值处理-遗缺值的填补:

有的模型不能够有遗缺值。空值处理一定最后,因为前期处理可能会造成空值;

空值要删除的情况:目标字段没有值则删除;字段缺失大于一定比例字段删除:EM规定50%。也可以将整个字段变为INDICATOR VARIABLE。有值为1,无为0。反正这个字段也不可以正常使用,所以转变为指示变两个确有可能有预测意义。

人工填补法

自动添补法:填入未知-不用因为可能解读不易,除非确定;填众数,比较容易猜中,不是很客观;分群求众数-比如发现某一字段跟其他字段有关联,则根据其他字段分组,求每组的众数;最好的做法用分类法,求出最好的值填入-以有空值的字段为TARGET做模型。

—R:根据个人经验,先看业务,知道空值和错误值得由来最佳。

SPSS

先接一个type从新读值。再使用audit。直接运行,选择quality,看哪些需要处理,选择要处理的内容和处理方法。填补方法选specify

C&RT 决策树的方法

选好后generate supernode

点入砖石黄金节点查看。

导出table查看。

数值型填补:分群平均值;数字预测的建模问题。


EM

impute选择tree tree

可以预览,预览时原来字段会保留,自行reject,不用担心

3.字段扩充 enrichment

临床路径

直接接C5.0

5层决策树

看正确率

再试一下plot 可以看2个

斜线关系,可以有衍生变量—比例-derive NA/K,则删除K,NA。变量之间相关性强,则会影响模型。

效果不错,发现大于某个值,都是用drugY

用C5.0决策树,仅需要3层决策树。

【插】—————-学生案例:银行5年->teredata

4.CODING

数据转化

->数据正规化

         DATA NOR: 极值正规化 V’ = (V-MIN)/(MAX-MIN)

                              ZSCORE v’=(v-avgv)/std

->算数据一般化 generalization

         概念阶层向上提升

         数据精简的方法 EM Replacement

案例 germen贷款目的太多,要合并,用distribution来看purpose里哪些可以合并。A42/A44逾期概率非常相近。一个家电、一个家具,可以合并。


EM. REPLACEMENT -> REPLACEMENT VALUE 与处理错误值的方法一模一样

Q&A EM不能画图,可以用EXCEL链接数据库画图,数据不用down下来。


读入数据FILE IMPORT drug->variables 设定->建模:选择Tree【2个节点】

看result

这种decision Tree 综合四种不同的决策树。而SPSS中有4种。


衍生性变两个:MODIFY-TRANSFORM VARIABLE-左侧设置FORMULAR-左上角CREATE,产生一个衍生变量再接决策树,在run之前还要删除NA K

TREE的大小用叶节点看来,共6个叶节点

ACESS -> Model comparison

Q&A1: RANDOM GUESS AND RANDOM GUESS LINE : RANDOM GUESS ABEY RATIO AND THE 45 DEGREE LINE IS A REFLECTION OF RANDOM GUESS

Q&A2: HOW TO PLOT : imported data ->TRAIN-> EXPLORE -> PLOT – > SCATTER

HISTOGRAM 不可以跟目标发生关系,BAR可以,但是如果用年龄,则一个年龄一个BAR,不好。

->数据形态转化

         类别转换成数值型

         数值型转换成类别型– 银行评分卡常需要对年龄切割分箱。数值型属性常常是模型不稳定(转用测试时,准确度大幅下降)的来源之一。可以尝试用皮尔森系数看测试与训练的关系。(Q&A: )

         怎么做数值型属性离散化。现在银行评分卡用人工看,专家看。BINNING METHOD自动切。EQUAL-WIDTH-INTERVAL:会受到outlier影响很大;EQUAL-FREQUENCY-INTERVAL

         要试,如何判断好不好?逾期率。可以用画图

我记得有一个专门做这个东西的node

         一个易于理解和解释的分析结果:对target有明显相关性。

         等宽等频都不好。要怎么做?先切小,再合并。逢低切。

        



二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:CDA LEVEL 数据建模师 Level 数据建模 学习笔记 建模分析师 数据分析学习笔记 数据分析师建模经验 数据分析师 大数据

效果不好,集成别人算法。不如EM好。

EM:离散化 transform variable -> Variable ->IMP_REP_duration

                            离散后验证 transform variable –> exported data

                            EM有评分卡的包。1000多万台币

【插】—————-AAEM 考试。

。OPTIONS -> PREFERENCE -> FETCH SIZE:MAX explorer时旁边的统计结果是全量

         变数重要性statexplore卡方统计量

         左偏右偏

         kurtoses峰度

         TARGET是0,破产1 STATEXPLORE有分跟目标的关系

->数据精简DATA REDUCTION

RECORD REDUCTION

抽样方法

VALUE REDUCTION

ATTRIBUTE REDUCTION

->数据集的切割

         训练测试目标分布要一样

SPSS 示例

设定random seed则抽出来的每次都一样。数字跟可能性的余数那一组

这样可以绝对选择800比。

但是未必可以保证目标变量的比例与原样一致

这样可以保证3:7

将training test都输入SAV格式,可以保留设定的字段属性。

新建stream 读入,接

将2个stream存为一个project


EM

数据切割data partition: training 60% validation 20% (修正模型,防止过度拟合) test:20%

EM 预设分层随机抽样,不用去设定抽样。如果没有目标字段,则随机



使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-7-6 05:14