CDA LEVEL II 数据建模师培训学习笔记(二)数据前处理-经管之家官网!

人大经济论坛-经管之家 收藏本站
您当前的位置> 考研考博>>

考研

>>

CDA LEVEL II 数据建模师培训学习笔记(二)数据前处理

CDA LEVEL II 数据建模师培训学习笔记(二)数据前处理

发布:数据分析闯天下 | 分类:考研

关于本站

人大经济论坛-经管之家:分享大学、考研、论文、会计、留学、数据、经济学、金融学、管理学、统计学、博弈论、统计年鉴、行业分析包括等相关资源。
经管之家是国内活跃的在线教育咨询平台!

经管之家新媒体交易平台

提供"微信号、微博、抖音、快手、头条、小红书、百家号、企鹅号、UC号、一点资讯"等虚拟账号交易,真正实现买卖双方的共赢。【请点击这里访问】

提供微信号、微博、抖音、快手、头条、小红书、百家号、企鹅号、UC号、一点资讯等虚拟账号交易,真正实现买卖双方的共赢。【请点击这里访问】

写在前面:此笔记是张梦根据李玉玺老师在CDALEVELII数据建模师培训的上课内容整理而成的。—————————————–作者说明——————————————————CDAlevel2前4天笔记。重点在操作和老师口述的无 ...
扫码加入金融交流群




写在前面:此笔记是张梦根据李玉玺老师在CDA LEVEL II 数据建模师培训的上课内容整理而成的。

—————————————–作者说明——————————————————

CDA level 2 前4天笔记。

重点在操作和老师口述的无关内容。由于开始没安装成功EM,所以没有截图。

有讲义的笔记都记录在讲义上。复习参考讲义。

2015/9/20

上一节笔记中讲述了软件的安装,这一节主要讲述数据前处理
1. Attribute Selection

数据整合;

数据过滤:

建立区隔化模型(SAS FILTER)不同客群,用不同的变量进行建模。如高收入人群的年龄比较不重要。

难点在于如何知道哪个字段可以区隔。

2. DATA CLESNSING 数据清洗:噪声消除。
针对类别数据,找错误值

purpose x->undef或者‘$null$’

针对数值数据,找离群值

平均值法min=avg-3stdmax=ave+3std老师的例子中不适用,因为数量小,outlier影响均值和标准差较大。

四分位数法 Q1+1.5IQR;

http://www.ppvke.com/Blog/wp-content/uploads/2015/09/126.jpg

离群值3.0(3个标准差)极端值5.0(5个标准差)

1.5 IQR 3IQR

http://www.ppvke.com/Blog/wp-content/uploads/2015/09/223.jpg

找到outlier可以: 视为空值(不推荐,可能在填补时成为错误值);试用ceiling和floor发;函数矫正法(取log,不推荐)

使用SAS replacement可以处理错误值+outliers

空值处理-遗缺值的填补:

有的模型不能够有遗缺值。空值处理一定最后,因为前期处理可能会造成空值;

空值要删除的情况:目标字段没有值则删除;字段缺失大于一定比例字段删除:EM规定50%。也可以将整个字段变为INDICATOR VARIABLE。有值为1,无为0。反正这个字段也不可以正常使用,所以转变为指示变两个确有可能有预测意义。

人工填补法

自动添补法:填入未知-不用因为可能解读不易,除非确定;填众数,比较容易猜中,不是很客观;分群求众数-比如发现某一字段跟其他字段有关联,则根据其他字段分组,求每组的众数;最好的做法用分类法,求出最好的值填入-以有空值的字段为TARGET做模型。

—R:根据个人经验,先看业务,知道空值和错误值得由来最佳。

SPSS

先接一个type从新读值。再使用audit。直接运行,选择quality,看哪些需要处理,选择要处理的内容和处理方法。填补方法选specify

http://www.ppvke.com/Blog/wp-content/uploads/2015/09/312.jpg

http://www.ppvke.com/Blog/wp-content/uploads/2015/09/49.jpg

C&RT 决策树的方法

选好后generate supernode

http://www.ppvke.com/Blog/wp-content/uploads/2015/09/510.jpg

点入砖石黄金节点查看。

http://www.ppvke.com/Blog/wp-content/uploads/2015/09/68.jpg

导出table查看。

数值型填补:分群平均值;数字预测的建模问题。


EM

impute选择tree tree

可以预览,预览时原来字段会保留,自行reject,不用担心

3.字段扩充 enrichment

临床路径

http://www.ppvke.com/Blog/wp-content/uploads/2015/09/77.jpg

直接接C5.0

http://www.ppvke.com/Blog/wp-content/uploads/2015/09/88.jpg

5层决策树

http://www.ppvke.com/Blog/wp-content/uploads/2015/09/98.jpg

看正确率

再试一下plot 可以看2个

http://www.ppvke.com/Blog/wp-content/uploads/2015/09/108.jpg

斜线关系,可以有衍生变量—比例-derive NA/K,则删除K,NA。变量之间相关性强,则会影响模型。

http://www.ppvke.com/Blog/wp-content/uploads/2015/09/1112.jpg

效果不错,发现大于某个值,都是用drugY

http://www.ppvke.com/Blog/wp-content/uploads/2015/09/127.jpg

用C5.0决策树,仅需要3层决策树。

【插】—————-学生案例:银行5年->teredata

4.CODING

数据转化

->数据正规化

DATA NOR: 极值正规化 V’ = (V-MIN)/(MAX-MIN)

ZSCORE v’=(v-avgv)/std

->算数据一般化 generalization

概念阶层向上提升

数据精简的方法 EM Replacement

案例 germen贷款目的太多,要合并,用distribution来看purpose里哪些可以合并。A42/A44逾期概率非常相近。一个家电、一个家具,可以合并。

http://www.ppvke.com/Blog/wp-content/uploads/2015/09/137.jpg


EM. REPLACEMENT -> REPLACEMENT VALUE 与处理错误值的方法一模一样

Q&A EM不能画图,可以用EXCEL链接数据库画图,数据不用down下来。


读入数据FILE IMPORT drug->variables 设定->建模:选择Tree【2个节点】

看result

这种decision Tree 综合四种不同的决策树。而SPSS中有4种。


衍生性变两个:MODIFY-TRANSFORM VARIABLE-左侧设置FORMULAR-左上角CREATE,产生一个衍生变量再接决策树,在run之前还要删除NA K

TREE的大小用叶节点看来,共6个叶节点

ACESS -> Model comparison

Q&A1: RANDOM GUESS AND RANDOM GUESS LINE : RANDOM GUESS ABEY RATIO AND THE 45 DEGREE LINE IS A REFLECTION OF RANDOM GUESS

Q&A2: HOW TO PLOT : imported data ->TRAIN-> EXPLORE -> PLOT – > SCATTER

HISTOGRAM 不可以跟目标发生关系,BAR可以,但是如果用年龄,则一个年龄一个BAR,不好。

->数据形态转化

类别转换成数值型

数值型转换成类别型– 银行评分卡常需要对年龄切割分箱。数值型属性常常是模型不稳定(转用测试时,准确度大幅下降)的来源之一。可以尝试用皮尔森系数看测试与训练的关系。(Q&A: )

怎么做数值型属性离散化。现在银行评分卡用人工看,专家看。BINNING METHOD自动切。EQUAL-WIDTH-INTERVAL:会受到outlier影响很大;EQUAL-FREQUENCY-INTERVAL

要试,如何判断好不好?逾期率。可以用画图

http://www.ppvke.com/Blog/wp-content/uploads/2015/09/148.jpg

我记得有一个专门做这个东西的node

一个易于理解和解释的分析结果:对target有明显相关性。

等宽等频都不好。要怎么做?先切小,再合并。逢低切。

http://www.ppvke.com/Blog/wp-content/uploads/2015/09/157.jpg


「经管之家」APP:经管人学习、答疑、交友,就上经管之家!
免流量费下载资料----在经管之家app可以下载论坛上的所有资源,并且不额外收取下载高峰期的论坛币。
涵盖所有经管领域的优秀内容----覆盖经济、管理、金融投资、计量统计、数据分析、国贸、财会等专业的学习宝库,各类资料应有尽有。
来自五湖四海的经管达人----已经有上千万的经管人来到这里,你可以找到任何学科方向、有共同话题的朋友。
经管之家(原人大经济论坛),跨越高校的围墙,带你走进经管知识的新世界。
扫描下方二维码下载并注册APP
本文关键词:

本文论坛网址:https://bbs.pinggu.org/thread-5043992-1-1.html

人气文章

1.凡人大经济论坛-经管之家转载的文章,均出自其它媒体或其他官网介绍,目的在于传递更多的信息,并不代表本站赞同其观点和其真实性负责;
2.转载的文章仅代表原创作者观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,本站对该文以及其中全部或者部分内容、文字的真实性、完整性、及时性,不作出任何保证或承若;
3.如本站转载稿涉及版权等问题,请作者及时联系本站,我们会及时处理。