关于本站
人大经济论坛-经管之家:分享大学、考研、论文、会计、留学、数据、经济学、金融学、管理学、统计学、博弈论、统计年鉴、行业分析包括等相关资源。
经管之家是国内活跃的在线教育咨询平台!
经管之家新媒体交易平台
提供"微信号、微博、抖音、快手、头条、小红书、百家号、企鹅号、UC号、一点资讯"等虚拟账号交易,真正实现买卖双方的共赢。【请点击这里访问】
期刊
- 期刊库 | 马上cssci就要更新 ...
- 期刊库 | 【独家发布】《财 ...
- 期刊库 | 【独家发布】“我 ...
- 期刊库 | 【独家发布】“我 ...
- 期刊库 | 【独家发布】国家 ...
- 期刊库 | 请问Management S ...
- 期刊库 | 英文期刊库
- 核心期刊 | 歧路彷徨:核心期 ...
TOP热门关键词
扫码加入金融交流群 |
写在前面:此笔记是张梦根据李玉玺老师在CDA LEVEL II 数据建模师培训的上课内容整理而成的。 |
—————————————–作者说明——————————————————
CDA level 2 前4天笔记。
重点在操作和老师口述的无关内容。由于开始没安装成功EM,所以没有截图。
有讲义的笔记都记录在讲义上。复习参考讲义。
2015/9/20
上一节笔记中讲述了软件的安装,这一节主要讲述数据前处理1. Attribute Selection
数据整合;
数据过滤:
建立区隔化模型(SAS FILTER)不同客群,用不同的变量进行建模。如高收入人群的年龄比较不重要。
难点在于如何知道哪个字段可以区隔。
2. DATA CLESNSING 数据清洗:噪声消除。针对类别数据,找错误值
purpose x->undef或者‘$null$’
针对数值数据,找离群值平均值法min=avg-3stdmax=ave+3std老师的例子中不适用,因为数量小,outlier影响均值和标准差较大。
四分位数法 Q1+1.5IQR;
http://www.ppvke.com/Blog/wp-content/uploads/2015/09/126.jpg
离群值3.0(3个标准差)极端值5.0(5个标准差)
1.5 IQR 3IQR
http://www.ppvke.com/Blog/wp-content/uploads/2015/09/223.jpg
找到outlier可以: 视为空值(不推荐,可能在填补时成为错误值);试用ceiling和floor发;函数矫正法(取log,不推荐)
使用SAS replacement可以处理错误值+outliers
空值处理-遗缺值的填补:有的模型不能够有遗缺值。空值处理一定最后,因为前期处理可能会造成空值;
空值要删除的情况:目标字段没有值则删除;字段缺失大于一定比例字段删除:EM规定50%。也可以将整个字段变为INDICATOR VARIABLE。有值为1,无为0。反正这个字段也不可以正常使用,所以转变为指示变两个确有可能有预测意义。
人工填补法
自动添补法:填入未知-不用因为可能解读不易,除非确定;填众数,比较容易猜中,不是很客观;分群求众数-比如发现某一字段跟其他字段有关联,则根据其他字段分组,求每组的众数;最好的做法用分类法,求出最好的值填入-以有空值的字段为TARGET做模型。
—R:根据个人经验,先看业务,知道空值和错误值得由来最佳。
SPSS先接一个type从新读值。再使用audit。直接运行,选择quality,看哪些需要处理,选择要处理的内容和处理方法。填补方法选specify
http://www.ppvke.com/Blog/wp-content/uploads/2015/09/312.jpg
http://www.ppvke.com/Blog/wp-content/uploads/2015/09/49.jpg
C&RT 决策树的方法
选好后generate supernode
http://www.ppvke.com/Blog/wp-content/uploads/2015/09/510.jpg
点入砖石黄金节点查看。
http://www.ppvke.com/Blog/wp-content/uploads/2015/09/68.jpg
导出table查看。
数值型填补:分群平均值;数字预测的建模问题。
EM
impute选择tree tree
可以预览,预览时原来字段会保留,自行reject,不用担心
3.字段扩充 enrichment临床路径
http://www.ppvke.com/Blog/wp-content/uploads/2015/09/77.jpg
直接接C5.0
http://www.ppvke.com/Blog/wp-content/uploads/2015/09/88.jpg
5层决策树
http://www.ppvke.com/Blog/wp-content/uploads/2015/09/98.jpg
看正确率
再试一下plot 可以看2个
http://www.ppvke.com/Blog/wp-content/uploads/2015/09/108.jpg
斜线关系,可以有衍生变量—比例-derive NA/K,则删除K,NA。变量之间相关性强,则会影响模型。
http://www.ppvke.com/Blog/wp-content/uploads/2015/09/1112.jpg
效果不错,发现大于某个值,都是用drugY
http://www.ppvke.com/Blog/wp-content/uploads/2015/09/127.jpg
用C5.0决策树,仅需要3层决策树。
【插】—————-学生案例:银行5年->teredata
4.CODING数据转化
->数据正规化DATA NOR: 极值正规化 V’ = (V-MIN)/(MAX-MIN)
ZSCORE v’=(v-avgv)/std
->算数据一般化 generalization概念阶层向上提升
数据精简的方法 EM Replacement
案例 germen贷款目的太多,要合并,用distribution来看purpose里哪些可以合并。A42/A44逾期概率非常相近。一个家电、一个家具,可以合并。
http://www.ppvke.com/Blog/wp-content/uploads/2015/09/137.jpg
EM. REPLACEMENT -> REPLACEMENT VALUE 与处理错误值的方法一模一样
Q&A EM不能画图,可以用EXCEL链接数据库画图,数据不用down下来。
读入数据FILE IMPORT drug->variables 设定->建模:选择Tree【2个节点】
看result
这种decision Tree 综合四种不同的决策树。而SPSS中有4种。
衍生性变两个:MODIFY-TRANSFORM VARIABLE-左侧设置FORMULAR-左上角CREATE,产生一个衍生变量再接决策树,在run之前还要删除NA K
TREE的大小用叶节点看来,共6个叶节点
ACESS -> Model comparison
Q&A1: RANDOM GUESS AND RANDOM GUESS LINE : RANDOM GUESS ABEY RATIO AND THE 45 DEGREE LINE IS A REFLECTION OF RANDOM GUESS
Q&A2: HOW TO PLOT : imported data ->TRAIN-> EXPLORE -> PLOT – > SCATTER
HISTOGRAM 不可以跟目标发生关系,BAR可以,但是如果用年龄,则一个年龄一个BAR,不好。
->数据形态转化类别转换成数值型
数值型转换成类别型– 银行评分卡常需要对年龄切割分箱。数值型属性常常是模型不稳定(转用测试时,准确度大幅下降)的来源之一。可以尝试用皮尔森系数看测试与训练的关系。(Q&A: )
怎么做数值型属性离散化。现在银行评分卡用人工看,专家看。BINNING METHOD自动切。EQUAL-WIDTH-INTERVAL:会受到outlier影响很大;EQUAL-FREQUENCY-INTERVAL
要试,如何判断好不好?逾期率。可以用画图
http://www.ppvke.com/Blog/wp-content/uploads/2015/09/148.jpg
我记得有一个专门做这个东西的node
一个易于理解和解释的分析结果:对target有明显相关性。
等宽等频都不好。要怎么做?先切小,再合并。逢低切。
http://www.ppvke.com/Blog/wp-content/uploads/2015/09/157.jpg
免流量费下载资料----在经管之家app可以下载论坛上的所有资源,并且不额外收取下载高峰期的论坛币。
涵盖所有经管领域的优秀内容----覆盖经济、管理、金融投资、计量统计、数据分析、国贸、财会等专业的学习宝库,各类资料应有尽有。
来自五湖四海的经管达人----已经有上千万的经管人来到这里,你可以找到任何学科方向、有共同话题的朋友。
经管之家(原人大经济论坛),跨越高校的围墙,带你走进经管知识的新世界。
扫描下方二维码下载并注册APP
您可能感兴趣的文章
本站推荐的文章
人气文章
本文标题:CDA LEVEL II 数据建模师培训学习笔记(二)数据前处理
本文链接网址:https://bbs.pinggu.org/jg/kaoyankaobo_kaoyan_5043992_1.html
2.转载的文章仅代表原创作者观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,本站对该文以及其中全部或者部分内容、文字的真实性、完整性、及时性,不作出任何保证或承若;
3.如本站转载稿涉及版权等问题,请作者及时联系本站,我们会及时处理。