1754 0

[基础理论] CDA LEVEL II 数据建模师培训学习笔记(三)贝叶斯、神经网络等统计分析方法的操作 [推广有奖]

  • 0关注
  • 66粉丝

教授

55%

还不是VIP/贵宾

-

威望
1
论坛币
13016 个
通用积分
68.7278
学术水平
26 点
热心指数
25 点
信用等级
15 点
经验
8650 点
帖子
615
精华
0
在线时间
170 小时
注册时间
2016-12-6
最后登录
2017-4-8

楼主
数据分析闯天下 在职认证  发表于 2017-1-3 19:32:59 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
写在前面:此笔记是张梦根据李玉玺老师在CDA LEVEL II 数据建模师培训的上课内容整理而成的。

第一节笔记中讲述了软件的安装,第二节主要讲述数据前处理MODELING

主要讲理论,参加纸质版ppt及笔记。此处操作为主。

贝叶斯

只能用SPSS

先挑选字段fetureslection(去除与target无关及互相有相关性的字段)<- 该模型不会自动选择输入字段,所以先自行挑选。

SPSS用统计的方式去计算,类别性用卡方 ->P value –>VALUE = 1- P value;数值型用方差anova(t test仅适用2个target类别)

可以人工选择。下面两个直接排除,因为单一值dominant

复制模型,直接套用在测试数据上。

再看测试数据,测试数据才是最终的训练结果。

Q&A 默认是Bayesian Network 没有NaïveBayes

上图红框这里可以调整null,即概率为0。

另外一种方式用MATRIX NODE评估

比刚刚多一个 P VALUE,越小说明比随机乱猜好。有100%的信息。

卡方越大,P越小。

还有一种方法检验:graph-> evaluation

这里没有算面积,EM有算。

linear regression

car name 都是文字而且太多,所以不能用。

origin摊平后尚可以用。

串接不同模型可以compare结果

回归树最好。

直接用节点导入文件,导入csv

EM 线性回归和逻辑回归自动摊平

比较模型,EM 没有MAE,只有MSE和R sqr

Regression Tree Generation

Algorithm: CART

进化版:model tree

SAS SPSS都没有 SQL SEVER R 有

Classification/Decision Tree

决策树和分类规则:分类规则用起来更好,因为可以optimization。决策树可以化成规则,规则未必可以化成决策树。

ID3:information gain

C4.5/C5.0:gain ratio = information gain/information value(分支度)

CART

CHAID

【dp_modeling.str】

发现C5.0在训练集不如贝叶斯。但是在测试数据集比较稳定。

Q&A 将模型导入SQL

神经网络Logistic Regression

EM可以讲神经网络接在LOGISTIC DECISION TREE后面,因为前者会帮手选择字段并删除共线性字段

SPSS需要自己先选择,并删除共线性

Q&A如果LOGISTIC字段太少怎么办?可以用树选,然后log时选null或者根据排序自己手动选择字段。

Q&A 关于指标:风险KS常用。ROC?

—————————————分界线君:以上预测性,以下描述性————————————-

聚类分析

SPSS

TWO STEPS

K-MEANS 设为3

Kohonen好像效果不好

可以用聚类结果作为target跑决策树。

来描述分到某一类的样本具有什么样的特色。

Association关联规则

Apriori

Q&A:confidence与统计学中的没关系。用了一个词儿而已。——这个困扰了我很久

Confidence为100%的时候,前提支持度与rule confidence一样

不产生 A->BC 因为怕run太久

EM可以做多个产品

SEQUENCE

MODELER: new node

EM : LINE NUMBER 作为时间。Association会自动变成sequence mining

Q&A模型互相组合。如先聚类,在关联规则。

产品有层级的,是否可以?-现在的软件都没有跨层的关联规则。

Q&A SVM 集成模型->投票


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:CDA LEVEL 统计分析方法 数据建模师 Level 培训学习 统计 网络 大数据 数据分析师 数据分析师建模经验 数据分析学习笔记

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-30 15:38