楼主: 我是小趴菜
745 1

[网帖精选] 数据建模流程 [推广有奖]

  • 0关注
  • 4粉丝

教授

35%

还不是VIP/贵宾

-

威望
0
论坛币
29650 个
通用积分
380.5350
学术水平
1 点
热心指数
1 点
信用等级
0 点
经验
7150 点
帖子
670
精华
0
在线时间
37 小时
注册时间
2022-8-30
最后登录
2023-4-4

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

1.明确需求(因变量Y)

2.数据清洗(重复值,缺失值,异常值,数据编码)

重复值针对行,可能是因为数据来源于多个系统

缺失值:1.删除所在行

2.填补(所在列为连续型数据用均值填补;所在列为分类型数据用分数填补或者直接将缺失值单独做一类)

异常值:错误值 数据治理SQL

离群值 学术 清洗阶段处理离群值(小样本)

业界 残差的离群值(大样本)

数据编码:将一些不方便提取信息的东西编码变成易提取的数字

3.变量筛选(凭借业务知识去筛选,相关分析(相关系数,散点图)逐步回归(向前法))变量选择以本人意愿为准

变量变换 (非线性,PCA,卷积(图)/词模型(文本))

4.分割 测试集 训练集(预测) Y 连续型:直接切分

Y 分类型:样本不平衡

5.回归(F检验,t检验,adjusted R^20

6.模型调优(线性性,序列相关性,共线性,内生性,同方差,正态性)

7.继续优化(季节变量,高次项,交互项,哑变量...)

8.模型测试(交叉验证,测试集)



二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据建模 adjusted adjust 序列相关性 业务知识

沙发
三江鸿 发表于 2022-10-20 10:19:38 来自手机 |只看作者 |坛友微信交流群
点赞支持 感谢分享

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-28 00:41