楼主: Ryancheer
2899 5

[问答] 缺失值能否作为分类变量中的单独一类纳入模型? [推广有奖]

  • 0关注
  • 0粉丝

初中生

38%

还不是VIP/贵宾

-

威望
0
论坛币
1 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
43 点
帖子
2
精华
0
在线时间
27 小时
注册时间
2017-8-2
最后登录
2018-3-20

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
在进行分析时,发现某个重要的分类变量存在大量的缺失值,能否将缺失值赋值为单独的一类纳入分析呢?
比如,收入:1=below 5000; 2=5000 or above; 3=unknown
并不想分析这个变量,只是需要进行调整,如果删除含缺失值的case,损失的样本量有点多。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:分类变量 缺失值 UNKNOWN Known Above 统计分析

沙发
xddlovejiao1314 学生认证  发表于 2017-8-3 07:37:06 来自手机 |只看作者 |坛友微信交流群
Ryancheer 发表于 2017-8-2 21:24
在进行分析时,发现某个重要的分类变量存在大量的缺失值,能否将缺失值赋值为单独的一类纳入分析呢?
比如 ...
软件这样操作是能做出来的。然而个人觉得实际意义不大,因为不好解释。能代表缺失值的东西太多太多了,是一个黑箱。所以,我的建议是如果觉得缺失值太多,删除后样本量缺失严重,建议先把缺失值补齐,然后再做回归。祝好运~

使用道具

藤椅
Ryancheer 发表于 2017-8-5 10:05:19 |只看作者 |坛友微信交流群
xddlovejiao1314 发表于 2017-8-3 07:37
软件这样操作是能做出来的。然而个人觉得实际意义不大,因为不好解释。能代表缺失值的东西太多太多了,是 ...
了解了,谢谢您啦!

使用道具

板凳
512002855 发表于 2017-8-9 10:12:35 |只看作者 |坛友微信交流群
xddlovejiao1314 发表于 2017-8-3 07:37
软件这样操作是能做出来的。然而个人觉得实际意义不大,因为不好解释。能代表缺失值的东西太多太多了,是 ...
"能代表缺失值的东西太多太多了,是一个黑箱。"
非常同意!

使用道具

报纸
wulawula_8523 发表于 2017-8-9 11:09:12 |只看作者 |坛友微信交流群
缺失20%以下可以给缺失的case一个值硬做。如果缺失40%以上,可以对比一下缺失和不缺失的人群各有什么特点,弄不好会有有意思的发现。

使用道具

地板
麦穗HYF 发表于 2022-6-18 19:00:34 |只看作者 |坛友微信交流群
xddlovejiao1314 发表于 2017-8-3 07:37
软件这样操作是能做出来的。然而个人觉得实际意义不大,因为不好解释。能代表缺失值的东西太多太多了,是 ...
你好,我个人也会这样处理数据,目的是为了留住观测对象,比如题主的2分类,unknown可以作为赋值为9,如果计算OR值,1作为reference的话,不去对9:1的情况进行说明,这样可以吗?

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-28 18:23