楼主: Juliet的日常
2896 1

[数据管理求助] 收入变量的处理 [推广有奖]

  • 0关注
  • 2粉丝

已卖:19份资源

博士生

57%

还不是VIP/贵宾

-

威望
0
论坛币
1116 个
通用积分
31.3704
学术水平
148 点
热心指数
84 点
信用等级
77 点
经验
4966 点
帖子
269
精华
0
在线时间
243 小时
注册时间
2018-10-10
最后登录
2025-7-16

楼主
Juliet的日常 学生认证  发表于 2019-6-12 21:55:10 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
通过阅读文献发现,“收入”的处理方式通常有三种:取对数、分组、不作处理。
请问三种方式之间有何区别?分别在哪种情况下适用?

若采用分组的方式,如何(用哪些指标)判断分组是否合理?


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝


沙发
赵安豆 发表于 2024-7-15 20:58:58
**“收入”变量的处理方法及其适用情境:**

1. **取对数变换**
   - 取对数通常用于处理数据分布偏斜的情况。在现实生活中,“收入”的分布往往呈现正偏态(即长尾分布在右侧),高收入者数量较少,但影响较大。取对数可以减少这种极端值的影响,使数据分布更接近于正态分布。
   - **适用情境**:当模型需要满足正态性假设时,或在多元线性回归中为了减少自变量间的异方差性。

2. **分组**
   - 分组是将连续的收入变量转换为分类变量。这种处理方式可以用于探索不同收入水平对某一结果的影响差异。
   - **适用情境**:当研究者感兴趣的是“类别”效应,比如高、中、低收入群体之间的差异;或者在某些统计方法(如卡方检验)中需要使用分类数据。

3. **不作处理**
   - 保留原始数值,直接作为连续变量使用。
   - **适用情境**:当模型假设不依赖于正态分布或异方差性时,例如决策树、随机森林等非线性模型;或者在某些情况下,连续变量能够更准确地反映收入的微小差异对结果的影响。

**判断分组是否合理的方法**

- 使用**统计检验**(如ANOVA、Kruskal-Wallis测试)来检查不同收入组之间的差异是否具有统计学意义。
- **效果大小测量**:Cohen's d, eta-squared等可以用来评估分组后各组间的实际差异大小,以判断分组的实质影响。
- **理论和实践相关性**:分组应基于理论假设或实践经验,例如根据贫困线、中产阶级收入范围来定义低、中、高收入群体。
- **模型比较**:使用不同的分组策略建立多个模型,并通过AIC、BIC等信息准则进行模型选择。

总的来说,处理“收入”变量的方法取决于研究目的和所采用的统计或机器学习方法。在实践中,可能需要尝试多种处理方式并结合领域知识来判断哪种方式最合理有效。

此文本由CAIE学术大模型生成,添加下方二维码,优先体验功能试用



您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群
GMT+8, 2026-1-18 09:17