楼主: Alicee0
778 3

[经济学] control variable category值过多怎么解决 [推广有奖]

  • 0关注
  • 0粉丝

大专生

18%

还不是VIP/贵宾

-

威望
0
论坛币
0 个
通用积分
0.0383
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
59 点
帖子
4
精华
0
在线时间
91 小时
注册时间
2020-12-14
最后登录
2024-6-18

楼主
Alicee0 发表于 2024-1-2 22:37:05 |AI写论文
2论坛币
panel data model是:y~ zipcode + x + z,其中zipcode大概有150个,y是log continuous的时候没有问题,但是y是0-1 dummy时想做logistic似乎有共线问题?请问怎么解决呢?直接drop掉一些zipcode dummy吗?以及在做psm时是用psm-did法吗

关键词:Variable Category control Contro contr

沙发
att006 发表于 2024-1-4 09:01:51
当y是连续变量时,使用了对数转换有助于缓解共线性问题,因为对数转换可以稳定方差并且减少极端值的影响。
当y是二元变量时,使用Logistic回归可能会遇到严重的共线性问题,因为所有dummy variables(除了参考level)的和总是等于1,可能导致模型不稳定。解决方法:
逐步删除法。删除某些zipcode的dummy是解决共线性的一个常见方法,但需要谨慎操作。首先,确定哪些dummy variables与其它变量高度相关。然后根据相关性从高到低逐步删除。
数据变换。考虑对数据进行某种变换,如对数转换或Box-Cox转换,有助于解决共线性问题。但可能不适用于二元变量。
集成其他变量。考虑在模型中集成更多的控制变量或协变量,也有助于解决共线性问题。
PSM-DID:
在处理面板数据时,倾向性得分匹配(PSM)是个常用的方法。当比较不同组(例如处理组和对照组)的平均结果时,PSM可以消除观察到的和潜在的混杂因素。
在PSM之后使用双差分(DID)是一种常用的方法,特别是在评估政策或处理效果时。DID可识别并估计处理组和对照组之间的平均处理效果。
使用PSM-DID的一个关键前提是处理组和对照组在观察结果上必须有相似的前瞻性趋势。如果这一前提不成立,结果可能不准确。
分析之前确保数据清洗和预处理步骤正确,包括处理缺失值、异常值和异常观察值。在统计建模之前进行一些探索性数据分析(EDA)可理解数据和潜在的共线性问题。在做出任何结论前考虑其他可能的解释和潜在的混杂因素。

藤椅
Killua609 发表于 2024-1-4 10:09:15
得做数据预处理,清洗规整

板凳
capsulewya 发表于 2024-1-8 15:30:02
如果zipcode的矩阵比较稀疏,可以考虑lasso回归,或者干脆用机器学习的方法,降维

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-24 18:28