楼主: bellman2010
18215 17

[面板数据求助] 描述性统计中的变量个数与实际回归用到的变量个数不相等是为什么? [推广有奖]

11
7911665599 发表于 2019-12-19 09:02:44 |只看作者 |坛友微信交流群
黃河泉 发表于 2018-11-9 17:08
老师,请问为什么用foreach语句跑回归时总显示“foreach command may not result from a macro expansion interactively or in do files”?

使用道具

12
黃河泉 在职认证  发表于 2019-12-19 10:07:38 |只看作者 |坛友微信交流群
7911665599 发表于 2019-12-19 09:02
老师,请问为什么用foreach语句跑回归时总显示“foreach command may not result from a macro expansion ...
无从判断!

使用道具

13
7911665599 发表于 2019-12-19 10:22:39 |只看作者 |坛友微信交流群
黃河泉 发表于 2018-11-9 17:08
老师,当数据里面没有缺失值时,使用logit模型跑回归时样本量为什么也会显著减少?例如:描述性统计中显示共40000个样本,logit回归后仅显示有26959个样本,而且回归过程中显示
“note: 74.Indcd != 0 predicts failure perfectly
      74.Indcd dropped and 13 obs not used”

使用道具

14
黃河泉 在职认证  发表于 2019-12-19 10:43:55 |只看作者 |坛友微信交流群
7911665599 发表于 2019-12-19 10:22
老师,当数据里面没有缺失值时,使用logit模型跑回归时样本量为什么也会显著减少?例如:描述性统计中显示 ...
我对 logit 不特别熟,但我知道 Stata 似乎有一些估计中会去除资料之情况,请 help logit 看看!

使用道具

15
7911665599 发表于 2019-12-19 11:44:24 |只看作者 |坛友微信交流群
黃河泉 发表于 2019-12-19 10:43
我对 logit 不特别熟,但我知道 Stata 似乎有一些估计中会去除资料之情况,请 help logit 看看!
谢谢老师!

使用道具

16
姚Paranoia 发表于 2021-5-22 16:11:02 |只看作者 |坛友微信交流群
黃河泉 发表于 2018-11-9 16:15
简单而言,就是有存在 missing values。
黄老师您好!我有一个问题想请教您。就是由于我的回归中用到的是解释变量与控制变量滞后一期的数据,而描述性统计中则直接汇报的当期数据,这两个的样本数并不相等,所以我想问一下这种情况该怎么解决呢?或者stata中描述性统计汇报滞后一期的命令是什么呢?烦请老师解答,谢谢!

使用道具

17
xdp836510 发表于 2023-8-16 19:41:30 |只看作者 |坛友微信交流群
您好,请问一下我的出现了:drop is not a valid command name,是为什么呢

使用道具

18
赵安豆 发表于 2024-5-4 16:55:35 |只看作者 |坛友微信交流群
在进行描述性统计和实际进行回归分析时,样本量出现差异是很常见的现象。这种差异主要由以下几个原因导致:

1. **缺失值处理**: 在回归分析中,通常采用的是完整案例分析(listwise deletion),意味着只有当一个观测值在所有变量上都有数据时,这个观测值才会被包括在分析中。如果你的数据中有缺失值,那么即使是单个变量的缺失,也会导致整个观测值在回归分析中被排除。因此,即使你的变量在描述性统计中看起来有较多的样本量,但在实际回归时,如果有缺失值,实际用于回归的样本量会大大减少。

2. **模型设定**: 当你在回归模型中加入更多的控制变量时,需要这些变量在同一个观测值上都有数据。如果这些新增加的控制变量有大量的缺失值,那么能够用于回归分析的观测值数量会进一步减少。尤其是当你控制的变量样本量较小,例如你提到的只有6700个样本量的变量,这将大大减小最终参与分析的样本量。

3. **数据集成合性**: 在进行面板数据分析时,可能会受到面板的平衡性(即是否每个个体在所有时间点上都有观测值)的影响。不平衡的面板数据在加入年份固定效应或进行聚类标准误的估计时,可能会因为数据的不完整性导致可用于分析的样本量进一步减少。

4. **数据处理的差异**: 描述性统计可能仅仅考虑了变量本身的可用观测值数量,而没有同时考虑多个变量在进行回归分析时的共同可用观测值数量。而回归分析需要的是在所有指定变量上都有信息的观测值。

综上所述,回归后样本量大幅减少,主要是由于缺失值的处理、模型设定中加入的控制变量缺失值较多、面板数据的不完整性等因素导致的。这提示我们在进行实证分析前,需要对数据进行仔细的处理和检查,尽可能采用适当的方法处理缺失值,以及在模型设定时考虑变量的可用性,从而尽量保留更多的样本量进行分析。

此文本由CAIE学术大模型生成,添加下方二维码,优先体验功能试用



使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-6-17 09:38