楼主: zanika
6365 13

[其他] 全国税调数据清洗求助 [推广有奖]

  • 0关注
  • 0粉丝

已卖:52份资源

本科生

91%

还不是VIP/贵宾

-

威望
0
论坛币
6084 个
通用积分
14.5060
学术水平
0 点
热心指数
1 点
信用等级
0 点
经验
429 点
帖子
26
精华
0
在线时间
215 小时
注册时间
2020-9-26
最后登录
2025-12-30

楼主
zanika 学生认证  发表于 2023-3-21 08:51:05 |AI写论文
100论坛币
更新:回顾了一下计量知识(还是要夯实基础哇),问题自己解决了。
我所用到的全国税收调查每年都会进行,符合“Many surveys of firms are repeated at regular intervals, often each year“的定义,应该是要用混合横截面数据(pooled-cross-sectional data),而不是我一直在纠结的面板数据。
————————————————————
大神们好!正在写保研参营论文的stata小白求助
我使用的是07-16年的全国税收调查数据,我先简单处理了下(筛出想要的变量后,统一了变量名)目前dta文件里呈现的就是07-16年依次排序的数据,每年的数据量不一。有的公司每年都在,有的公司只出现了一年,不断有新公司进入,有的公司中途又不在了。不知道这个数据还需要怎样处理才便于后续使用呢?还是说可以直接使用reg命令了?
之前我只用过省级/地级市经济指标数据,处理成面板;第一次处理过这种公司层面的数据,有点手足无措,原始数据鼓捣一天就只弄成这样。万望大神指点一二!








附件: 你需要登录才可以下载或查看附件。没有帐号?我要注册

最佳答案

917968079 查看完整内容

你用这个数据做混合截面显然是不太合适的,大家对这个数据还是了解比较多的,很可能会被挑战,就比如你用工企数据做混合截面肯定会被问为什么
关键词:DTA文件 Stata 经济指标 原始数据 调查数据 stata数据处理 Stata数据清洗

沙发
917968079 发表于 2023-3-21 08:51:06
zanika 发表于 2023-3-21 17:21
会比较麻烦吧?面板似乎要追踪所有年份里的每个个体,但我的数据里,企业经常只出现在某一年;并且我没有 ...
你用这个数据做混合截面显然是不太合适的,大家对这个数据还是了解比较多的,很可能会被挑战,就比如你用工企数据做混合截面肯定会被问为什么

藤椅
leewinjing 发表于 2023-3-21 09:41:40
主要看你想怎么处理?处理成什么样的数据取决于你要使用哪些变量以及研究的主题。
从你的表述中,你目前的数据只是把各年数据堆砌在一起了,要想使用的话,第一,要有年份变量,第二,要有企业ID变量,其他变量最好转化成数值型,再根据需要处理成对数之类就可以了

板凳
zanika 学生认证  发表于 2023-3-21 09:52:20
leewinjing 发表于 2023-3-21 09:41
主要看你想怎么处理?处理成什么样的数据取决于你要使用哪些变量以及研究的主题。
从你的表述中,你目前的 ...
谢谢回复!是的,我现在就只是数据堆砌在一起,不知道该怎么处理。
我想要做交互项的回归,被解释变量是样本企业营业收入对数(应该还会尝试其他指标),交互项是industry*city*post,都是二值变量,行业二位码C39时为industry=1,城市为郑州时city=1,2012年后post=1。
Ps:请问企业ID是要自己另外生成吗?原始数据里只有纳税人识别号。
(实在不好意思,第一次处理数据希望我表达清楚了,让您见笑啦)

报纸
leewinjing 发表于 2023-3-21 11:50:17
识别号就是企业的代码吧,看你的数据应该是文本形式的,需要转化为数值型的
需要保证企业ID的唯一性。
看你的表述,对如何做和处理还是有点模糊

地板
917968079 发表于 2023-3-21 17:17:19 来自手机
zanika 发表于 2023-3-21 08:51
更新:回顾了一下计量知识(还是要夯实基础哇),问题自己解决了。
我所用到的全国税收调查每年都会进行, ...
可以处理成面板的

7
917968079 发表于 2023-3-21 17:18:13 来自手机
zanika 发表于 2023-3-21 08:51
更新:回顾了一下计量知识(还是要夯实基础哇),问题自己解决了。
我所用到的全国税收调查每年都会进行, ...
可以参考工企数据的处理方法

8
zanika 学生认证  发表于 2023-3-21 17:21:59
917968079 发表于 2023-3-21 17:17
可以处理成面板的
会比较麻烦吧?面板似乎要追踪所有年份里的每个个体,但我的数据里,企业经常只出现在某一年;并且我没有企业id,只有纳税人注册号,还没法destring转成数值型(并且企业对应的注册号中途也有变更过)。感觉还是混合截面数据比较适合。

9
zanika 学生认证  发表于 2023-3-21 17:23:40
917968079 发表于 2023-3-21 17:18
可以参考工企数据的处理方法
谢谢建议!唉,我昨天就是在钻研B站上Brandt教授处理工企的方法,后来觉得实在麻烦就放弃了

10
zanika 学生认证  发表于 2023-3-22 09:43:36
917968079 发表于 2023-3-21 21:53
你用这个数据做混合截面显然是不太合适的,大家对这个数据还是了解比较多的,很可能会被挑战,就比如你用 ...
谢谢!我看连玉君老师之前评价非平衡面板和混合截面:
非平衡面板和混合截面还是有差别的。非平衡面板数据中还有部分人(样本个体)是有连续多次的观测数据,但混合截面数据至少说不知道数据中有没人(个体)是重复的。混合截面处理要求更加高一点,但是其实可以加上时间效应去做,但是加个体效应就比较难。混合截面的关键是要让它的 composition (组成),就是让两个截面可以观察到的个人特征变量 composition 比较接近,比较接近之后,再去做一个前后的 difference (差分),因为你没有办法在个体层面直接根据个体的 id 去做 difference (差分),所以要用协变量来定义,这是二者的差别。混合截面要比纯截面要稍微好一点,但是它比面板要差。
我再去和指导老师讨论下要不要处理成非平衡面板吧,感谢!

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-27 22:39