楼主: 姜小花花
7017 15

[面板数据求助] stata 生存分析面板数据 [推广有奖]

  • 0关注
  • 2粉丝

硕士生

13%

还不是VIP/贵宾

-

威望
0
论坛币
0 个
通用积分
0.0009
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
525 点
帖子
47
精华
0
在线时间
203 小时
注册时间
2019-4-2
最后登录
2021-7-21

楼主
姜小花花 学生认证  发表于 2021-5-24 10:36:00 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
各位大佬,因为我的研究内容也包括了企业生存方面的问题,但自己学习相关知识和阅读文献后,还是对实证中生存分析(面板数据)有些疑惑。根据 [size=10.2857pt]Namini ( [size=10.2857pt]2013) 的研究方法企业生存时间主要是指某一企业从在数据库中出现至退出所经历的时间业在 [size=10.2857pt]t 年存在[size=10.2857pt]、[size=10.2857pt]t [size=10.2857pt]+ 1 年从数据库中消失则可以视为退出[size=10.2857pt]。[size=10.2857pt]我想问问,例如整个样本数据(2002-2013)为面板数据,那么对于企业退出的识别,退出当年状态取为1,其余年份为0。如果是这样的话,例如某个企业是2004年成立,2013年退出,那么2013年可视为发生事件,为退出年份,取值为1,2004-2012年为0,那么在2002-2003年这个变量该怎么处理,是作为缺失值还是也取值为0?这个一直挺疑惑的。不知道在2002-2003年怎么赋值?
[size=10.2857pt]相关文献中用到的实证模型主要是cloglog模型,我自己看资料对于这块的实证资料较少,不知道stata怎么使用cloglog分析的相关命令,help cloglog看的好像是截面数据。。。。。。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Stata 面板数据 tata 生存分析 size

沙发
wdlbcj 学生认证  发表于 2021-5-24 16:03:50
1. 企业在2004年成立,一般在2002 2003为缺失值 因为没有数据;
2. cloglog 是补对数-对数模型 一般用于稀有事件分析当中。这里可能的背景是出现企业破产的事件很少,如果常规的分析可能会存在偏误,所以采用这种模型来修正

藤椅
姜小花花 学生认证  发表于 2021-5-24 19:52:37
wdlbcj 发表于 2021-5-24 16:03
1. 企业在2004年成立,一般在2002 2003为缺失值 因为没有数据;
2. cloglog 是补对数-对数模型 一般用于稀 ...
那么若利用微观企业数据进行的生存分析中,因变量是企业危险率函数,并且定义:企业退出为在 t年存在但 t+1 年不存在且不再重复进入的行为。那么企业发生事件,设定 failure 变量取值为 1,否则取值为 0;就是这里我一直没弄清楚,解释变量是相关影响企业生存的变量,为面板数据形式,但是因变量,企业发生失败事件,设定 failure 变量取值为 1,否则取值为 0,我不知道这个该怎么和解释变量的面板形式统一起来?这个问题对我个人来说很重要,恳请各位大佬有时间可以帮助我一下!
     我例举了一个例子:样本期为(1998-2002),那么一个可能的原始数据表为(其中time是t_end-t_start,此处单位为年),对于1号01年后退出,是个完全数据,发生了退出事件;对于2号,到研究截止(02)仍然没有退出,因此标记为0:
id t_start t_end time failure
1     99     01      3   1
2     98     02     4    0

.............
但这个如何和解释变量的面板格式结合呢?

板凳
wdlbcj 学生认证  发表于 2021-5-24 20:33:45
感觉你这里的格式 不是面板数据啊? 你这个示例看起来是一个 id1 从99-01 存活了3年;id2 98-02 存活了4年 现在依然存活。 这不像是一个面板数据的格式

报纸
姜小花花 学生认证  发表于 2021-5-24 21:20:33
wdlbcj 发表于 2021-5-24 20:33
感觉你这里的格式 不是面板数据啊? 你这个示例看起来是一个 id1 从99-01 存活了3年;id2 98-02 存活了4年 ...
对于id1、2的标识确实不是面板数据,原始的面板数据如下(非平衡面板,其中est_year 为成立年份,year为数据库该企业存在的区间,X1、X2为一些企业层面数据):
id  year  est_year  X1   X2
1    99        99      ...    ...
1    00        99      ...    ...
1    01        99      ...    ...
2    98        98      ...    ...
2    99        98      ...    ...
2    00        98      ...    ...
2    01        98      ...    ...
2    02        98      ...    ...
而我之前列示的是我个人对企业生存时间的理解,样本期(1998-2002),考虑到左删失的问题,选取的样本是1998-2002新成立的样本。出但现在数据为面板数据,不知道要如何取设定因变量?

地板
姜小花花 学生认证  发表于 2021-5-25 08:53:37
wdlbcj 发表于 2021-5-24 20:33
感觉你这里的格式 不是面板数据啊? 你这个示例看起来是一个 id1 从99-01 存活了3年;id2 98-02 存活了4年 ...
原始面板格式如下:(其中est_year是id成立年,year为id存在的相应年份,X1为一些企业层面的变量)
id year  est_year   X1  
1    99     99        ....
1    00     99        ....
1    01     99        ....
2    98     98        ....
2    99     98        ....
2    00     98        ....
2    01     98        ....
2    02     98        ....
考虑到左删失问题,所选取的样本是从98-02年新成立的企业.我上面列示出来的是想说id1存活了3年,id2存活了4年。但是我现在没有明白这样的一个数据形式(相关解释变量为企业层面的面板型数据,因变量不知道该如何设定?)还请指教!前面我没有讲清楚是我的问题,在此请见谅!

7
wdlbcj 学生认证  发表于 2021-5-25 13:34:06
姜小花花 发表于 2021-5-25 08:53
原始面板格式如下:(其中est_year是id成立年,year为id存在的相应年份,X1为一些企业层面的变量)
id y ...
你好,以下是我的一点想法,有不对的地方还请指教。第一种是看起来当期是否会发生退出的分析 就是logit的回归,这里也能使用cloglog作为稳健性检验看一下;(这个是一个粗浅的想法,有些地方没想好)第二种是你可以借鉴久期分析,即生存分析的相关方法 来对企业生存时间进行分析,感觉第二种更合适一些

8
姜小花花 学生认证  发表于 2021-5-26 10:06:46
wdlbcj 发表于 2021-5-25 13:34
你好,以下是我的一点想法,有不对的地方还请指教。第一种是看起来当期是否会发生退出的分析 就是logit的 ...
谢谢您的建议!我想再问一个问题:参照我列示的数据,想要stata筛选出id存在年份不连续的样本,例如id3在98-99存在,00-01不存在,但02年又出现,不知道怎么能够实现?不知道您了解这方面的吗?再次感谢!

9
wdlbcj 学生认证  发表于 2021-5-26 13:54:02
姜小花花 发表于 2021-5-26 10:06
谢谢您的建议!我想再问一个问题:参照我列示的数据,想要stata筛选出id存在年份不连续的样本,例如id3在9 ...
您好,这种可能是多重久期分析。个人建议要检查核实一下 这两个时间段的ID 是不是真的是一个公司,因为可能实质已经发生了变化,只是名字相同。或者这类型样本不多的话,考虑删除相关的观测值

10
陈迁影 发表于 2021-9-16 11:04:17
请问一下生存分析cloglog的命令是什么呢?

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群
GMT+8, 2026-1-6 17:55