楼主: stephenlee
13648 21

[数据管理求助] 在stata中进行生存分析(久期分析)需要的数据的格式是什么样的? [推广有奖]

  • 0关注
  • 2粉丝

大专生

51%

还不是VIP/贵宾

-

威望
0
论坛币
134 个
通用积分
2.4200
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
897 点
帖子
28
精华
0
在线时间
61 小时
注册时间
2005-5-26
最后登录
2016-8-9

50论坛币
在stata中进行数据分析需要一个特定的数据的格式。。我想要研究影响企业出口持续时间的因素,要用到计量中的久期分析,也就是生存分析;

我现有的是海关数据和工业企业数据合并之后的数据,显然是一个面板数据,每一条数据包括了:哪个企业,在哪一年,出口了什么;
而在stata中进行生存分析的话,需要的好像是一个截面数据,要包括:哪个企业,持续出口了多少年之类的信息————这只是我自己看了论文和课本的理解,具体要求是怎样的我也不是很清楚;;

所以我想请问,在stata中如何将我的面板数据处理成进行生存分析所需要的格式呢?要怎样处理呢?


PS:我知道stata的生存分析的一套命令st中有个snapspan的命令好像可以转化,可是出来的结果总是不尽人意。。
不太会在帖子里加excel啥的。。就把stata的一部分数据作为附件传上来吧。。。这是工业企业数据库与海关数据合并后的部分数据,是个面板数据 example.dta (5.11 KB)

这是用stata里st部分自带的snapspan命令进行整理,然后用stset设置了生存分析的数据结构后的数据,感觉不太对。。其中time0是用snapspan后生成的变量,_t0是stset生成的变量,本来这两个是相同的,我把_t0遗漏的变量略作修改了一下 example_snap.dta (6.5 KB)

关键词:Stata 生存分析 tata 工业企业数据库 面板数据处理 工业 如何 信息 影响
沙发
husthwd 发表于 2016-3-25 23:55:37 |只看作者 |坛友微信交流群
楼主,问题解决了吗,我也想知道生存分析中的数据结构是截面还是面板呢,求指导

使用道具

藤椅
小南瓜Agnes 发表于 2016-4-14 16:38:30 |只看作者 |坛友微信交流群
表示我也遇到这样的问题,毕竟是久期分析的第一步。现在的数据是每一个公司在那些年生存。怎么转换成stata需要的呢

使用道具

板凳
stephenlee 发表于 2016-5-8 10:59:41 |只看作者 |坛友微信交流群
husthwd 发表于 2016-3-25 23:55
楼主,问题解决了吗,我也想知道生存分析中的数据结构是截面还是面板呢,求指导
基本解决了吧,你可以参考陈强的高级计量经济学及stata应用,里面有久期分析一章。久期分析有好多种方法,K-M和COX的话是用的截面数据

使用道具

报纸
stephenlee 发表于 2016-5-8 11:03:27 |只看作者 |坛友微信交流群
小南瓜Agnes 发表于 2016-4-14 16:38
表示我也遇到这样的问题,毕竟是久期分析的第一步。现在的数据是每一个公司在那些年生存。怎么转换成stata需 ...
现在基本解决了吧哈哈都已经过去这么久了,看你对你数据的描述的话应该是个面板数据吧,久期分析有好多方法,最常用的K-M和COX都是要用截面数据的,要自己把数据转换一下,在后边统计上每个公司的生存时间;至于转换的方法那就因人而异了吧,应该有好多种操作方法,我stata是数据整理用的不是很好,我是用的snaspan那个命令转化了一下然后自己慢慢整理的,算是一种很笨的方法吧。。

使用道具

地板
小南瓜Agnes 发表于 2016-5-16 15:31:27 |只看作者 |坛友微信交流群
stephenlee 发表于 2016-5-8 11:03
现在基本解决了吧哈哈都已经过去这么久了,看你对你数据的描述的话应该是个面板数据吧,久期分析有好多方 ...
可以把snaspan那条命令告诉我吗,我看了陈强的高级计量,对于数据的初级整理的stata命令并没有介绍。我再去stata里help一下。

使用道具

7
runman 发表于 2016-6-16 22:14:42 |只看作者 |坛友微信交流群
你好,想请教一个问题,一篇论文中对变量的定义和数据来源的说明中,发现有些变量是时间序列数据,而有些变量是截面数据,论文的目的是用Weibull hazard model做实证分析。

比如 variable1  它所描述的数据为1970-2015的时间序列数据
     variable2  它所描述的数据为2000-2010年的平均值
     variable3  ......
     variable4  ......

     实在想不通它的数据结构是什么样子的?

是不是以下这种形式呢?先谢谢啦。

year   variable1               varible2    variable3   variable4  ...
1970        数值                 缺失        ...         ...
1971        数值                 缺失
1972        数值                 缺失
1973        数值                 缺失
1974        数值                 缺失
1975        数值                 缺失
1976        数值                 缺失
1977        数值                 缺失
1978        数值                 缺失
…         …                  …
2000        数值        2000-2015年变量2的平均值
2001        数值        2000-2015年变量2的平均值
2002        数值        2000-2015年变量2的平均值
2003        数值        2000-2015年变量2的平均值
2004        数值        2000-2015年变量2的平均值
2005        数值        2000-2015年变量2的平均值
2006        数值        2000-2015年变量2的平均值
2007        数值        2000-2015年变量2的平均值
2008        数值        2000-2015年变量2的平均值
2009        数值        2000-2015年变量2的平均值
2010        数值        2000-2015年变量2的平均值
2011        数值        2000-2015年变量2的平均值
2012        数值        2000-2015年变量2的平均值
2013        数值        2000-2015年变量2的平均值
2014        数值        2000-2015年变量2的平均值
2015        数值        2000-2015年变量2的平均值

使用道具

stephenlee 发表于 2016-5-8 11:03
现在基本解决了吧哈哈都已经过去这么久了,看你对你数据的描述的话应该是个面板数据吧,久期分析有好多方 ...
能不能告诉我怎么解决的,我这里也是面板数据,能加我扣扣吗?312226,请教下你问题

使用道具

小南瓜Agnes 发表于 2016-5-16 15:31
可以把snaspan那条命令告诉我吗,我看了陈强的高级计量,对于数据的初级整理的stata命令并没有介绍。我再 ...
你去help一下就有了。

使用道具

10
xuzhiyuan113 学生认证  发表于 2017-6-12 16:09:15 |只看作者 |坛友微信交流群
runman 发表于 2016-6-16 22:14
你好,想请教一个问题,一篇论文中对变量的定义和数据来源的说明中,发现有些变量是时间序列数据,而有些变 ...
你好,问一下你的问题最后解决了吗?如何解决的?我也始终为数据结构发愁。

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-11-5 22:42