楼主: 夏目贵志
11418 124

[程序分享] 【5000论坛币奖励】揭秘学术论文背后的故事!Stata学术论文数据分析竞赛!!    关闭 [推广有奖]

回帖奖励 80 个论坛币 回复本帖可获得 5 个论坛币奖励! 每人限 1 次
81
云端桐叶 学生认证  发表于 2015-8-15 13:13:43

回帖奖励 +5 个论坛币

支持这种活动!

82
夏目贵志 发表于 2015-8-17 08:51:39
比赛已经结束。比赛结果发布在2楼。已经通过站内信联系获奖人告之领奖方法。参赛人上传的文件欢迎大家踊跃购买查看学习,也是对参赛人劳动的支持。再次感谢所有人对比赛的关心和支持。这个帖子接触高亮但保持开放,没有回过帖子的人依然可以通过回帖得到5个论坛币的回帖奖励。

83
morrow 发表于 2015-8-17 16:42:15
恭喜 andruw 获奖!
先自己动手做一做,再看别人的程序,学习效果应该会更好。
已有 1 人评分论坛币 收起 理由
夏目贵志 + 50 参与奖的另一半

总评分: 论坛币 + 50   查看全部评分

84
andruw 在职认证  发表于 2015-8-17 17:43:42
morrow 发表于 2015-8-17 16:42
恭喜 andruw 获奖!
先自己动手做一做,再看别人的程序,学习效果应该会更好。
多谢morrow! 共同学习,共同进步!
已有 1 人评分论坛币 收起 理由
夏目贵志 + 50 参与奖的另一半

总评分: 论坛币 + 50   查看全部评分

85
夏目贵志 发表于 2015-8-17 21:22:32
andruw 发表于 2015-8-17 17:43
多谢morrow! 共同学习,共同进步!
andruw是以前用过这个数据吗?

其实我最后做出来poverty的变量和你的几乎一样(但是和原文不同)。所以我觉得是原文有什么问题。而且奇怪的是Nonpoor的结果和原文几乎相同,但是poor的结果相差较多。这个一点是十分诡异的。我个人的感觉是当numkid和numadt缺失的时候我们的处理和作者的处理不同。我个人是使用weighted average threshold的。

另外,不知你注意到没有,图1其实不能直接通过平均Data.dta里的ICS ICC 和ICE的值得到。其实要我说,给individual household assign ICS ICC and ICE反而容易让人迷惑。

其实重现最后三张表的回归不难(如果不考虑poverty变量定义的问题的话)。反倒是前三张表还更麻烦些。News的部分仔细看NEWS1和NEWS2的value label就可以分类了。而各组的失业率则需要去BLS单独下载。

86
夏目贵志 发表于 2015-8-17 21:31:47
morrow 发表于 2015-8-17 16:42
恭喜 andruw 获奖!
先自己动手做一做,再看别人的程序,学习效果应该会更好。
Replication对于论文写作是非常好的练习,也是最贴近“实战”的。能自己写好文章之前会需要做很多这样的练习的。andruw的图确实做得很好。处理poverty数据也非常不错。真的值得大家(包括我自己)好好学习学习~这次比赛能收到这样好的回复真是幸运。不过也许对于版上多数人来讲,replication还是略难了一些。这个是我的判断问题。无论如何,谢谢morrow的参与~以后有问题发帖的时候也可以@我~

87
andruw 在职认证  发表于 2015-8-17 22:38:42
夏目贵志 发表于 2015-8-17 21:22
andruw是以前用过这个数据吗?

其实我最后做出来poverty的变量和你的几乎一样(但是和原文不同)。所以 ...
这个数据没有用过。我兴趣偏宏观。

figure 1 我用了两种思路尝试。第一种思路就是根据数据自己计算,不过画出图来跟原文差别比较明显。接着,我去http://www.sca.isr.umich.edu/直接下载了quarterly data画,这是第二种思路。第二种思路的画出的图与原文没有差别。

figure 2-figure 5 没有直接的数据下载,便按最初想法一个一个计算。结果不错,与原文没有差别。夏目贵志兄提到,画这几个图最大的障碍是计算poverty threshold,这个我十分认同。不过,稍加分析会发现,每年poverty threshold数据表结构十分一致,只需写个loop就能处理所有的表格。

至于task 2和task 3,我都稍微尝试了,结果很难达到“小数点后三位之内都相同”(不过基本上都能达到“量级”上的一致)。考虑到原文与自己的研究无关,并且task 2和task 3并不需要比较复杂的技术(做table 1,2, 3, 我用了postfile 和testsave;做table 4,5,6,我用了outreg2),我就放弃了继续尝试。

总体而言,这篇文章replicate看似的简单,其实还是挺棘手的。比如,本文并非严格的学术期刊论文,很多信息没有较好的披露,需要我们去猜测。作者处理数据也未完全按照学术界普遍认可的方式来完成。

我之所以将重心放在task 1,主要是基于如下考虑:(1)这篇文章的图比较不典型,不像常规的学术论文中的图。学术论文中的图相对比较简洁,layout没有这篇文章这么丰富;(2)虽然该文的图不常规,不过对于认识Stata的画图引擎和Stata画图的“grammar”有很大助益。比如,调整graph region, plot region;在图形中输出不同的字体以及改变字体的大小;改变坐标轴tick的位置;调整legend;以及在graph combine中如何保持风格的一致性等等。

最后,再次感谢夏目贵志兄组织这个活动,参与的过程中让我获益匪浅。
已有 1 人评分经验 论坛币 学术水平 信用等级 收起 理由
夏目贵志 + 50 + 50 + 5 + 5 分析的很对

总评分: 经验 + 50  论坛币 + 50  学术水平 + 5  信用等级 + 5   查看全部评分

88
snaggle 发表于 2015-8-18 08:23:45

回帖奖励 +5 个论坛币

这种比赛挺好的,错过了,争取以后可以参加

89
夏目贵志 发表于 2015-8-18 09:38:36
andruw 发表于 2015-8-17 22:38
这个数据没有用过。我兴趣偏宏观。

figure 1 我用了两种思路尝试。第一种思路就是根据数据自己计算,不 ...
我其实也算是做宏观计量的吧。不过除了在学校学的那点overlaping generation模型和一些search模型以外,宏观理论我完全不懂。。。一直想搞定DSGE但是始终也没找到时间。这个数据我以前用过。做这个方面的研究的人,这个人并不算特别有名。 而且如过不是因为是政策性机构的话,光靠几个probit回归和画几张图,是发不出文章的。这点你分析的非常对。

之所以选择这篇文章,一来是因为用到的计量模型简单,有个本科水平就能基本理解。二来是对软件技巧的掌握要求比较高。属于上手容易,真的做完美比较难。这个文章基本上全面覆盖了stata的基本技巧:数据管理,基本的数据处理,分组生成数据(by egen),基本的循环,读入外部数据,分组(分变量)回归,输出回归结果(outreg or estimates table)。很重要的一点就是可以让人认识到文章写成什么样才算清楚(比如这个文章就不够清楚),以及replication必然不可能100%重现原文。

andruw的水平太高了,呵呵,其实就像你说的,有些和你的专业方向不相关的没必要过分的花时间死磕。这个比赛的本意更多的还是希望刚踏上科研或者数据分析道路的新人练手。很可惜大家参与度不高。之前我还写了一个帖子,通过统计模拟来展示计量里的一些基本结论,讲怎么收集分组(变量)回归的数据并制表的帖子。结果几乎完全没人理我。。。呵呵。。。本来想写个系列教程的,也只能半途而废了。。。

总之十分感谢您来捧场~以后有能帮忙的地方请尽情的@我~

90
mengguyu 发表于 2015-8-18 11:12:34

回帖奖励 +5 个论坛币

还需努力呀

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群
GMT+8, 2025-12-31 19:12