Stata特训_2018年
暑假现场班
迅速提升论文发表与Stata应用技能
时间:初级:2018年暑假 (三天)
高级:2018年暑假 (三天)
论文:2018年暑假 (三天)
地点:北京市海淀区中国青年政治学院
安排:上午9:00-12:00;下午2:00-5:00;答疑5:00-5:30
费用:初级:3000元 /2600元 (仅限全日制本科生和硕士研究生优惠价)
高级:3300元 /2900元 (仅限全日制本科生和硕士研究生优惠价)
论文:3600元 /3200元 (仅限全日制本科生和硕士研究生优惠价)
初级+高级:6000元 /5200元 (仅限全日制本科生和硕士研究生优惠价)
初级+论文:6200元/5400元 (仅限全日制本科生和硕士研究生优惠价)
高级+论文:6500元/5700元 (仅限全日制本科生和硕士研究生优惠价)
初高级+论文:9000元 /8000元 (仅限全日制本科生和硕士研究生优惠价)
(食宿自理)
初级班报名
我要报名 (同时报名两个及全程班通道)
讲师介绍:
连玉君,经济学博士,副教授。2007年7月毕业于西安交通大学金禾经济研究中心,现任教于中山大学岭南学院金融系。主讲课程为“金融计量”、“计量分析与Stata应用”、“实证金融”等。
已在《China Economic Review》、《经济研究》、《管理世界》、《经济学(季刊)》、《金融研究》、《统计研究》等期刊发表论文60余篇。连玉君副教授主持国家自然科学基金项目(2项)、教育部人文社科基金项目、广东自然科学基金项目等课题项目10余项。
目前已完成Panel VAR、Panel Threshold、Two-tier Stochastic Frontier等计量模型的Stata实现程序,并编写过几十个小程序,如xtbalance、winsor2、bdiff、hausmanxt、ttable3、hhi5等。
初级班课程导引
实证分析中,最伤神和耗时的事情莫过于研究设计和数据处理。在以往的授课中,很多同学和老师都是在听完了高级班的课程以后,又返回头来听初级班的内容。他们有一个共同的感触就是,没有一个扎实的基础,以及对计量经济学和Stata整体架构的认识,后续的学习成本会越来越高。
在初级班中,我力求将三天的课程设置成一个比较完整的体系,目的有二:
其一,希望大家经过三天的学习(尚需另外花费1-2个月的时间演练吸收),能对基本的统计和计量分析方法有所掌握,能读懂多数期刊论文中使用的分析方法;
其二,希望诸位能建立起stata的基本架构,熟知stata能做什么、如何做?以期为后续学习打下宽厚扎实的基础。
翻阅Top期刊上的论文,你会发现多数论文并没有使用非常复杂的方法,关键在于论文的想法或视角比较独特,并使用了恰当的方法来论证。这里的关键在于研究设计,而这在目前的计量教科书中鲜有涉及。为此,本次研讨班突出两个特点:一方面,我会努力把基础知识讲解透彻,进度上不求快;另一方面,我在每个专题中都会提供了2-3篇比较经典的论文,展示这些方法的合理应用。
在内容的安排上,基本上遵循了由浅入深,循序渐进的思路。第1-3讲依序介绍stata的基本用法、数据处理和程序编写,学习这些内容无需太多的计量经济学基础,但对于提高实证分析能力和分析效率,大有裨益,。第4-5讲介绍文献中使用频率最高的线性回归模型,包括OLS的原理、结果的解释,以及虚拟变量和交乘项的使用等。对于这些内容的深刻理解和熟练掌握,构成了后续,多种主流实证模型的基础,例如,目前文献中广泛使用的固定效应模型 (FE),倍分法 (DID),断点回归设计 (RDD) 等方法,本质上就是在传统的线性模型基础上,增加一些虚拟变量或交乘项,配合巧妙的研究设计,来实现对不可观测的个体效应的控制,以及对政策效应的估计。第6讲介绍固定效应模型 (FE) 和倍分法(DID),是第4讲和第4讲内容的延伸和应用,也是目前解决遗漏变量和内生性问题比较常用的方法。
具体说明如下:
在第1-2讲中,笔者会以一篇文章为实例,说明Stata的基本语法结构,并对数据处理过程中的关键问题进行介绍,如离群值的处理、文字变量的处理等。就我个人的经验而言,数据处理能力的高低直接决定实证分析的效率,而对于离群值的处理是否妥善会直接影响全文结果的稳健性,是多数人不够重视但却至关重要的问题。
第3讲中介绍Stata编程的基础知识。但凡提及写程序,很多人都会产生恐惧心理,其实,一旦掌握了最基本的原理和语法格式,Stata中的程序设定并没有想象的那么困难。更为重要的是,对于多数人而言,由于并不需要写完整的ado文档,因此只需要学会最基本的条件语句和循环语句即可,难度又会进一步降低。
第4讲和第5讲介绍实证分析中的模型设定和结果解释问题。很多人会觉得OLS过于简单,但Top期刊中使用最多的仍然是OLS,如何合理的构建模型、解释结果便成为实证分析中必须掌握的。我精选了大家经常面临的几个专题并结合论文进行讲解,包括:虚拟变量的使用、交叉项的使用和解释、分组回归的合理设定和假设检验,还有在经济学和金融学中相对较新的R2贡献度分析。
第6讲介绍了目前广泛应用的面板数据模型和倍分法(Difference inDifference, DID)。由于面板资料的获取越来越方便,目前多数研究中使用的都是面板数据。在讲解这些模型的基本思想和估计方法的过程中,笔者会将重点放在模型含义和应用范围上来。例如,对于同一笔数据而言,何时采用OLS进行估计,何时采用FE估计?不同的方法之间有何差异和关联?结果背后的经济含义如何解读?对于倍分法,其背后的核心思想非常简单,但是在实证分析中有诸多需要解决的问题:共同趋势假设如何检验?多期DID如何估计?政策实施时点不同时如何估计?掌握这些方法有助于大家合理控制内生性问题,以便得到更为可信的结论。
初级班课程大纲
专题名称 | 授课内容 |
第1讲 (3小时) Stata简介 | 数据的导入和导出 执行指令和基本统计分析 do文件和log文件的使用 帮助文件的使用和外部命令的获取 一篇范例文档 |
第2讲 (3小时) 数据处理 | 数据的横向合并和纵向追加 重复样本值、缺漏值和离群值的处理 基本统计量的呈现 基本统计分析(组间均值差异和中位数差异检验) 文字变量的处理 大型数据的处理范例(GTA数据库和工业企业数据库) |
第3讲 (3小时) Stata程序 | 局域暂元和全局暂元(local, global) 控制语句(条件语句、循环语句) Stata中的各类函数 分组回归分析 范例:盈余管理程度的估算、现金持有调整系数的估算 |
第4讲 (3小时) 普通最小二乘法 (OLS) | 线性回归模型估计方法(OLS) 假设检验和统计推断 稳健性标准误:Bootstrap、Jackknife、聚类调整 虚拟变量 |
第5讲 (3小时) 模型的设定和解释 | 交乘项和平方项的使用及解释 边际效应:估计和图示 R2分解和贡献度分析 分组回归和组间系数差异检验 估计结果的呈现和分析 范文2篇 |
第6讲 (3小时) 静态面板数据模型 倍分法(双差分) | 静态面板模型:固定效应和随机效应 基于Bootstrap的Hausman检验 异方差和序列相关(Bootstrap、Cluster调整标准误) 包含内生变量的固定效应模型 实证分析中的常见问题 倍分法(Difference in Difference)简介 应用实例(介绍2篇论文) |
高级班课程导引
Stata高级班包括6个专题,重点讲述各类面板模型以及一些新近发展的内生性处理方法。主要涉及如下几个方面的内容:
(1)面板模型:动态面板模型、面板VAR模型和面板门槛模型(第2讲和第3讲),前者在刻画变量之间的动态关系,以及政策冲击方面非常有用;而后者则在近年中分析结构变化方面得到了广泛的应用。
(2)内生性问题,包括传统的IV估计和GMM估计 (第1讲),这构成了第2讲(动态面板模型和面板VAR) 的理论基础;处理效应模型和倾向得分匹配分析(第5讲);断点回归分析(RDD, 第6讲)。作为上述模型的分析基础之一,在第4讲中,将介绍Logit模型;
课程的特色和详情介绍如下:
其一,介绍了几个应用日益广泛的面板模型。时至今日,多数领域使用的都是面板数据,也对相关的模型提出了越来越高的要求。在第2讲中,我将介绍专门用来分析变量自身以及多个变量之间动态关系的动态面板数据模型和面板VAR模型。这两类模型在经济增长、公司金融、国际贸易、劳动经济学等领域都得到了广泛应用。此外,在实证分析中,经常要处理结构变化问题,目前主要使用交叉项和分组回归等方式,但这两种设定方法都需要预先知道或假设结构变化点,使其合理性颇受质疑。而第3讲中介绍的面板门槛模型则基于“让数据说话”的原则,自动搜索结构变化点,从而克服了上述方法的局限。
其二,显然,内生性问题是困扰我们这个时代的学者的一个普遍而棘手的问题。为此,高级班将通过三个专题全面深入地介绍了内生性问题。第5讲介绍两类处理由于自我选择偏误导致的内生性问题的模型。一是处理效应模型,主要应对解释变量中所包含的0/1内生变量;二是倾向得分匹配分析方法,主要通过多维配对的方式来解决自我选择偏误。翻阅最近2年发表于《经济研究》、《管理世界》、《经济学(季刊)》等期刊的文章,这两类模型在处理内生性问题方面得到了日益广泛的应用。
作为上述模型的基础,第3讲介绍Logit模型。一方面,Logit模型是研究很多0/1选择问题的主要方法;另一方面,在诸多解决内生性问题的模型中(如Heckman选择模型、PSM、DID、RDD等),Logit都是非常关键的环节。
相对于初级班,高级班的内容在难度上,虽然难度有所增加,但思路和架构更为清楚。在学习方法上,高级班与初级班有所不同。初级班的主要目的在于打下扎实的基础,建立一个完整的学习架构,而在高级班中,我则建议大家重点学习与自己研究方向密切相关的方法,通过广泛阅读文献来掌握这些方法在不同场景下的应用条件和变通方法。
高级班课程大纲
专题名称 | 授课内容 |
第1讲 (3小时) 内生性专题 I: IV-GMM | 工具变量法(IV) 广义矩估计法(GMM)简介 内生性检验:是否存在内生性 过度识别检验:工具变量的合理性 |
第2讲 (3小时) 动态面板模型 面板VAR模型 | 一阶差分GMM估计量(FD-GMM) 序列相关检验、过度识别检验(Sargan检验) 模型设定常见问题(弱工具变量问题) 面板VAR模型简介 允许外生变量的PVAR模型 冲击反应函数 (IRF)、方差分解 (FEVD) 应用实例(介绍2篇论文) |
第3讲 (3小时) 截面和面板门槛模型 | Bootstrap简介 截面门槛模型(Cross-sectional Threshold Model) 面板门槛模型(Panel Threshold Model) 应用实例(介绍2篇论文) |
第4讲 (3小时) Logit模型 | Logit模型简介 模型设定、估计方法和结果的解释 多元Logit模型 (Multinomial Logit) 有序Logit模型 (Ordered Logit) 应用实例(介绍2篇论文) |
第5讲 (3小时) 内生性专题 II: Heckman选择模型 处理效应模型 倾向得分匹配分析(PSM) | 自我选择偏误简介 Heckman选择模型(Heckman Selection Model) 处理效应模型(Treatment Effect Model) Propensity Score Matching (PSM) 简介 配对方法:精确配对、半径匹配、最近邻匹配等 共同支撑假设和平行假设 范例:2篇文章 |
第6讲 (3小时) 内生性专题III: 断点回归分析(RDD) | Regression Discontinuity Design (RDD) 简介 明确断点RDD分析 (Sharp RDD) 模糊断点RDD分析 (Fuzzy RDD) 范例:2篇文章 |
论文班课程导引
在过去几期的培训结束后,我们都会收集学员的建议。大家都非常迫切地希望能够精讲一些经典论文的实证分析过程,对自己在初级和高级班的所学有一个整体的认知。对于已经开始尝试独立开展研究工作的学员而言,大家明显的感觉到,研究设计是最棘手的问题。在之前有导师指导或带领的情况下,研究主题和研究内容都是预先给定的,事实上的,完成一篇论文相当于在做一个命题作文。而一旦开始独立门户,最大的挑战是找到合适的研究题目,做一个可靠的研究设计。这其实也是实证分析工作中最难的部分。
在本次的学术论文班中,我们就试图帮助大家解决上述问题。
在第1讲中,我首先根据个人的研究经历,分享做一篇规范的实证研究的经验。主要内容包括:论文的选题、研究贡献的挖掘和陈述,以及研究设计等。在随后的五讲中,我将挑选一些发表于顶尖期刊上的论文,详细讲解每篇论文的实证分析过程,剖析作者的研究思路、研究设计,以及对结果的解释。在此基础上,我们进一步的追踪后续的相关文献,以便掌握如何从现有的文献出发,拓展出新的研究主题。
我们会提供重现每篇论文所需的所有数据和程序文件,以便保证各位可以在听课后反刍,并将这些论文中的分析方法迁移到你的研究中去。
精讲并重现经典论文,有如下几个方面的好处:
首先,我们挑选的这些论文都是在相关领域中颇具影响的论文,对后续研究产生了重要的启发。重现这些论文,并进一步发散性的阅读文献,也助于我们找到新的研究主题。
其次,这些论文的研究设计都非常出色,我们可以借鉴并在博采众长的基础上,不断改进自己的研究设计思路和方法。只有去拆解和重现这些论文,才能够感受到作者在写作过程中的思考过程,从而从实质上提高我们自身的分析和研究能力。
最后,这些论文中涵盖了目前实证分析中的主流方法,更为重要的是,每一篇文章中通常会综合使用多种分析方法,这对于我们理解和灵活应用初级班和高级班所学的计量方法大有裨益。
下面对课程中涉及的主要论文作简要介绍,以便各位了解此次课程的重点所在。
在第二讲中讲授3篇论文:叶德珠等(2012, 经济研究)、Ye et al. (2015, SIR)、Richarson (2006, RAS)。前两篇分别研究了“文化和消费”以及“文化和幸福感”,而第三篇则是会计领域的一篇非常有名的文章,重点研究了自由现金流导致的过度投资问题。表面上,这三篇文章的关系似乎非常松散。事实上,第一篇借鉴了第三篇的研究思路,后者采用OLS回归的残差来衡量过度投资,而前者则采用OLS的残差来衡量过度消费。从第一篇到第二篇,我们则转换了研究的视角。在研究文化的文献中,最棘手的问题在于:文化有多个维度的衡量指标,如何评价他们的相对重要性?为此,我们采用了「相对重要性分析(dominance analysis)」,将模型的总R2分解为每个变量的R2贡献度。这一方法使得我们可以衡量每一个文化维度的相对重要性。
第三讲中介绍的Opler et al.(1999, JFE)是现金持有领域里的开山之作。由于是这个领域的第一篇文章,作者对问题的背景进行了细致的介绍,非常值得借鉴。全文从现金持有行为的动机、方式和经济后果三个方面,层层递进,进行了非常详细的论述。对于正在撰写硕士或博士论文,以及申请国家社科或自科项目基金的学员而言,这篇文章是非常好的范本。
第四讲中,我将通过一篇经典论文来介绍“迁移à创新”这一思维模式的重要性。Faulkender and Wang(2006, JF)是现金持有领域中承前启后的一篇论文。一方面,这篇论文借鉴了Fama and French(1998) 提出的债务市场价值的估算模型,将其迁移到现金持有市场价值的估算上来。另一方面,这篇文章的估算模型成为后续多个领域的主要方法。从这篇文章开始,大家不再仅仅专注现金持有的决定因素,而是以现金持有为切入点,将研究话题拓展到了公司治理、兼并收购、交叉上市等诸多领域。从计量方法角度而言,这篇文章就是在线性回归模型的基础上,巧妙的使用交叉项来反映新区有市场价值的异质性,但作者巧妙而深刻的解读能力让我们叹为观止。
第五讲和第六讲的两篇论文,分别介绍了政策评价领域中的两种最重要的研究方法:倍分法 (DID) 和合成控制法 (SCM)。
对于DID,无论是从模型设定还是估计方法角度来看,它都非常简单。然而,在实际应用过程中,我们会面临几个棘手的问题:其一,DID分析的基础——共同趋势假设如何检验?其二,在实际分析中,各个实验对象受到政策冲击的时点往往不一致,此时如何评价政策效果?
Beck, Levine, and LevKov (2010, JF)为我们提供了上述两类问题的解决方法。作者采用综合使用面板数据模型、图形展示等方式,检验了共同趋势假设,并非常直观的呈现了政策冲击的效果。更为重要的是,作者不但从总体上估算了美国放松银行业管制这一政策冲击对收入分配的影响,同时还进一步探讨了这一政策效果得以发生的各种渠道和机制。
在政策评价领域,长期存在着一个空白地带:有些政策只针对某一个省或某一个州实施,此时DID,PSM等方法都不再适用,因为我们只有一个孤零零的实验对象!Abadie, Diamond, and Hainmueller (2010, JASA) 提出的合成控制法,很好的解决了这类问题。他们研究了「加州」于1989年实施的禁烟法案的政策效果。其基本思想是,使用其他38个未实施禁烟法案的州的加权平均来虚构一个「合成加州」,进而对比分析「加州」和「合成加州」在1989年之后香烟消费量的差异,这就是政策效果!作者还进一步的使用的组合检验,以及「安慰剂检验」来确定这一结果的统计显著性。
需要特别强调的是,虽然论文班的学习并不要求扎实的计量基础,但却要求大家要足够努力。最基本的要求是,在开课之前,要认真的研读每一篇论文,了解其研究背景、研究思路、计量方法和主要结论。在开课前,我会要求大家在线提交每篇论文的读书笔记。上课过程中,我会随机抽取学员来回答一些问题。同时,也建议大家在开课前务必掌握文献的检索方法,学会使用百度学术、谷歌学术和Endnote等文献管理软件,这助于追踪我们讲解的每篇论文的后续进展,以便发掘新的研究主题。
虽然这些论文的研究主题与诸位所在领域可能会有比较大的差异,但是,大道至简,从这些论文中主要是学习计量方法的合理应用和研究设计的思想。
论文班课程大纲
专题名称(每讲3小时) | 授课内容 |
第1讲 实证研究如何做? (1) 如何作规范的实证研究 (2) 课题标书的撰写 | 论文的选题、文献综述(Endnote的使用) 研究贡献的挖掘和陈述 研究设计(模型设定和筛选)、数据和变量 修改报告的撰写 (与审稿人有效沟通) 课题选题和子课题的设定 研究基础、研究目标、研究内容、研究难点 特色和创新点的提炼 标书的结构和标书的修改 经验分享:一份自科基金标书 |
第2讲 从第1篇到第2篇 发掘新的研究主题: 写完第一篇如何引申出第二篇? | [1] 叶德珠, 连玉君, 黄有光, 李东辉, 2012, 消费文化、认知偏差与消费行为偏差, 经济研究 80-92. (精讲) [PDF] [2] Ye, Dezhu, Yew-Kwang NG, and Yujun Lian, 2015, Culture and happiness, Social Indicators Research123, 519-547. (精讲) [PDF] [3] Richardson, S, 2006, Over-investment of free cash flow, Review of Accounting Studies 11, 159-189. (简要介绍) [PDF] 计量方法:OLS, FE, R2分解 (如何估计每个变量的贡献度) §亮点: - 他山之石可以攻玉,话题和方法的转移; - 如何拆解干扰项这个黑盒子,从残差中抽取有用信息 |
第3讲 完美研究设计 Opler et al. (1999, JFE) | Opler, T., L. Pinkowitz, R. Stulz, R. Williamson, 1999, The Determinants and Implications of Corporate Cash Holdings, Journal of Financial Economics, 52 (1): 3-46. (Google学术引用超过 3000次) [PDF] 计量方法:Pooled OLS、单变量组间差异分析、统计表格和图形 §亮点:研究设计值得借鉴,是撰写硕士和博士论文的绝佳范文 主题:现金持有、公司治理 |
第4讲 迁移 à 创新 Faulkender and Wang (2006, JF) | Faulkender, M., R. Wang, 2006, Corporate Financial Policy and the Value of Cash, Journal of Finance, 61 (4): 1957-1990. [PDF] 讲解重点:如何从现有文献出发,探索新的研究主题 计量方法:OLS、稳健性分析、衡量偏误、交叉项的应用和解释 §亮点:选题视角和研究设计值得借鉴,衡量偏误和模型设定等也处理的很妥当 主题:现金持有、融资约束。 这篇文章在谷歌学术的引用率超过1500次,引申出了一系列新的话题,很多论文则采用该文的方法研究其他领域的问题。 |
第5讲 政策冲击如何分析? 政策时点不同的多期DID | Beck, T., R. Levine, A. Levkov, 2010, Big bad banks? The winners and losers from bank deregulation in the united states, Journal of Finance, 65 (5): 1637-1667. [PDF]多期DID 政策发生时点不同 如何图示DID分析效果 如何剖析政策效果背后的机制 研究设计值得借鉴 数据收集的思路很好 |
第6讲 孤零零一个实验对象 合成控制法 (Synthetic control methods) | 合成控制法简介 精讲一篇经典论文(Stata实现过程): [1] Abadie, A., A. Diamond, J. Hainmueller, 2010, Synthetic control methods for comparative case studies: Estimating the effect of california's tobacco control program, Journal of the American Statistical Association, 105 (490): 493-505. [PDF] 以一篇中文文献为例,介绍该模型的具体应用: [2] 苏治, 胡迪, 2015, 通货膨胀目标制是否有效?——来自合成控制法的新证据, 经济研究, (6): 74-88. [PDF] §亮点:样本中有多个国家实施了通胀目标制,作者多次使用SMC,分别对每个国家进行分析;同时,作者对SMC相对于DID和PSM的优劣进行了详细的论述。 |
优惠信息:
1. 无论报初级班还是高级班,缴费成功后都享受如下优惠:
√ (a)赠送与所报课程相同等级的stata视频教程(2011年录制的),
即报初级班送初级班视频,报高级班送高级班视频,报论文班送论文班视频;
√ (b)5折优惠购买未赠送的其他Stata视频;
2,现场班老学员9折优惠;
3,同一单位三人以上同时报名9折优惠;六人以上同时报名8折优惠;
4,Stata连老师之前的现场班学员可以8折优惠参加;
5,购买过Stata全套视频,即【初级+高级+论文攻略】可以9折优惠参加;
6,组合优惠与折扣优惠2,3,4,5不叠加。
PS:根据报名缴费顺序安排现场座位。
交费后如果本次因故不能参加,保留一次补课机会,无需补差价。
报名流程:
1. 点击“初级班/高级班/论文班/我要报名”网上提交报名信息;
2. 电话确认,订单缴费;
3. 缴费确认,开课前一周发送软件准备,电子版讲义;
4. 现场领取发票及邀请函。
PS:如报名两个班级请“我要报名”通道提报名信息后联系QQ:1143703950 修改价格~
联系方式:
魏老师
QQ:1143703950
Mail:vip@pinggu.org
Tel: 010-68478566