楼主: 何人来此
543 20

[量化金融] 稳健生产率分析:德国FADN数据的应用 [推广有奖]

11
能者818 在职认证  发表于 2022-6-11 13:55:30
类似的观察结果可以解释为邻居。为了确定观测值的邻域,使用了生成树的概念(参见图1中的二维图解)。目的是在观测值之间选择一组最小的连接,以便所有观测值都相互连接。在所有生成树中,最小生成树的权重最小,即所有连接的长度之和最小。对于去污,pMST程序然后迭代删除MST中最长的连接,直到达到某个阈值(见下文)。原始MST的最大部分(仍然连接)最终保留为原始数据集的非外围部分。算法的形式描述如下。形式上,给定一个维数p中n个点的数据集X,即X={X,…,xn} Rp和所有成对链接(边)E(即,E 3 eij={xi,xj},i,j=1,…,n和i 6=j),MST定义为图G=(X,E*) 连接X的所有点,使其总长度最小化,即arg minE*EPeij公司∈E*w(eij)!。通常,边的权重eij={xi,xj}是xind xj之间的欧氏距离,即w(eij)=q(xi- xj)·(xi)- xj)。从这一事实可以看出,欧几里德距离对于数据集是有意义的,即所有变量都是在相同(或至少相似)的尺度上估计的。术语“连接”指的是,在X的任意两点之间,G中必须有一条路径(即一系列边)。可以证明,G中的边数总是| e*| = n- 1(Jungnickel,2008年)。此外,如果E中的所有边都具有唯一权重,则可以证明MST是唯一的。即使对于大型数据集,也可以有效地计算MST。参见示例。

12
可人4 在职认证  发表于 2022-6-11 13:55:33
Jungnickel(2008)对高效算法的回顾。在给定MST的情况下,修剪是通过根据G中的边的长度连续删除边来实现的。一、 e.在第一次迭代中,删除最长边,在第二次迭代中删除第二条最长边,依此类推。通过这种方式,G被分成几个子图,在正式的表示中,我们放弃了使用时间索引来防止符号过于混乱。图1:pMST程序图解(a)最小生成树●●●●●●●●●●●●●●●●●●●●●●●●●●●●0 5 100 2 4 6 8●●●●●●●●●●●●●●●●●●●●●●●●●●●●(b) 修剪最小生成树●●●●●●●●●●●●●●●●●●●●●●●●●●●●0 5 100 2 4 6 8●●●●●●●●●●●●●●●●●●●●●●●●●●●不-外围obs。外围obs。资料来源:作者基于Rousseeuw和Leroy(1987)的数据,第57页。彼此之间没有连接。在修剪过程中,子图的基数(即相应的观察数)下降。如果通过删除下一条边,最大子图的基数将低于b(n+p+1)/2c,则修剪过程将停止。在该界限处停止可确保随后应用的估计器达到最大崩溃点,即它们能够抵抗最大程度的污染。这一点上的最大子图包含多于或确切的b(n+p+1)/2c观测值,用G=(X,E)和X表示 X和E E*. Bennett和Willemain(2001)首次提出了这种方法。Kirschstein等人(2013)对相关估计量的稳健性进行了讨论。有问题的是,在大多数真实世界的数据集中- 出现b(n+p+1)/2c异常值。

13
大多数88 在职认证  发表于 2022-6-11 13:55:36
为了避免robustestimators的低效率,提出了重新称重程序来扩大未污染的子样本。对于基于MST的异常值去污,重新加权意味着必须确定临界边缘纵向临界值α,MST仅由未受污染的观测值组成(具有一定概率α)。为了估计wcritα,Liebscher和Kirschstein(2014)描述了一种依赖于切比雪夫不等式的有限样本版本的非参数方法。主要思想是基于平均边长uwand和边长的标准偏差σw来估计wcritα。参数uwandσ是基于G的初始稳健子集的边集EO来估计的。对于wcritα,遵循wcritα=uw+r(m-1) m·(1-α)-m·^σwwherem表示E的基数。一旦确定了wcritα,则通过G的附加边“重建”Gis,边权重小于或等于wcritα。这样,就可以确定一个仍然稳健但较大的子图(例如G),其相关的观测值被视为进一步分析中使用的更外部的自由子样本。3.2生产函数估计供给生产可以用柯布-道格拉斯函数来描述:yit=αAait+αLlit+αKkit+αMmit+ωit+εit,(1)其中y是产出y的自然对数,A是土地利用,L是劳动力,K是固定资本,M是材料(营运资本),i和t是农场和时间指数。小写字母注意输入的自然对数。待估计的αXare参数和x∈ {A,L,K,M}指生产要素。ωitare农场和时间特定因素,农民已知,但分析师未观察到。εIt是剩余的独立分布(iid)误差。首先,以前使用FADN数据进行生产率分析的研究主要集中在这种函数形式上。需要灵活的功能形式,如Translog规范。

14
nandehutu2022 在职认证  发表于 2022-6-11 13:55:39
然而,最近使用该数据集的研究显示,与CobbDouglas规范的结果最好是混合的(Zhengfei et al.,2006;Petrick and Kloss,2013;Latru ffe and Nauges,2013)。此外,随着输入多项式幂次的增加,几乎可以对任何数据结构进行建模。这也可能缓解离群值问题,但这意味着在估计方程中添加越来越多的回归系数。因此,多重共线性等问题被放大。因此,我们求助于(1)中所述的规范。其次,ωIt可能与(1)中的其他投入相关,因为农场的要素使用通常由农民控制。因此,(1)中的生产要素属于内生性问题。因此,通常用作经验基线的OLS估计量会产生对产出弹性的有偏估计,因为它忽略了ωit的存在。在实证实践中,一个典型的结果是可变输入(如材料)的向上偏差弹性。为了解决内生性问题,提出了几种策略(参见Griliches和Mairesse,1998)。一种方法是假设ω可以明显地分为个体效应和时间效应(Mundlak,1961)。然而,到目前为止,这种方法的应用成效参差不齐。为了控制ωit,本文采用Wooldridge(2009)提出的半参数控制函数方法。该估计量属于Olleyand Pakes(1996)提出的一类所谓的“代理”方法,Levinsohn和Petrin(2003)进一步发展了该方法。控制函数估计器已经成功应用于农业经济学领域(例如,Petrick和Kloss,2013;Kloss和Petrick,2014)。这些估计员假设调整成本是未观察到的异质性ωit的主要驱动因素。

15
可人4 在职认证  发表于 2022-6-11 13:55:42
Wooldridge扩展进一步解决了共线问题(Bond和S"oderbom,2005)。这个问题妨碍了其他估计员(包括OLS和传统的固定效应方法)从理论上确定全可变生产因素对生产率的影响。假设ωit存在合适的代理(例如材料),我们可以写:ωit=ht(mit,kit),(2),其中,ht是一个潜在的可观察控制函数,kit是时间t的预定资本使用水平。假设它根据kit+1=(1)发展- δ) kit+invit,δ为折旧率,inv为投资。此外,假设未观测到的生产率遵循一阶马尔可夫过程:ωit=E[ωit |ωit-1] +ξit,(3)其中ξ是与kit无关的创新,但可能与生产函数中的其他因素相关。继Wooldridge(2009)之后,我们进一步假设ωithas条件期望:E[ωit | kit,ait-1,点亮-1,套件-1,麻省理工学院-1.ai1,li1,ki1,mi1]=E[ωit |ωit-1] =g(ωit-1) ≡ g[h(mit-1,套件-1) ],(4)其中g是未知的生产率函数。现在,这个问题可以通过插入等式ωit=g[h(mit-1,套件-1) ,在(1)中,如下所示:yit=αAait+αLlit+αKkit+αMmit+g[h(mit-1,套件-1) ]+eit,(5),其中eit=ξit+εit。保持(5)的力矩条件为:E[eit | kit,ait-1,点亮-1,套件-1,麻省理工学院-1.ai1,li1,ki1,mi1]=0。(6) 因此,在(5)k的当前值和过去值中,a、l和m的过去值以及这些值的函数可用作工具。在这种设置下,我们可以通过使用工具变量估计(5)来识别生产函数参数,工具变量估计用于a、m(Wooldridge,2009,第113页)。函数h由m和k的一阶滞后的低阶多项式近似,而g可能是带漂移的随机游走(Wooldridge,2009,p。

16
可人4 在职认证  发表于 2022-6-11 13:55:45
114).3.3艺术示例为了证明异常值对非稳健估计的影响,我们讨论了一个简化示例。因此,我们模拟了一个7个周期内100个农场的示例。这些观测值的数据生成过程如下:yit=0.4·lit+0.6·kit+ωi+εit,(7)其中y、l和k是输出、劳动力和资本的自然对数,ωi表示观察到的异质性与ωi~ N(0,25)和ε是N(0,1)之后的剩余扰动。劳动力和资本投入是N(0,4)的随机变量。作为离群值,我们用ωi生成两个数据集,其中20个小农场在同一时期~ N个(-5、4)和lit,套件~ N个(-5, 9). 此附加数据将添加到“原始”样本中。最后,我们得到了两个不同的异常值污染数据样本。在第一个异常值数据集中,我们将cor(lit,kit)=0(样本I),并在第二个cor(litkit)≈ -1(样本II),因此劳动力和资本几乎是(完美的)替代品。已选择该假设。注意,(5)中的正交性条件在某种程度上被削弱,即仅假设当前实现和输入的一个滞后与εit/eit不相关。用于演示目的。请注意,我们以这种方式进一步区分,以说明多重共线性对异常值感染数据的影响,以及异常值净化如何能够缓解这种影响。在这两个样本中,异常值集的生产函数为:yit=0.99·lit+0.01·kit+ωi+εit。(8) 即,在两组中,7·20=140个观测值由(8)生成,这些观测值被视为来自(7)中假设的过程。我们给出了固定效应回归结果,以控制所有三个数据集未观察到的农场特定效应(ωi),应用a)无去污,b)单变量异常去污,以及c)使用pMST方法的多变量去污。

17
kedemingshi 在职认证  发表于 2022-6-11 13:55:48
表2总结了劳动力和资本投入的估计生产系数以及最终样本量。表2:模拟生产函数exampledcont的结果。原始样本样本I样本IIschemeest。是的。k N东部。是的。k N东部。是的。k N无0.41***0.61***700 0.28***0.73***840 0.22***0.80***单变量0.39“***0.62***526 0.24***0.74***677 0.20***0.78***多变量0.40***0.61***498 0.42***0.62***539 0.41***0.62***注:***(**,*)在1%(5%,10%)水平上显著。单变量净化基于每个农场的平均资本生产率。我们排除了【Q1-1.5IQR;Q3+1.5IQR】之外的值。多元去污基于pMST程序。资料来源:作者。如果有一个适当的估计器来控制未观察到的异质性,我们能够用多元去污方法精确地恢复(7)中给出的两个受污染样品的“真实”生产函数参数。单变量去污在估计精度方面没有改善。事实上,结果与原始样品非常接近。因此,这个简单的过程无法检测出“有意义的”异常值,因为它无法检测到除所考虑的维度之外的维度中的异常值。因此,在不应用多元去污的情况下,已经有相对较少的异常值(约16.7%)严重偏离了估计值。多重共线性(样本II)增加了问题,导致估计值更加恶化。然而,在这种情况下,多元去污也能够直接识别异常值。特别是,该示例表明,多重共线性的存在不会干扰多元检测程序正确识别异常值的能力,即使在输入之间几乎完全相关的极端情况下也是如此。

18
mingdashike22 在职认证  发表于 2022-6-11 13:55:51
此外,换言之,pMST程序也可能缓解多重共线性。如本例所示,如果异常值是数据中多重共线性的(主要)来源,这种方法尤其有效。总之,只有在控制了未观察到的异质性和外部效应之后,我们才能获得可靠的产出弹性估计。因此,这两个问题必须单独处理。鉴于这个简单示例的结果,只有在考虑所有模型维度的情况下,才能进行有效的异常值去污,即进行多变量异常值检测。4数据我们使用从德国农场会计数据网络(FADN)中提取的2001年至2008年间的田间作物农场数据。FADN提供了一个农场级数据集,其中保存了28个欧盟成员国中25个国家的会计数据。为了代表农场的异质性并确保代表性,获得了分层样本。分类标准是区域、经济规模和农业类型。每年大约有80000个农场被抽样。他们代表了成员国约500万农场的人口。每个成员国都有一个联络机构负责数据的收集和传输,该机构由大约1000个变量组成,包括结构、经济和金融数据。农场世界包括所有面积超过1公顷或小于1公顷的农场,这些农场为市场提供特定的产量。从这个宇宙中,所有非商业农场都被排除在外。要被归类为商业农场,afarm必须超过一定的经济规模。它以经济规模单位(ESU)计量。一个ESU代表一定数量的标准毛利率(单位:e),该毛利率会根据通货膨胀进行周期性调整。此外,农场按农业类型(TF)进行分类。

19
何人来此 在职认证  发表于 2022-6-11 13:55:54
为了证明农场技术同质化的假设,我们只研究了农田作物(TF1),并在以下分析中分别对待东德和西德,因为它们在结构上是不同的。东德农业的特点是大型企业农场,而西德则以中小型家庭农场为主。此外,在去除异常值后,这种处理方法可以更准确地区分相似性和差异性,因为两个德国地区都属于同一管辖区,而历史上有着不同的农业组织形式。东德由五个州组成:梅克伦堡-西波美拉尼亚州、勃兰登堡州、萨克森州-安哈尔特州、图林根州和萨克森州。西德包含除柏林和不来梅以外的所有其他州,这两个州在FADN数据中没有表示。根据FADN提供的原始数据,我们构建了涵盖观察年份的面板数据集。我们以农业总产量(单位:e)来衡量产量,以总农场雇佣劳动力和家庭劳动力工作时间来衡量劳动力,以土地(单位:公顷)来衡量使用的农业面积,包括拥有和租用的土地以及分佃土地。估计生产函数的一个长期问题是资本变量的具体化。通常,横断面研究中会使用一些简单的输入量(如化肥或农药)和机械使用量(如燃料费用或拖拉机小时数)测量。更复杂的方法是使用库存方法,通过对折旧率和资本租赁率进行假设来估计实际资本服务流量(Andersen et al.,2011)。在本研究中,材料或营运资本投入由e中的总中间消耗量代替。它包括会计年度生产产生的总特定成本和间接费用。

20
mingdashike22 在职认证  发表于 2022-6-11 13:55:57
其中包括燃料、润滑油、水、电和种子的成本。由于土地和肥料高度相关,我们不将肥料成本包括在材料投入中。这一观察结果表明,这些投入或多或少以固定比例应用于大多数农场。反过来,这可能会在估计中引发多重共线性问题。然而,由于这种相关性,肥料投入的影响仍然被土地投入所捕获,即使前者不包括在内。固定资本投入由e中以重置价值估计的资本资产折旧来近似。这种处理方法与使用企业级数据估计生产函数的最新文献一致(Olley和Pakes,1996;Blundell和Bond,2000;Levinsohn和Petrin,2003)。这一变量包括永久作物种植园、建筑物和设备、土地改良、机械和森林种植园的折旧。表3总结了变量定义,并给出了实际的FADN代码。表3:变量选择FADN代码变量描述输出SE131总产量(e)输入SE011劳动力输入(小时)SE025总利用农业面积(公顷)F72+SE300+SE305+SE336种子和幼苗成本+作物保护+其他作物特定成本+间接费用(欧元)=材料(e)SE360折旧(e)=固定资本来源:作者。使用各自的价格指数,将所有货币价值换算为2005年价格中的实际价值。这些信息是从欧统局在线数据库中提取的,并与国家小组合并。农业产出价格指数降低了产量。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-23 03:30