楼主: 大多数88
2080 79

[经济学] 利用数据挖掘变量实现可靠的因果推断:一个随机模型 [推广有奖]

71
何人来此 在职认证  发表于 2022-4-26 14:48:24 |只看作者 |坛友微信交流群
我们认为,在这种情况下,回归调整方法的局限性可能归因于这样一个事实,即它只利用测量误差均值和方差的分布信息,基本上忽略了其他分布信息。最后,我们承认,在某些情况下,在生成回归器文献(或一般的计量经济学文献)中看到最近理论发展的替代方法可能比ForestIV获得更好的偏差校正结果。因此,我们相信这是一个潜在的相当有成效的未来研究方向,通过它我们的方法可以得到改进。Meng等人(2016年)没有明确讨论如何调整截距项中的偏差。因此,我们将相同的干扰项报告为有偏回归。定理1理论结果的证明。在假设1-3下,对于随机森林中的任意两棵树,i和j(i6=j),limn→∞EiEjEfCov(bX(j),e(i))=0。证据采用Breiman(2001)的表示法,随着随机森林中树木的数量趋于一致,森林的泛化误差表示为P E(f rest)=limM→∞Ef[bX- 十] 。接下来,我们将两个已知结果重申为引理。引理1。(布莱曼,2001,定理11.2。)森林=EiEjEfCov(E(i),E(j))。引理2。(Scornet等人,2015年,定理1)假设1-2,limn→∞pe(森林)=0。这两个引理共同暗示limn→∞EiEjEfCov(e(i),e(j))=0。它跟在t·哈特林后面→∞EiEjEfCov(e(i),e(j))=0<=> 画→∞埃耶夫科夫e(i)、(bX(j)- 十)= 0<=> 画→∞EiEjEfCov(e(i),bX(j))- 画→∞EiEfCov(e(i),X)=0基于假设3(经典测量误差),limn→∞埃夫科夫(e(i),X)=0。因此,我们有→∞EiEjEfCov(bX(j),e(i))=0。定理2。

使用道具

72
可人4 在职认证  发表于 2022-4-26 14:48:30 |只看作者 |坛友微信交流群
随机森林二元分类的错误率随着ejecicorr(|e(i)|,|e(j)|)而降低,其中e(i)和e(j)是树i和树j(i6=j)的预测误差。证据Breiman(2001)证明了随机森林的错误率随着Ejeichcorr(rmg(bX(i)),rmg(bX(j)))i而降低,其中rmg(bX(i))表示树i预测的原始边缘函数。在二元分类下,原始边际函数定义为rmg(bX(i))=i(bX(i)=X)-I(bX(I)6=X),其中I是一个指示符函数,用于检查向量X(I)和X元素,如果封闭关系为真,则取值1,否则取值0。换句话说,I(bX(I)=X)是一个向量,正确的预测用1标记,I(bX(I)6=X)是一个向量,错误的预测用1标记。将1=(1,…,1)表示为1的向量,长度与预测向量相同。显然,我们有I(bX(I)=X)=1- I(bX(I)6=X)和I(bX(I)6=X)=|e(I)|。因此,我们知道Corr((rmg(bX(i)),rmg(bX(j))=Corr(i(bX(i)=X)-I(bX(I)6=X),I(bX(j)=X)-I(bX(j)6=X))=Corr(1)-2I(bX(i)6=X),1- 2I(bX(j)6=X))=Corr(I(bX(I)6=X),I(bX(j)6=X))=Corr(|e(I)|,|e(j)|)。定理3。我∈ {1,…,M},Cov(e(i),X)<0。证据对于给定的样本大小为N的情况,我们证明了这个定理。为了简单起见,我们写下基本真值asX={ak}Nk=1,同样地写下树i的预测向量和误差向量asbX(i)={pik}Nk=1,e(i)={eik}Nk=1。假设ak=α和pik=β的数据点的数量是nαβ(α,β∈ {0, 1}). 很明显,n+n+n+n=n,X和e(i)之间的关系b完全描述如下:o存在数据点,其中ak=0,eik=0;o存在ak=0和eik=1的数据点存在ak=1和eik=-1;o 存在ak=1和eik=0的数据点。接下来,写出Cov(e(i),X)=N(NPeikak)-佩克)。请注意,Peikak=-n、 佩克=n- n、 andPak=n+n。

使用道具

73
何人来此 在职认证  发表于 2022-4-26 14:48:37 |只看作者 |坛友微信交流群
因此,我们有NPeikak-佩克=-(n+n+n+n)n-(n)-n) (n+n)=-nn- 2nn- nn<0,相应地,Cov(e(i),X)<0。定理4。i 6=j∈ {1,…,M},Cov(e(i),e(j))>0 i f且仅当(p+p)(p+p)+2(p0o)- p) p+2(p1o)- p) p+(p- p) (p- p) >0。证据同样地,对于给定的样本大小为N的情况,我们证明了这个定理。再次,我们写出了树i的基真值asX={ak}Nk=1,并写出了树i的预测向量和误差向量asbX(i)={pik}Nk=1,e(i)={eik}Nk=1。首先,我们在下表中列出了ak、pik、pjk、eik、ejkin的所有可能值组合:akpikpjkCount eikejkAbbr。计数符号0n=n×p00n10n=n×p10n01n=n×p01n11n=n×p11n0n=n×p-1-1n10n=n×p001-1n01n=n×p-100n11n=n×p00nnext,写入Cov(e(i),e(j))=n(NPeikejk-PeikPejk)。注意peikejk=n+n,Peik=(n+n)-(n+n)和pejk=(n+n)-(n+n)。然后,NPeikejk-PeikPejk=(n+···+n)(n+n)-[(n+n)-(n+n)][(n+n)-(n+n)]。n+n)和B=[(n+n)-(n+n)][(n+n)-(n+n)],我们分别计算这两个量,如下所示。首先,我们重写a=(n+···+n)n+(n+··+n)n=(n+n)(n+n)+(n+n+n)n+(n+n+n)n+(n+n+n)n+(n+n+n)n第二,我们重写b=(nn+nn+nn+n)+(nn+nn+nn+n)- (nn+nn+nn+nn)- (nn+nn+nn+nn)=(nn+nn)- nn- nn)+(n+n+n)n+(n+n+n)n- (n+n+n)n- (n+n+n)我们有NPeikejk-PeikPejk=A-B=(n+n)(n+n)+2(n+n+n)n+2(n+n+n)n+(nn+nn)-nn-nn)=(n+n)(n+n)+2(n+n+n)n+2(n+n+n)n+(n-n) (n)-n) 。使用原始计数符号,右侧h和d相当于(n+n)(n+n)+2(n0o)- n) n+2(n1o)- n) n+(n- n) (n)- n) 。

使用道具

74
nandehutu2022 在职认证  发表于 2022-4-26 14:48:43 |只看作者 |坛友微信交流群
因此,Cov(e(i),e(j))>0<=>N[(N+N)(N+N)+2(n0o)-n) n+2(n1o)-n) n+(n-n) (n)-n) ]>0<=> (p+p)(p+p)+2(p0o)-p) p+2(p1o)- p) p+(p- p) (p- p) >0。我在实践中使用ForestIV在实践中,因为真正的系数不是先验的,所以有一些指导方针来衡量ForestIV在特定有限样本中的有效性是有用的。1.使用保持数据集(如Dtest),研究人员可以在建议的两步套索选择前后,根据经验评估仪器的有效性和强度。2.霍特林测试统计数据也可能是一个有用的信号。与Hotelling TTESComparingBβlabeland ForestIV估算值相关的p值表明,在同等标准下观察其经验差异的可能性。研究人员可以通过调整该测试的显著性水平来确定他们在接受ForestiveEstimates之前需要的证据阈值。3.研究人员还可以检查ForestIV的渐近特性是否尚未“发挥作用”,方法是,当该程序暴露于更多未标记的数据时,检查得出的系数估计中的经验收敛性。如果收敛图表明系数估计尚未稳定,这可能表明ForestIV估计尚未收敛,可能需要更多的u标记数据。最后,为了更好地描述ForestIV的使用情况,我们重申,如果标记数据的大小足够大,以至于仅使用可用的标记数据就可以足够可靠和精确地估计BβLabel,那么首先就不需要挖掘变量。人们应该简单地进行推理和决策。因此,在确定特定推理问题需要“大数据”和机器学习方法时,统计功效分析可能很有用(Ellis,2010)。参考资料:C.C.Aggarwal。

使用道具

75
何人来此 在职认证  发表于 2022-4-26 14:48:49 |只看作者 |坛友微信交流群
(2015). 数据挖掘:教科书。斯普林格。Angrist,J.D.和Krueger,A.B.(1995年)。Sp lit——教育回报率的样本工具变量估计。商业与经济统计杂志,13(2):225-235。Angrist,J.D.和Pischke,J-S.(2008)。基本无害的计量经济学:经验主义者的伴侣。普林斯顿大学出版社。Angwin,J.,Larson,J.,Mattu,S.,和Kirchner,L.(2016)。机器偏差。普罗普利卡,5月23日。Athey,S.和Imbens,G.(2016)。针对异质因果效应的递归划分。美国国家科学院院刊,113(27):7353-7360。Athey,S.和Imbens,G.W.(2017)。应用计量经济学的现状:因果关系和政策评估。《经济展望杂志》,31(2):3-32。贝洛尼,A.,陈,D.,切尔诺朱科夫,V.,和汉森,C.(2012)。优化仪器的稀疏模型和方法,并应用于征用权。《计量经济学》,80(6):2369-2429。S.伯纳德、S.亚当和L.赫特(2012)。动态随机森林。模式识别字母,33(12):1580-1586。伯纳德,S.,霍特,L。,亚当·S.(2010)。随机森林中强度和相关性的研究。在智能计算国际会议上,第186-191页。斯普林格。布莱克·伯恩,M.和纽马克,D.(1992年)。不可观察的能力、效率工资和行业间工资差异。《经济学季刊》,107(4):1421-1436。Blaser,R.和Fryzlewicz,P.(2016)。随机旋转组合。机器学习研究杂志,17(1):126-151。布伦德尔,R.W.和鲍威尔,J.L.(2004)。半参数二元反应模型的内生性。经济研究综述,71(3):655-679。布莱曼,L.(1996)。装袋预测因子。机器l,24(2):123-140。布莱曼,L.(2001)。随机森林。机器学习,45(1):5-32。Buolamwini,J.和Gebru,T.(2018年)。

使用道具

76
mingdashike22 在职认证  发表于 2022-4-26 14:48:56 |只看作者 |坛友微信交流群
性别差异:商业性别分类中的交叉准确性差异。公平、问责和透明度会议,第77-91页。Buse,A.(1992年)。工具变量估计的偏差。计量经济学:计量经济学学会杂志,第173-180页。卡罗尔,R.J.,马卡,J.D。,和Ruppert,D.(1999年)。测量误差存在时的非参数回归。Biometrika,86(3):541。切诺朱科夫,V.,切特韦里科夫,D。,Demirer,M.,Du Flo,E.,Hansen,C.,和Newey,W.K.(2016)。治疗和因果参数的双机器学习。技术报告,cemmap工作文件。康利,T.G.,汉森,C.B.,和罗西,P.E.(2012)。似乎是外生的。《经济学与统计学评论》,94(1):260-272。库克,J.和圣埃芬斯基,L.(1994年)。参数测量误差模型中的模拟外推估计。《美国统计协会杂志》,89(428):1314-1328。Denisko,D.和Ho Off man,M.M.(2018年)。随机森林中的分类和相互作用。《国家科学院院刊》,第201800256页。埃贝斯,P.,韦德尔,M.,和伯克霍尔特,U.(2009)。节俭iv替代方案,用于确定内生回归器的参数。应用计量经济学杂志,24(3):446-468。埃贝斯,P.,韦德尔,M.,伯克霍尔特,U.,和圣埃恩埃曼,T.(2005)。在没有工具变量的情况下,解决并测试回归误差(in)依赖性:有新的证据表明教育对收入的影响。定量营销与经济学,3(4):365–392。Ellis,P.D.(2010)。影响大小的基本指南:统计能力、元分析和研究结果的解释。剑桥大学出版社。范aee-T,H.和伽马,J.(2014)。结合集合探测器和背景知识的事件标记。

使用道具

77
mingdashike22 在职认证  发表于 2022-4-26 14:49:02 |只看作者 |坛友微信交流群
《艺术智能进展》,2(2-3):113-127。Fern’andez Delgado,M.,Cernadas,E.,Barro,S.,和Amorim,D.(2014)。我们是否需要数百名分类师来解决现实世界的分类问题?机器学习研究杂志,15(1):3133-3181。方g,C.和泰勒,M.(2017)。使用分类产生的协变量进行回归。工作文件。Freund,Y.,Schapire,R.E.,等人(1996年)。用一种新的boosting算法进行实验。Icml第96卷第148-156页。意大利巴里。格布鲁,T.,克劳斯,J.,王,Y.,陈,D.,邓,J.,艾登,E.L.,费飞,L.(2017)。使用深度学习和谷歌街景来估计美国各地社区的人口构成。美国国家科学院院刊,第201700035页。Giot,R.和Cherrier,R.(2014)。提前一天预测bikeshare系统的使用情况。2014年IEEE车辆和运输系统计算智能研讨会,第22-29页。IEEE。伊利诺伊州古德费罗、纽约州本吉奥和A.库维尔(2016年)。深度学习。麻省理工学院出版社。格雷斯,凯西。Y.(2016)。具有测量误差或错误分类的统计分析。斯普林格。格林·W·H.(2003)。经济计量分析。培生教育学院。古斯塔夫森,P.(2003)。统计学和流行病学中的测量误差和错误分类:影响和贝叶斯调整。华润出版社。小哈里森·D.和鲁宾菲尔德·D·L.(1978)。享乐的房价和对清洁空气的需求。环境经济和管理杂志,5(1):81-102。豪斯曼,J.(2001)。计量经济分析中的变量测量错误:来自右翼的问题和来自左翼的问题。《经济展望杂志》,15(4):57-67。Hausman,J.,Newey,W.,I chimura,H.,和Powell,J.(1991)。多项式回归模型中的测量误差。计量经济学杂志,50(3):273-295。豪斯曼,J.A.,纽伊,W.K.,和鲍威尔,J.L.(1995)。

使用道具

78
可人4 在职认证  发表于 2022-4-26 14:49:08 |只看作者 |坛友微信交流群
某些曲线变量估计中的非线性误差。计量经济学杂志,65(1):205-233。Jelveh,Z.,Kogut,B.,和Naidu,S.(2015)。经济学中的政治语言。工作文件。K–uchenho Off,H.,Lederer,W.,和Lesa Offre,E.(2007年)。误分类SIMEX的总方差估计。计算统计和数据分析,51(12):6197-6211。K–uchenho Off,H.,Mwalili,S.M.,和Lesa Offre,E.(2006年)。处理回归错误分类的一般方法:错误分类SIMEX。B计量学,62(1):85-96。Lewbel,A.(2019年)。使用工具变量来估计具有错误测量回归系数的模型。工作纸。李婷(2002)。变量模型中非线性误差的稳健一致估计。计量经济学杂志,110(1):1-26。林泰山,陆,W-Y.,安德西,Y-S.(2000)。对33种新旧分类算法的预测精度、复杂性和训练时间进行比较。机器学习,40(3):203–228。Loken,E.和Gelman,A.(2017)。测量误差和复制危机。《科学》,355(6325):584-585。E.曼曼、C.罗特和M.席恩勒(2016年)。生成协变量的半参数估计。计量经济学理论,32(5):1140-1177。Mammen,E.,Rothe,C.,Schienle,M.,等人(2012年)。具有非参数生成协变量的非参数回归。《统计年鉴》,40(2):1132-1170。麦克福兰德三世,E.,索曼奇,S。,和Neill,D.B.(2018年)。通过异常模式检测,在随机实验中有效发现异质性治疗效果。arXiv预印本arXiv:1803.09159。Meng,L.,Wu,B.,和Zh an,Z.(2016)。带估计回归器的线性回归:经济发展综合指标的应用。实证经济学,50(2):299-316。莫罗,S。,Cortez,P.和Rita,P.(2014年)。

使用道具

79
mingdashike22 在职认证  发表于 2022-4-26 14:49:16 |只看作者 |坛友微信交流群
预测银行电话营销成功与否的数据驱动方法。决策支持系统,62:22-31。墨菲,K。M.和托佩尔,R.H。(1985). 两步计量经济模型中的估计和推断。商业和经济统计杂志,20(1):88-97。默里,M.P.(2006)。避免使用失效的仪器,应对薄弱的仪器。《经济展望杂志》,20(4):111-132。纳加尔,A.L.(1959年)。同时方程中参数的一般k类估计的偏差和矩矩阵。计量经济学:计量经济学学会杂志,第575-595页。纽伊,W.K.(1984)。序列估计器的矩解释方法。《经济学快报》,14(2-3):201-206。纽伊,W.K.(2001)。变量模型中非线性误差的灵活模拟矩估计。《经济学和统计学评论》,83(4):616-627。Oxley,L.和McAleer,M.(1993年)。具有生成回归器的宏观经济模型中的计量经济学问题。《经济调查杂志》,7(1):1-40。帕根,A.(1984)。用生成回归器分析回归中的计量经济学问题。《国际经济评论》,第221-247页。Roodman,D.(2009年)。关于太多乐器主题的注释。牛津经济与统计公报,71(1):135-158。罗斯·K.(1998)。聚类、压缩、分类、回归和相关优化问题的确定性退火。IEEE会议录,86(11):2210-2239。Ryu,J.Y.,Kim,H.U.,和Lee,S.Y.(2018)。深度学习提高了对药物-药物和药物-食物相互作用的预测。美国国家科学院院刊,115(18):E4304-E4311。Schennach,S.M.(2004)。具有测量误差的非线性模型的估计。《计量经济学》,72(1):33-75。Schennach,S.M.(2016)。测量误差文献的最新进展。《经济学年鉴》,8:341-377。谢纳赫,S.M.和胡,Y.(2013)。

使用道具

80
能者818 在职认证  发表于 2022-4-26 14:49:23 |只看作者 |坛友微信交流群
无旁侧信息的经典测量误差模型的非参数识别和半参数估计。《美国统计协会杂志》,108(501):177-186。Scornet,E.,Biau,G.,Vert,J.-P.,等人(2015年)。随机森林的一致性。《统计年鉴》,43(4):1716-1741。Seber,G.A.(2009)。多变量观察,第252卷。约翰·威利父子公司。Sperlich,S.(2009)。关于带预测变量的非参数估计的注记。《经济计量学杂志》,12(2):382-395。Verikas,A.,Gelzinis,A.,和Bacauskiene,M.(2011)。用随机森林挖掘数据:newtests的调查和结果。模式识别,44(2):330-349。王新和林,X.(1998)。广义线性混合测量误差模型中的偏差分析和SIMEX方法。《美国统计协会杂志》,93:249–261。Wolberg,W.H.和Mangasarian,O.L.(1990)。医学诊断的多面模式分离方法应用于乳腺细胞学。美国国家科学院院刊,87(23):9193-9196。伍尔德里奇,J.M.(2002)。横截面和面板数据的计量经济学分析。麻省理工学院出版社,剑桥和伦敦。杨,M.,阿多马维修斯,G.,伯特·陈,G.,和任,Y.(2018)。注意差距:考虑通过数据挖掘产生的变量的测量误差和错误分类。信息系统研究,29(1):4-24。

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-10-5 23:23