人大经济论坛 › 论坛 › 经济学人二区 › 外文文献专区 › 利用数据挖掘变量实现可靠的因果推断：一个随机模型

CDA数据分析研究院

商业数据分析与大数据领航教育品牌



经管云课堂

经管/金融/财会/社科/名师公开课



学术培训

Stata 空间计量 SSCI Python

贵宾：通行论坛特权+数据库权限
+案例库+下载特权 VIP：论坛特权+更多下载次数
+ccerdata数据库+更高阅读权限+……

上一页 1 2 3 4 5 6 78

发帖

楼主: 大多数88

2080 79

[经济学] 利用数据挖掘变量实现可靠的因果推断：一个随机模型 [推广有奖]

71楼

何人来此

发表于 2022-4-26 14:48:24 |只看作者 |坛友微信交流群

我们认为，在这种情况下，回归调整方法的局限性可能归因于这样一个事实，即它只利用测量误差均值和方差的分布信息，基本上忽略了其他分布信息。最后，我们承认，在某些情况下，在生成回归器文献（或一般的计量经济学文献）中看到最近理论发展的替代方法可能比ForestIV获得更好的偏差校正结果。因此，我们相信这是一个潜在的相当有成效的未来研究方向，通过它我们的方法可以得到改进。Meng等人（2016年）没有明确讨论如何调整截距项中的偏差。因此，我们将相同的干扰项报告为有偏回归。定理1理论结果的证明。在假设1-3下，对于随机森林中的任意两棵树，i和j（i6=j），limn→∞EiEjEfCov（bX（j），e（i））=0。证据采用Breiman（2001）的表示法，随着随机森林中树木的数量趋于一致，森林的泛化误差表示为P E（f rest）=limM→∞Ef[bX- 十] 。接下来，我们将两个已知结果重申为引理。引理1。（布莱曼，2001，定理11.2。）森林=EiEjEfCov（E（i），E（j））。引理2。（Scornet等人，2015年，定理1）假设1-2，limn→∞pe（森林）=0。这两个引理共同暗示limn→∞EiEjEfCov（e（i），e（j））=0。它跟在t·哈特林后面→∞EiEjEfCov（e（i），e（j））=0<=> 画→∞埃耶夫科夫e（i）、（bX（j）- 十）= 0<=> 画→∞EiEjEfCov（e（i），bX（j））- 画→∞EiEfCov（e（i），X）=0基于假设3（经典测量误差），limn→∞埃夫科夫（e（i），X）=0。因此，我们有→∞EiEjEfCov（bX（j），e（i））=0。定理2。

使用道具举报

72楼

可人4

发表于 2022-4-26 14:48:30 |只看作者 |坛友微信交流群

随机森林二元分类的错误率随着ejecicorr（|e（i）|，|e（j）|）而降低，其中e（i）和e（j）是树i和树j（i6=j）的预测误差。证据Breiman（2001）证明了随机森林的错误率随着Ejeichcorr（rmg（bX（i）），rmg（bX（j）））i而降低，其中rmg（bX（i））表示树i预测的原始边缘函数。在二元分类下，原始边际函数定义为rmg（bX（i））=i（bX（i）=X）-I（bX（I）6=X），其中I是一个指示符函数，用于检查向量X（I）和X元素，如果封闭关系为真，则取值1，否则取值0。换句话说，I（bX（I）=X）是一个向量，正确的预测用1标记，I（bX（I）6=X）是一个向量，错误的预测用1标记。将1=（1，…，1）表示为1的向量，长度与预测向量相同。显然，我们有I（bX（I）=X）=1- I（bX（I）6=X）和I（bX（I）6=X）=|e（I）|。因此，我们知道Corr（（rmg（bX（i）），rmg（bX（j））=Corr（i（bX（i）=X）-I（bX（I）6=X），I（bX（j）=X）-I（bX（j）6=X））=Corr（1）-2I（bX（i）6=X），1- 2I（bX（j）6=X））=Corr（I（bX（I）6=X），I（bX（j）6=X））=Corr（|e（I）|，|e（j）|）。定理3。我∈ {1，…，M}，Cov（e（i），X）<0。证据对于给定的样本大小为N的情况，我们证明了这个定理。为了简单起见，我们写下基本真值asX={ak}Nk=1，同样地写下树i的预测向量和误差向量asbX（i）={pik}Nk=1，e（i）={eik}Nk=1。假设ak=α和pik=β的数据点的数量是nαβ（α，β∈ {0, 1}). 很明显，n+n+n+n=n，X和e（i）之间的关系b完全描述如下：o存在数据点，其中ak=0，eik=0；o存在ak=0和eik=1的数据点存在ak=1和eik=-1;o 存在ak=1和eik=0的数据点。接下来，写出Cov（e（i），X）=N（NPeikak）-佩克）。请注意，Peikak=-n、佩克=n- n、 andPak=n+n。

使用道具举报

73楼

何人来此

发表于 2022-4-26 14:48:37 |只看作者 |坛友微信交流群

因此，我们有NPeikak-佩克=-（n+n+n+n）n-（n）-n）（n+n）=-nn- 2nn- nn<0，相应地，Cov（e（i），X）<0。定理4。i 6=j∈ {1，…，M}，Cov（e（i），e（j））>0 i f且仅当（p+p）（p+p）+2（p0o）- p） p+2（p1o）- p） p+（p- p）（p- p） >0。证据同样地，对于给定的样本大小为N的情况，我们证明了这个定理。再次，我们写出了树i的基真值asX={ak}Nk=1，并写出了树i的预测向量和误差向量asbX（i）={pik}Nk=1，e（i）={eik}Nk=1。首先，我们在下表中列出了ak、pik、pjk、eik、ejkin的所有可能值组合：akpikpjkCount eikejkAbbr。计数符号0n=n×p00n10n=n×p10n01n=n×p01n11n=n×p11n0n=n×p-1-1n10n=n×p001-1n01n=n×p-100n11n=n×p00nnext，写入Cov（e（i），e（j））=n（NPeikejk-PeikPejk）。注意peikejk=n+n，Peik=（n+n）-（n+n）和pejk=（n+n）-（n+n）。然后，NPeikejk-PeikPejk=（n+···+n）（n+n）-[（n+n）-（n+n）][（n+n）-（n+n）]。n+n）和B=[（n+n）-（n+n）][（n+n）-（n+n）]，我们分别计算这两个量，如下所示。首先，我们重写a=（n+···+n）n+（n+··+n）n=（n+n）（n+n）+（n+n+n）n+（n+n+n）n+（n+n+n）n+（n+n+n）n第二，我们重写b=（nn+nn+nn+n）+（nn+nn+nn+n）- （nn+nn+nn+nn）- （nn+nn+nn+nn）=（nn+nn）- nn- nn）+（n+n+n）n+（n+n+n）n- （n+n+n）n- （n+n+n）我们有NPeikejk-PeikPejk=A-B=（n+n）（n+n）+2（n+n+n）n+2（n+n+n）n+（nn+nn）-nn-nn）=（n+n）（n+n）+2（n+n+n）n+2（n+n+n）n+（n-n）（n）-n）。使用原始计数符号，右侧h和d相当于（n+n）（n+n）+2（n0o）- n） n+2（n1o）- n） n+（n- n）（n）- n）。

使用道具举报

74楼

nandehutu2022

发表于 2022-4-26 14:48:43 |只看作者 |坛友微信交流群

因此，Cov（e（i），e（j））>0<=>N[（N+N）（N+N）+2（n0o）-n） n+2（n1o）-n） n+（n-n）（n）-n） ]>0<=> （p+p）（p+p）+2（p0o）-p） p+2（p1o）- p） p+（p- p）（p- p） >0。我在实践中使用ForestIV在实践中，因为真正的系数不是先验的，所以有一些指导方针来衡量ForestIV在特定有限样本中的有效性是有用的。1.使用保持数据集（如Dtest），研究人员可以在建议的两步套索选择前后，根据经验评估仪器的有效性和强度。2.霍特林测试统计数据也可能是一个有用的信号。与Hotelling TTESComparingBβlabeland ForestIV估算值相关的p值表明，在同等标准下观察其经验差异的可能性。研究人员可以通过调整该测试的显著性水平来确定他们在接受ForestiveEstimates之前需要的证据阈值。3.研究人员还可以检查ForestIV的渐近特性是否尚未“发挥作用”，方法是，当该程序暴露于更多未标记的数据时，检查得出的系数估计中的经验收敛性。如果收敛图表明系数估计尚未稳定，这可能表明ForestIV估计尚未收敛，可能需要更多的u标记数据。最后，为了更好地描述ForestIV的使用情况，我们重申，如果标记数据的大小足够大，以至于仅使用可用的标记数据就可以足够可靠和精确地估计BβLabel，那么首先就不需要挖掘变量。人们应该简单地进行推理和决策。因此，在确定特定推理问题需要“大数据”和机器学习方法时，统计功效分析可能很有用（Ellis，2010）。参考资料：C.C.Aggarwal。

使用道具举报

75楼

何人来此

发表于 2022-4-26 14:48:49 |只看作者 |坛友微信交流群

(2015). 数据挖掘：教科书。斯普林格。Angrist，J.D.和Krueger，A.B.（1995年）。Sp lit——教育回报率的样本工具变量估计。商业与经济统计杂志，13（2）：225-235。Angrist，J.D.和Pischke，J-S.（2008）。基本无害的计量经济学：经验主义者的伴侣。普林斯顿大学出版社。Angwin，J.，Larson，J.，Mattu，S.，和Kirchner，L.（2016）。机器偏差。普罗普利卡，5月23日。Athey，S.和Imbens，G.（2016）。针对异质因果效应的递归划分。美国国家科学院院刊，113（27）：7353-7360。Athey，S.和Imbens，G.W.（2017）。应用计量经济学的现状：因果关系和政策评估。《经济展望杂志》，31（2）：3-32。贝洛尼，A.，陈，D.，切尔诺朱科夫，V.，和汉森，C.（2012）。优化仪器的稀疏模型和方法，并应用于征用权。《计量经济学》，80（6）：2369-2429。S.伯纳德、S.亚当和L.赫特（2012）。动态随机森林。模式识别字母，33（12）：1580-1586。伯纳德，S.，霍特，L。，亚当·S.（2010）。随机森林中强度和相关性的研究。在智能计算国际会议上，第186-191页。斯普林格。布莱克·伯恩，M.和纽马克，D.（1992年）。不可观察的能力、效率工资和行业间工资差异。《经济学季刊》，107（4）：1421-1436。Blaser，R.和Fryzlewicz，P.（2016）。随机旋转组合。机器学习研究杂志，17（1）：126-151。布伦德尔，R.W.和鲍威尔，J.L.（2004）。半参数二元反应模型的内生性。经济研究综述，71（3）：655-679。布莱曼，L.（1996）。装袋预测因子。机器l，24（2）：123-140。布莱曼，L.（2001）。随机森林。机器学习，45（1）：5-32。Buolamwini，J.和Gebru，T.（2018年）。

使用道具举报

76楼

mingdashike22

发表于 2022-4-26 14:48:56 |只看作者 |坛友微信交流群

性别差异：商业性别分类中的交叉准确性差异。公平、问责和透明度会议，第77-91页。Buse，A.（1992年）。工具变量估计的偏差。计量经济学：计量经济学学会杂志，第173-180页。卡罗尔，R.J.，马卡，J.D。，和Ruppert，D.（1999年）。测量误差存在时的非参数回归。Biometrika，86（3）：541。切诺朱科夫，V.，切特韦里科夫，D。，Demirer，M.，Du Flo，E.，Hansen，C.，和Newey，W.K.（2016）。治疗和因果参数的双机器学习。技术报告，cemmap工作文件。康利，T.G.，汉森，C.B.，和罗西，P.E.（2012）。似乎是外生的。《经济学与统计学评论》，94（1）：260-272。库克，J.和圣埃芬斯基，L.（1994年）。参数测量误差模型中的模拟外推估计。《美国统计协会杂志》，89（428）：1314-1328。Denisko，D.和Ho Off man，M.M.（2018年）。随机森林中的分类和相互作用。《国家科学院院刊》，第201800256页。埃贝斯，P.，韦德尔，M.，和伯克霍尔特，U.（2009）。节俭iv替代方案，用于确定内生回归器的参数。应用计量经济学杂志，24（3）：446-468。埃贝斯，P.，韦德尔，M.，伯克霍尔特，U.，和圣埃恩埃曼，T.（2005）。在没有工具变量的情况下，解决并测试回归误差（in）依赖性：有新的证据表明教育对收入的影响。定量营销与经济学，3（4）：365–392。Ellis，P.D.（2010）。影响大小的基本指南：统计能力、元分析和研究结果的解释。剑桥大学出版社。范aee-T，H.和伽马，J.（2014）。结合集合探测器和背景知识的事件标记。

使用道具举报

77楼

mingdashike22

发表于 2022-4-26 14:49:02 |只看作者 |坛友微信交流群

《艺术智能进展》，2（2-3）：113-127。Fern’andez Delgado，M.，Cernadas，E.，Barro，S.，和Amorim，D.（2014）。我们是否需要数百名分类师来解决现实世界的分类问题？机器学习研究杂志，15（1）：3133-3181。方g，C.和泰勒，M.（2017）。使用分类产生的协变量进行回归。工作文件。Freund，Y.，Schapire，R.E.，等人（1996年）。用一种新的boosting算法进行实验。Icml第96卷第148-156页。意大利巴里。格布鲁，T.，克劳斯，J.，王，Y.，陈，D.，邓，J.，艾登，E.L.，费飞，L.（2017）。使用深度学习和谷歌街景来估计美国各地社区的人口构成。美国国家科学院院刊，第201700035页。Giot，R.和Cherrier，R.（2014）。提前一天预测bikeshare系统的使用情况。2014年IEEE车辆和运输系统计算智能研讨会，第22-29页。IEEE。伊利诺伊州古德费罗、纽约州本吉奥和A.库维尔（2016年）。深度学习。麻省理工学院出版社。格雷斯，凯西。Y.（2016）。具有测量误差或错误分类的统计分析。斯普林格。格林·W·H.（2003）。经济计量分析。培生教育学院。古斯塔夫森，P.（2003）。统计学和流行病学中的测量误差和错误分类：影响和贝叶斯调整。华润出版社。小哈里森·D.和鲁宾菲尔德·D·L.（1978）。享乐的房价和对清洁空气的需求。环境经济和管理杂志，5（1）：81-102。豪斯曼，J.（2001）。计量经济分析中的变量测量错误：来自右翼的问题和来自左翼的问题。《经济展望杂志》，15（4）：57-67。Hausman，J.，Newey，W.，I chimura，H.，和Powell，J.（1991）。多项式回归模型中的测量误差。计量经济学杂志，50（3）：273-295。豪斯曼，J.A.，纽伊，W.K.，和鲍威尔，J.L.（1995）。

使用道具举报

78楼

可人4

发表于 2022-4-26 14:49:08 |只看作者 |坛友微信交流群

某些曲线变量估计中的非线性误差。计量经济学杂志，65（1）：205-233。Jelveh，Z.，Kogut，B.，和Naidu，S.（2015）。经济学中的政治语言。工作文件。K–uchenho Off，H.，Lederer，W.，和Lesa Offre，E.（2007年）。误分类SIMEX的总方差估计。计算统计和数据分析，51（12）：6197-6211。K–uchenho Off，H.，Mwalili，S.M.，和Lesa Offre，E.（2006年）。处理回归错误分类的一般方法：错误分类SIMEX。B计量学，62（1）：85-96。Lewbel，A.（2019年）。使用工具变量来估计具有错误测量回归系数的模型。工作纸。李婷（2002）。变量模型中非线性误差的稳健一致估计。计量经济学杂志，110（1）：1-26。林泰山，陆，W-Y.，安德西，Y-S.（2000）。对33种新旧分类算法的预测精度、复杂性和训练时间进行比较。机器学习，40（3）：203–228。Loken，E.和Gelman，A.（2017）。测量误差和复制危机。《科学》，355（6325）：584-585。E.曼曼、C.罗特和M.席恩勒（2016年）。生成协变量的半参数估计。计量经济学理论，32（5）：1140-1177。Mammen，E.，Rothe，C.，Schienle，M.，等人（2012年）。具有非参数生成协变量的非参数回归。《统计年鉴》，40（2）：1132-1170。麦克福兰德三世，E.，索曼奇，S。，和Neill，D.B.（2018年）。通过异常模式检测，在随机实验中有效发现异质性治疗效果。arXiv预印本arXiv:1803.09159。Meng，L.，Wu，B.，和Zh an，Z.（2016）。带估计回归器的线性回归：经济发展综合指标的应用。实证经济学，50（2）：299-316。莫罗，S。，Cortez，P.和Rita，P.（2014年）。

使用道具举报

79楼

mingdashike22

发表于 2022-4-26 14:49:16 |只看作者 |坛友微信交流群

预测银行电话营销成功与否的数据驱动方法。决策支持系统，62:22-31。墨菲，K。M.和托佩尔，R.H。(1985). 两步计量经济模型中的估计和推断。商业和经济统计杂志，20（1）：88-97。默里，M.P.（2006）。避免使用失效的仪器，应对薄弱的仪器。《经济展望杂志》，20（4）：111-132。纳加尔，A.L.（1959年）。同时方程中参数的一般k类估计的偏差和矩矩阵。计量经济学：计量经济学学会杂志，第575-595页。纽伊，W.K.（1984）。序列估计器的矩解释方法。《经济学快报》，14（2-3）：201-206。纽伊，W.K.（2001）。变量模型中非线性误差的灵活模拟矩估计。《经济学和统计学评论》，83（4）：616-627。Oxley，L.和McAleer，M.（1993年）。具有生成回归器的宏观经济模型中的计量经济学问题。《经济调查杂志》，7（1）：1-40。帕根，A.（1984）。用生成回归器分析回归中的计量经济学问题。《国际经济评论》，第221-247页。Roodman，D.（2009年）。关于太多乐器主题的注释。牛津经济与统计公报，71（1）：135-158。罗斯·K.（1998）。聚类、压缩、分类、回归和相关优化问题的确定性退火。IEEE会议录，86（11）：2210-2239。Ryu，J.Y.，Kim，H.U.，和Lee，S.Y.（2018）。深度学习提高了对药物-药物和药物-食物相互作用的预测。美国国家科学院院刊，115（18）：E4304-E4311。Schennach，S.M.（2004）。具有测量误差的非线性模型的估计。《计量经济学》，72（1）：33-75。Schennach，S.M.（2016）。测量误差文献的最新进展。《经济学年鉴》，8:341-377。谢纳赫，S.M.和胡，Y.（2013）。

使用道具举报

80楼

能者818

发表于 2022-4-26 14:49:23 |只看作者 |坛友微信交流群

无旁侧信息的经典测量误差模型的非参数识别和半参数估计。《美国统计协会杂志》，108（501）：177-186。Scornet，E.，Biau，G.，Vert，J.-P.，等人（2015年）。随机森林的一致性。《统计年鉴》，43（4）：1716-1741。Seber，G.A.（2009）。多变量观察，第252卷。约翰·威利父子公司。Sperlich，S.（2009）。关于带预测变量的非参数估计的注记。《经济计量学杂志》，12（2）：382-395。Verikas，A.，Gelzinis，A.，和Bacauskiene，M.（2011）。用随机森林挖掘数据：newtests的调查和结果。模式识别，44（2）：330-349。王新和林，X.（1998）。广义线性混合测量误差模型中的偏差分析和SIMEX方法。《美国统计协会杂志》，93:249–261。Wolberg，W.H.和Mangasarian，O.L.（1990）。医学诊断的多面模式分离方法应用于乳腺细胞学。美国国家科学院院刊，87（23）：9193-9196。伍尔德里奇，J.M.（2002）。横截面和面板数据的计量经济学分析。麻省理工学院出版社，剑桥和伦敦。杨，M.，阿多马维修斯，G.，伯特·陈，G.，和任，Y.（2018）。注意差距：考虑通过数据挖掘产生的变量的测量误差和错误分类。信息系统研究，29（1）：4-24。

使用道具举报