楼主: 能者818
958 16

[经济学] 统计算法与机器学习算法的比较 [推广有奖]

11
可人4 在职认证  发表于 2022-4-24 17:31:14
它有助于说明回归树如何使用决策树来快速拆分变量,以便捕获数据中的非线性模式。图2:随机森林回归的变量重要性排序图2描述了影响其预测的最重要变量的相对重要性。它与OLS系数没有直接的可比性,但它确实提供了对哪些变量最能影响预测的洞察,并且以这种方式比一些机器学习方法更具解释性。与训练数据相比,随机森林模型对训练数据的准确度得分为.96,与OLS的R平方相当。训练数据的均方误差为=0.0,theRMSE为0.02.5交叉验证结果在本节中,我们将研究当估计(训练)模型应用于一组未用于训练模型的观测值时,两个模型的表现。这种做法通常用于评估是否发生了过度匹配,即模型过度调整到训练数据集,并且在推广到其他数据时表现不佳。为此,我们使用了1/3的原始数据,这些数据被分割成一个测试数据集。它不与训练数据共享观察结果。我们检查的第一个结果是,当我们根据这些新数据预测模型时,比较残差的分布,并将预测值与每平方英尺租金的观察值进行比较。这些结果如图3所示。

12
kedemingshi 在职认证  发表于 2022-4-24 17:31:20
虽然两个图都表明模型中几乎没有偏差,但randomforest图清楚地表明残差的方差要低得多,表明与OLS预测相比,样本外预测集更优越。(a) 普通最小二乘法(b)随机森林图3:OLS和随机森林的残差分布图4显示了两个模型的预测值与测试数据集的观察值的对比。同样明显的是,随机森林模型比OLS估计的模型预测更适合测试数据。随机森林图的预测接近完美曲线的45度线,在观测数据的较低或较高值时,没有显示出偏离的迹象。相比之下,OLS预测显示出一些伪影,在每平方英尺观测租金的低范围内,点云被过度预测,而在每平方英尺观测租金的高范围内,OLS预测似乎向下,朝着预测不足的方向发展。OLS预测中误差的较高分散性也很明显。(a) 普通最小二乘法(b)随机森林图4:OLS和随机森林的预测值与观察值图5通过绘制每个模型的残差与该模型对测试数据集的预测值来显示结果。该图可用于在预测范围内检测误差中的非线性模式。在这种情况下,图4中出现的模式仍然很明显,OLS图中有相当一部分点云以较高的预测值扩散并向下漂移。

13
mingdashike22 在职认证  发表于 2022-4-24 17:31:26
相比之下,残差与预测值的模式更为紧密,在随机森林结果中没有显示出可比的漂移。(a) 普通最小二乘法(b)随机森林图5:OLS和随机森林的残差与预测值。我们对测试数据集分析的残差的最终评估是绘制两个模型残差的空间模式,以检查它们的空间聚类。在GueRe 6中,我们看到在旧金山和硅谷地区的核心和伯克利和南部海湾的部分地区存在着过度预测(BRUE),这可能是在OLS模型中我们无法捕捉到的变量和非线性。相比之下,随机森林回归的残差图似乎是随机的,缺乏明显的低预测或高预测聚类。(a) 普通最小二乘法(b)随机森林图6:OLS和随机森林的残差空间模式6结论进行住房价格和租金特征回归建模最广泛使用的方法,使用普通最小二乘法估计的多元线性回归,在估计模型系数的可解释性方面明显优于随机森林回归。如果应用的目的是评估特定焦点变量的影响,如享乐回归文献中经常出现的情况,那么与随机森林回归相比,OLS较低的预测质量是一个适当的权衡。然而,在其他应用中,预测精度比解释特定系数的能力更重要,在这种情况下,机器学习方法的预测精度比OLS估计的模型更高,值得考虑。

14
何人来此 在职认证  发表于 2022-4-24 17:31:32
随机森林算法的设计方法克服了普通最小二乘回归[3]的一些局限性:1)它被设计为处理因变量和自变量之间的非线性关系;2) 它对缩放或翻译不变性,3)对无关或高度相关的变量具有鲁棒性。我们对享乐模型的预期应用是将预测租金用作结构完整的土地利用和交通模型系统的初始值。享乐回归模型是一种按结构简化的模型,在市场处于均衡状态的假设下,提供了许多独立变量对房价或租金的部分影响的估计。然而,这可能是结构模型的一个合适起点,在结构模型中,我们使用离散选择模型预测每个位置的需求,预测租金在右侧,并通过将每个位置所有选择者的预测位置概率相加来评估每个位置的总需求,然后反复调整租金,以考虑供求失衡,从而反映住房市场的短期失衡。租金预测的第二个相关用途是作为房地产供应模型的输入,该模型使用预测财务模型来预测场地的开发可行性或可行性,考虑到开发场地的成本和建设项目的预期收入。收入预期在很大程度上取决于预测租金,如果这些预测很差,那么供应模型的质量就会受到负面影响。在这种情况下,提高享乐模型的预测准确性主要是因为需要改进需求和供应模型的输入,而不是因为需要使用它来评估特定的系数并对其进行预测。

15
nandehutu2022 在职认证  发表于 2022-4-24 17:31:39
这种方法将享乐回归转化为需求和供给结构微观模拟中的支持角色。在本文概述的用例等环境中,以及在预测的准确性比单个系数的可解释性更重要的大多数其他应用中,机器学习方法(如randomforest和密切相关的梯度增强算法)似乎在改进模型方面具有重大价值。最后,我们重申了我们的主要实质性发现:除了出租单元的平方英尺作为唯一的单元或建筑特定属性外,仅使用少量的本地可达性变量,本研究中使用的两种方法都能够在样本外预测中以高精度预测每平方英尺的租金。当地密度、社会构成和工作可及性是强有力的解释因素,7作者贡献作者对本文的贡献如下:研究概念和设计:保罗·沃德尔;使用OLS进行模型开发:Paul Waddell;使用机器学习的模型开发:Arezoo BesharatiZadeh;结果分析和解释:保罗·瓦德尔和阿雷祖·贝沙拉蒂·扎德;草稿准备:保罗·沃德尔。所有作者都审查了结果,并批准了手稿的最终版本。参考文献[1]波音公司。OSMnx:获取、构建、分析和可视化complexstreet网络的新方法。计算机、环境和城市系统,65:126–139,2017年9月9日。[2] Geo Off Boeing和Paul Waddell。对美国租赁住房市场的新见解:网络抓取和分析Craigslist租赁列表。《规划教育与研究杂志》,37(4):457–476,2017年12月。[3] 利奥·布雷曼。随机森林。机器学习,45(1):5-322001。[4] 利奥·布雷曼,J.H.(杰罗姆·H.)弗里德曼,理查德·A。

16
kedemingshi 在职认证  发表于 2022-4-24 17:31:46
奥尔申和查尔斯·J·斯通。分类和退化树。查普曼和霍尔/华润。[5] 马尔扬·切赫、米兰·基里巴尔达、安卡·利塞克和布兰尼斯拉夫·巴贾特。评估随机森林与多元回归在预测公寓价格方面的表现。ISPRS国际地理信息杂志,7(5):168,2018年5月5日。[6] 弗莱彻·福蒂、保罗·沃德尔和丹尼斯·卢森。无障碍性的通用计算框架:从步行到大都市规模。在第四届TRB旅游建模创新会议记录中。交通研究委员会,2012年。[7] 罗伯特·吉林厄姆和大卫·隆德。确定租金的享乐方法。《美国统计协会商业和经济统计部分会议记录》,第69卷,184-192页,1970年。[8] 威廉·H·格林。经济计量分析。皮尔逊教育,第五版,2002年。[9] 兹维·格里奇斯。汽车享乐价格指数:质量变化的计量经济学。《联邦政府价格统计》,第173-196页。NBER,1961年。[10] 乌尔里克·格朗平。回归中的变量重要性评估:线性回归与随机森林。《美国统计学家》,63(4):308-3192009。[11] 开尔文·J·兰开斯特。消费者理论的新方法。政治经济学杂志,74(2):132-157,1966年4月。[12] 法比安·佩德雷戈萨、加涅尔·瓦罗夸克斯、亚历山大·格拉姆福特、文森特·米歇尔、伯特朗·蒂里安、奥利维尔·格里塞尔、马修·布隆德尔、彼得·普雷滕霍夫、罗恩·韦斯、文森特·杜堡、杰克·范德普拉斯、亚历山大·雷帕索斯、大卫·库尔纳佩、马蒂厄·布鲁彻、马蒂厄·佩罗和爱德华·杜切斯内。Scikit learn:Python中的机器学习。机器学习研究杂志,12(10月):2825-2830,2011年。[13] 是罗森。享乐价格与隐性市场:纯粹竞争中的产品差异。《政治经济学杂志》,82(1):34-null,1974年。[14] 船长西博尔德和约瑟夫·珀克泰德。

17
大多数88 在职认证  发表于 2022-4-24 17:31:52
Statsmodels:使用python进行经济计量和统计建模。《第九届Python In Science会议记录》,第57卷,第61页。SciPy society Austin,2010年。[15] 马克·R·西格尔。机器学习基准和随机森林回归。技术报告,2003年。[16] Xin Ye、Karthik Konduri、Ram Pendyala、Bhargava Sana和Paul Waddell。在合成人口的生成过程中,匹配家庭和个人属性分布的方法。国家研究委员会,2009年。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-31 08:44