楼主: 能者818
956 16

[经济学] 统计算法与机器学习算法的比较 [推广有奖]

  • 0关注
  • 6粉丝

会员

学术权威

78%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
39.6240
学术水平
0 点
热心指数
1 点
信用等级
0 点
经验
24699 点
帖子
4115
精华
0
在线时间
1 小时
注册时间
2022-2-24
最后登录
2024-12-24

楼主
能者818 在职认证  发表于 2022-4-24 17:30:08 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《A Comparison of Statistical and Machine Learning Algorithms for
  Predicting Rents in the San Francisco Bay Area》
---
作者:
Paul Waddell and Arezoo Besharati-Zadeh
---
最新提交年份:
2020
---
分类信息:

一级分类:Economics        经济学
二级分类:Econometrics        计量经济学
分类描述:Econometric Theory, Micro-Econometrics, Macro-Econometrics, Empirical Content of Economic Relations discovered via New Methods, Methodological Aspects of the Application of Statistical Inference to Economic Data.
计量经济学理论,微观计量经济学,宏观计量经济学,通过新方法发现的经济关系的实证内容,统计推论应用于经济数据的方法论方面。
--
一级分类:Computer Science        计算机科学
二级分类:Machine Learning        机器学习
分类描述:Papers on all aspects of machine learning research (supervised, unsupervised, reinforcement learning, bandit problems, and so on) including also robustness, explanation, fairness, and methodology. cs.LG is also an appropriate primary category for applications of machine learning methods.
关于机器学习研究的所有方面的论文(有监督的,无监督的,强化学习,强盗问题,等等),包括健壮性,解释性,公平性和方法论。对于机器学习方法的应用,CS.LG也是一个合适的主要类别。
--

---
英文摘要:
  Urban transportation and land use models have used theory and statistical modeling methods to develop model systems that are useful in planning applications. Machine learning methods have been considered too \'black box\', lacking interpretability, and their use has been limited within the land use and transportation modeling literature. We present a use case in which predictive accuracy is of primary importance, and compare the use of random forest regression to multiple regression using ordinary least squares, to predict rents per square foot in the San Francisco Bay Area using a large volume of rental listings scraped from the Craigslist website. We find that we are able to obtain useful predictions from both models using almost exclusively local accessibility variables, though the predictive accuracy of the random forest model is substantially higher.
---
PDF下载:
--> A_Comparison_of_Statistical_and_Machine_Learning_Algorithms_for_Predicting_Rents.pdf (5.61 MB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:机器学习算法 学习算法 机器学习 econometrics Applications

沙发
何人来此 在职认证  发表于 2022-4-24 17:30:18
预测旧金山湾租金的统计和机器学习算法的比较Waddellwaddell@berkeley.eduArezooBesharati Zadeharezoo。bz@berkeley.eduDecember2020年1月1日抽象的城市交通和土地利用模型已经使用了理论和统计建模方法来开发在规划应用中有用的模型系统。机器学习方法也被视为“黑匣子”,缺乏可解释性,其使用在土地利用和交通建模文献中受到限制。我们提出了一个用例预测精度是最重要的,并比较使用随机森林回归到多元回归使用普通最小二乘法,预测租金每平方英尺在旧金山湾地区使用大量出租出租从Craigslist网站。我们发现,尽管随机森林模型的预测精度要高得多,但我们几乎完全使用局部可达性变量,能够从这两个模型中获得有用的预测。关键词:建模、特征、机器学习、随机森林1简介城市交通和土地利用模型的发展传统上广泛依赖领域知识、理论和统计方法,如多元回归和离散选择模型。尽管机器学习方法已经存在多年,并被证明比多元回归等统计模型产生更准确的预测,但它们在城市建模文献中并未被广泛采用。其中一个主要原因是,在使用统计模型的研究中(无论是频点模型还是贝叶斯模型),应用程序的动机通常是需要能够在领域理论的背景下解释模型的系数及其符号和意义。

藤椅
mingdashike22 在职认证  发表于 2022-4-24 17:30:24
相比之下,习惯于统计建模范式的研究人员一直对使用神经网络等机器学习方法开发的模型缺乏可解释性感到担忧。此外,为规划或政策应用开发的模型通常是出于对不同政策投入的潜在影响进行反事实分析的需要,以便对政策进行事前评估。这需要一定程度的因果推理,或者至少需要一个具有理论结构的模型,研究者可以认为该模型适合于反事实分析。相比之下,机器学习方法再次强调最大化预测准确性,而不是针对政策或规划的反事实分析。在本文中,我们研究了一个适合使用机器学习方法的用例,因为预测主要用于引导结构模型。该应用程序是租金的特征建模,被用作一个模型的起始值,该模型是对住房需求和供应的结构性微观模拟,并包含一个短期市场清算组件,该组件调整价格,直到住房需求清空所有子市场——这意味着预测需求小于或等于所有子市场的可用供应。为此,获得尽可能准确的租金或价格初始预测是很有价值的,因为该预测值将影响需求预测,而价格或租金预测不佳将产生较低质量的需求预测。如果需求模型的估计参数在住房价格和便利设施方面足够稳健,那么人们可能希望市场清算算法能够调整价格,以更准确地反映真实需求。

板凳
可人4 在职认证  发表于 2022-4-24 17:30:30
但在价格预测不佳的情况下,人们可能不太相信需求模型的估计参数具有足够的鲁棒性。更准确的价格和租金预测应有助于实现需求模型的稳健估计结果,以及市场清算算法的更高效收敛。我们开发了每平方英尺租金的特征回归模型,首先使用普通最小二乘回归[8],然后使用随机森林回归,这是机器学习中的一种决策树方法[4,3]。关于住房价格特征建模的文献非常丰富,至少可以追溯到Griliches在汽车市场[9]上的工作,以及对住房租金建模的早期应用[7]。享乐建模的理论公式通常由Rosen[13]提出,并以Encaster的消费者需求理论为基础[11]。以前也曾使用随机森林回归对房价和租金进行过检查,并与多元回归进行了比较,例如在斯洛文尼亚卢布尔雅那[5],还可以对多元回归和随机森林回归进行更广泛的比较,以评估变量的重要性[10]。我们的论文有助于在土地利用和交通建模的背景下,利用随机森林等机器学习方法分析房价和租金的新兴文献。使用自愿地理信息FrimaRigsLead租赁列表也是很新颖的,利用先前的工作来清理出租房租(2)。2个案例研究和数据。旧金山湾的这一领域,人口超过七百万,涵盖了九个县的一百多个市镇。

报纸
何人来此 在职认证  发表于 2022-4-24 17:30:37
它是硅谷的所在地,在一定程度上得益于其强大的技术部门,它是美国最昂贵的大都市住宅市场。表1:剔除异常值后的变量统计结果变量计数平均标准最小值25%50%75%maxrent sqft 363010.0 3.0 1.0 0 0.0 2.0 3.0 4.0 11.0平方英尺每单位363010.0 994.0 430.0 212.0 710.0 904.0 1150.0 3600.0单位500步行363010.0 664.0 0 0 0 193.0 437.0 876.0 2317.0平方英尺单位500步行363010.0.0 1455.0 712.0.0 1050.0.0.0 3600.00 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 7 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 3010.0 165285.0 117970.0 0.00 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 77819.0.0 37199.0 93097.0175019.0 282688.02.1数据来源在本研究中,我们收集了2016年11月至2018年7月的Craigslist租赁清单,并对数据进行了过滤和清理,采用了[2]中使用的方法。数据收集和清理的结果产生了超过35万份租赁清单,其中包括挂牌日期、位置(纬度、经度)、租金、面积、卧室数量和浴室数量等信息。

地板
nandehutu2022 在职认证  发表于 2022-4-24 17:30:43
由于该项目的目标是生成一个租赁模型,该模型可用于在建筑层面对湾区房地产市场进行综合微观模拟,因此我们仅使用了房源中的位置、租金和平方英尺信息。为了增强列表属性,我们开发了一系列位置属性,并将它们与列表数据相关联。我们使用代表步行网络的街道网络和包含三级街道和高容量道路的驾驶网络来测量可达性,使用OSMNX库[1]来创建和清理网络,使用Pandana库[6]来计算局部可达性测量。我们使用Synthpop(一个改编自PopGen[16]的文库)开发了一个合成群体。从大都会交通委员会获得了9县湾区的地块、建筑和地址就业数据。我们在步行和驾车网络上计算了一系列本地化的可达性度量,以提供本地化的和更具区域性的上下文度量。每个清单都被分配到两个网络上最靠近的节点,每个地块和建筑都被类似地分配到两个网络上最近的节点。局部测量通常在500米范围内作为网络距离计算,或者作为简单的总和,或者作为感兴趣变量的平均值。2.2变量从建筑物数据库中,我们计算了包含住宅单元的建筑物的每个住宅单元的平均住宅平方英尺。我们使用了综合人口中家庭的以下属性:家庭收入、家庭规模、户主年龄、是否有子女、户主种族,以及户主是否为西班牙裔的指标。

7
mingdashike22 在职认证  发表于 2022-4-24 17:30:49
我们还使用了按位置划分的就业数据,计算了500米、1500米、10公里和25公里范围内的就业机会,所有这些都是在网络上测量的距离,其中3公里或以下的距离是在步行网络上测量的,而以上3公里的距离是在具有三级街道或更高街道的驾驶网络上测量的。3.方法3。1数据预处理在我们的数据的训练子样本上估计模型之前,我们检查了数据,以确定数据中可能对模型质量产生不利影响的潜在问题。特别是,众所周知,异常值会影响普通最小二乘回归中的模型参数,因此我们使用Pandas clipfunction对所有可访问性变量的第99个百分位以上的值进行重新编码,以减少它们对模型的影响。我们还检查了变量的分布,并使用日志转换对其进行规范化。大多数在转化之前都有明显的偏斜。为了本文的目的,我们没有进行进一步的数据清理,以简化论述,并将重点放在本文的主要目标上,比较两种非常不同的预测租金的方法。3.2具有普通最小二乘法的特征回归我们使用普通最小二乘法(OLS)估计的特征价格模型将误差平方和最小化,表示为Y=f(Sβ,Nγ)+, 其中Y是我们租赁清单中每平方英尺租金的向量,S是结构特征的向量,N是围绕每个租赁清单的邻里和可访问性特征的向量。这可以定义为线性模型Y=Xβ+, 具有假设为独立且相同分布(iid)。利用这个假设来研究, 我们可以通过计算^β=(XTX)来使用OLS估计β参数-1XTY。

8
能者818 在职认证  发表于 2022-4-24 17:30:55
我们使用StatsModelsPython库[14]计算模型估计和预测,以进行模型评估。3.3随机森林的特征回归Breiman[3]将随机森林开发为一种集成分类和回归方法,由于其强大的预测能力和最低的调整要求,引起了人们极大的兴趣。我们在这里用[15]的论述总结了这种方法。随机森林是树的预测器sh(x;θk),k=1。。。,其中,xi是长度为p的输入向量,随机向量x和θkare独立且同分布(iid)。我们将数据分为训练子样本和测试子样本,并从训练数据中提取(X,Y)的联合分布。随机森林回归预测是集合h(x)=(1/K)PKk=1h(x;θK)的平均值。我们使用Scikit Learnlibrary[12]在数据上训练随机森林模型。4训练样本的模型估计在本节中,我们展示了使用普通最小二乘法估计多元回归模型和训练随机森林回归的结果。机器学习中使用的标准实践之一是将观察到的数据分割成训练和测试样本,并仅使用训练样本来训练模型。

9
kedemingshi 在职认证  发表于 2022-4-24 17:31:01
为了保持一致性,并采用有价值的样本外验证实践,我们对OLS回归使用了与训练随机森林回归相同的方法:我们分割观测数据,使用三分之二的数据进行估计(训练),并分离三分之一的数据用于样本外预测和交叉验证。4.1普通最小二乘法我们使用24.2万份租赁清单的培训样本,根据2016年11月至2018年7月在旧金山地区收集的Craigslist租赁清单数据,估算每平方英尺租金的特征模型。正如文献中常见的那样,我们对因变量进行了对数变换,并对所有解释变量进行了alsolog变换。表2:OLS估计结果考虑到除可达性变量外,关于单元的唯一信息是平方英尺,估计模型似乎很好地拟合了培训数据。即使属性数量有限,该模型的调整R平方也为0.63。均方误差=0.45,theRMSE为0.67。关键变量有正确的符号,并且非常重要。为了说明清楚,我们不会重复所有变量都经过对数变换,这也有助于将系数直接解释为弹性,解释变量的1%变化与每平方英尺租金的百分比变化相关,如其估计系数所示。请记住,因变量表示为每平方英尺的月租金,单位面积(以平方英尺为单位)与每平方英尺的租金呈负相关,这与面积增加时边际效用递减一致。

10
何人来此 在职认证  发表于 2022-4-24 17:31:08
1/2公里范围内的住房密度与每平方英尺的租金呈正相关,1/2公里范围内的单位面积与每平方英尺的租金呈负相关。1/2公里内收入在15万美元以上的家庭数量、单人家庭数量以及65岁以上户主的家庭数量都与每平方英尺租金呈正相关。另一方面,1/2公里以内有孩子的家庭数量与每平方英尺的租金呈负相关。1/2公里、1.5公里、10公里和25公里范围内的工作都与每平方英尺更高的租金有关,随着距离阈值的增加,其重要性和弹性越来越大。最后,10公里以内的住户中,将自己的种族识别为黑人、西班牙裔或亚裔的人数与每平方英尺的租金呈负相关。4.2随机森林图1:回归树随机森林集合中的一棵树我们转到随机森林模型旁边,使用OLS回归中使用的相同变量,在相同的训练数据集上检查其训练结果。随机森林训练的结果与OLS估计的结果非常不同,因为基础算法从根本上是不同的。Randomforest利用回归树,并对一组回归树进行平均来进行预测。树木的深度和为生成不同树木而抽取的样本数量由研究人员控制,并提供了一种方法来调整模型在多大程度上权衡偏差和方差,以避免过度拟合。图1显示了训练数据集上随机森林生成的回归树集合中的一棵回归树。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-31 01:10