楼主: mingdashike22
2031 41

[经济学] 天气因素对机器学习迁移意向的影响 [推广有奖]

11
kedemingshi 在职认证  发表于 2022-4-26 11:29:18
天气冲击涉及不同的SPEI时间尺度和采访日期前不同的滞后时间长度(采访日期后超过4年)(Q5)问题1:哪种基于树的ML算法表现更好,即得分更高问题2:天气(即干旱)是否影响移动意图问题3:我们可以为这六个国家推广一个模型,还是需要一个特定国家的模型问题4:哪些特征会影响移动意图问题5:SPEI指数或天气月滞后是否会影响移动意图,如果是,哪些SPEI或LAG重要?X除非必要,否则不区分气候变量和控制变量,即y=f(X)而不是f(C,X)。3方法学方法本节重点介绍我们研究的四个方法学阶段的关键概念:(i)数据准备,(ii)模型实施,(iii)模型性能评估,以及(iv)模型输出的解释。3.1术语我们首先回顾社会科学家和机器学习者使用的术语。在本节中,我们将在社会科学中的概念命名和ML中使用的概念命名之间建立联系(参见附录中的表C.1)。在回归中,模型是估计的,而在ML中,模型是经过训练的[]。用于估计参数的样本(样本中)有关更多详细信息,请参见附录A和Provost and Fawcett[28]。预印本——12月8日,2.5专业人士(2.5专业人士(2.5专业人士)2.5专业人士(2.5专业人士)2.5专业人士(2.5专业人士)2.5专业人士(3.5专业人士)3.5专业人士(1.5专业人士(1.5专业人士)1.5专业人士(4.5专业人士)4<4.5专业人士(4.5专业人士)1.5专业人士(1)2.5专业人士(2.5专业人士)2.5专业人士(2.5专业人士)2.5专业人士(2)2.5专业人士(2)2.5专业人士)2.5专业人士(2)2)2.5)2.5专业人士(2)2)2.5专业人士(2)4)2)2)2.5专业人士(2)4)4>=2.2.5专业人士(2)4)4)2)4)4>=2.5专业人士(2.5)4)4)4)4 52 342%是72 1154%是251%是7 311%是图2:具有特征的决策树参与布基纳法索的国际搬迁计划。来自训练场。

12
kedemingshi 在职认证  发表于 2022-4-26 11:29:24
通过学习过程,这两类样本确保了模型的鲁棒性和抗噪性。模型。R平方是一种统计指标,代表因变量中可从自变量预测的方差比例,也称为确定系数。当R平方值为1时,它正确地显示了这一点。它反映了模型预测(或分类)未知向量类的能力,因为精度通常是在未用于优化模型的数据集上测量的。严格来说,这些指标是不可比的。例如,或观察。我们的方法是一种监督学习方法,因为预测/特征和输出都是可以观察到的。对问题进行分类的另一种方法是回归和分类。当输出是数值的和连续的时,它被称为回归。然而,当输出为分类或二进制时,这是一个分类问题。基于研究问题和我们拥有的数据集,我们解决了一个监督学习分类问题。在本文的剩余部分中,我们主要使用基于ML的术语。附录A介绍了更多信息。3.2数据预处理可能存在的规模/类型相关问题。许多ML算法只支持数值变量,通常是为了实现效率。给定一个包含多个分类变量的数据集(例如,回答为是/否的调查问题),我们使用一个热编码方法将分类变量转换为数字变量。离散化通常也用于避免浮点数的过度敏感性,我们将其用于SPEI干旱指数值。第4节详细介绍了我们如何构建和准备数据集。3.3模型实现:基于树的方法解决分类问题,并自动捕获非线性[]。

13
何人来此 在职认证  发表于 2022-4-26 11:29:30
因此,基于树的算法越来越多地用于应用科学[2,3]。决策树方法由近似学习函数和融合决策树组成。图2是一个可能不准确的示例[]。因此,还提出了其他几种基于树的方法。Random Forest(RF)[]是一个表示分类数据的虚拟变量。预印本-2020年12月8日极端梯度增强(XGB)[]是广泛使用的方法。对于RF和XGB,基本思想是组合多个决策树进行预测。然后,使用多棵树进行的预测可以更加准确,从而适当地概括数据。我们使用贝叶斯超参数优化(BHO)[]来选择合适的调整参数。附录A。2包括有关术语的更多信息。3.4绩效评估和实际结果(y)。通过这种比较,在ML中,使用了几个指标来评估模型。这是最大似然法优于参数估计的一个优点,参数估计通常依赖于数据生成过程中的假设,以确保一致性[27]。在本文中,我们测量了准确度、精密度、召回率和ROC(受试者操作特征)曲线下的面积[,]。准确度是正确预测的观测值与总观测值的比率。这是安乃近。它衡量的是模型得到正确预测的总数。但应该谨慎使用,因为,例如,如果一个模型在大多数人没有疾病的环境中显示出高精度,那么该模型的精度代表正确预测的阳性观察值与总预测阳性观察值的比率。它评估模型在预测正面观察时的精确程度,在有许多观察时非常有用。

14
nandehutu2022 在职认证  发表于 2022-4-26 11:29:36
它评估了正确识别的实际阳性数量,并在存在许多假阴性(例如欺诈检测)时有用。然而,拥有一个模型的高准确度(或召回率、精确度)并不意味着它是好的。对于不同的问题,使用适当的度量并概述所有度量是至关重要的。AUC代表模型的整体性能,而不考虑任何分类阈值,例如,0.5到分离>0.5≤ 0.5更好的性能)。附录A.3和图A.5包含了有关术语的更多信息。3.5输出解释:特征重要性和部分相关图(PDP)用于估算方程式Y=f(X)的特征X很少具有同等相关性。通常,只有一小部分特征是相关的。因此,在训练模型后,使用相对特征重要性(RFI)方法来确定最相关的特征。它包括计算每个特征对预测的贡献[11]。RFI已变得广泛,因此被用于其他ML方法。为了了解这些重要特征对结果的影响方向,部分依赖图说明了影响[,第14章]。它是一个原始平均值,用来描述一组选定特征的效果。当Xi=xijj时,计算xik{xi1,xi2,···,xik}最方便的方法是∈ [1,k]。附录A.4包括更多细节。4数据准备在本节中,我们描述了本研究中使用的数据源及其预处理。该数据集包括基于盖洛普世界民意调查(GWP)[]的移民意向个人调查数据(第4.1节,图3)和基于2009年至2015年六个西非国家SPEI(标准化降水蒸散指数)[]的天气冲击数据(第4.2节,图5)。

15
nandehutu2022 在职认证  发表于 2022-4-26 11:29:43
这两个数据集由受访月份和基于一个与受访者所在地(即区域行政单位)相对应的地理标识的区域标识连接起来。4.1盖洛普世界民意调查(GWP)数据调查测量了每个调查范围内约1000名随机样本的态度和行为。我们的数据集包括15至49岁受访者的移民反应和其他特征ADM:全球行政区域数据库A预印本-202002505007501000BFA02505007501000IVC795050075010002010年12月8日。52011.92012.5 2013.5 2014.52015.52009.4 2013.6 2014.5 2015.62009.10 2010.10 2011.11 2012.11 2013.10 2014.1002505007501000MRT05050075010002009。9 2010.3 2010.9 2011.2 2011.9 2012.22013.62014.11 2015.402505007501000SEN2009年采访年份和月份。6 2010.112011.42011.112012.42012.112013.52013.92014.42015.52015.102014.102010.42009.62015.108128118698761825 825805825821838088598458358608398378818347868835883488148457858843 84387883885286683473图3:GWP面试时间表和Bertoli等人提供的面试次数。[7]。BFA:布尔基纳法索,IVC:科特迪瓦,马尔:马里,MRT:毛里塔尼亚,NIG:尼日尔,SEN:塞内加尔。4.1.1移民意向从GWP调查中确定了两个问题,Bertoli等人[7]引用了这两个问题,它们与移民意向有关问题1:在未来12个月内,你是否有可能或不太可能离开你居住的城市或地区?(一般搬家)o问题2:理想情况下,如果你有机会,你是想永久搬到另一个国家,还是更愿意继续生活在这个国家?(国际搬家)Q1,我们称之为一般搬家,涉及迁移,包括内部和国际搬家意图,决策期为12个月。

16
大多数88 在职认证  发表于 2022-4-26 11:29:48
与第一季度相反,第二季度只涉及国际移民意图,不包括时间范围。应该指出的是,这些问题反映了移民的意愿,人们应该预计,并非所有潜在的移民都会实现迁移。从这两个问题中产生了我们在研究中要解释的两个目标变量:Q1中的一般移动和两种移动意图。4.1.2个人特征根据Bertoli等人[7]的经验方法,表1总结了ML方法中使用的控制变量,如出生国、年龄、个人性别以及访谈时间(例如,月、年)。此外,“城市”属性表示一个人生活在城市还是农村地区“hskill”属性包括是否受过良好教育(即高中毕业后完成了四年教育和/或获得了四年大学学位)hhsize属性表示五岁以上的家庭成员人数mabr的属性包括一个人是否有家庭成员或亲属居住在国外,以及谁可以在需要时提供帮助。

17
何人来此 在职认证  发表于 2022-4-26 11:29:55
WeA预印本——12月8日,2020343115732367 10503877105449291795494498334832275Sennigmrtmalivcaffa0 1000 2000 3000 5000 60007000记录数(国际移动)国家没有是388810421751154702175158477170749114837671897国家没有是SennigmrtmalivcafA01000 2000 3000 5000 60007000记录数(一般移动)图4:六个国家的整个数据集中的国际和国际移动记录数总的行动意图。请参阅图3了解国家代码。包括“lnhhincpc”属性,这是以美元为单位的自报家庭人均收入的自然对数。Bertoli等人[7]不包括该属性,因为它可能会给他们的识别策略带来副作用。其中一个副作用是,它减少了样本量,尤其是因为并非所有国家都会问这个收入问题。此外,我们不能忽视引入的偏差,因为这是一个自我报告的测量,收入和天气冲击之间可能存在潜在的相关性[]。这与第2节讨论的传统经验方法的局限性之一有关。我们之所以在研究中加入收入变量,是因为我们建立了一个模型来选择重要的变量,同时又能容忍噪音。数据的预处理主要包括二值化或对某些变量进行热编码。二元变量“性别”、“mabr”、“hskill”和“城市”在该操作中不受关注。分类变量“origin”和“year”通过一个热编码进行预处理。数值变量“age”、“hhsize”和“lnhhincpc”是二值化的。年龄变量被二值化为15-24(年龄1524)、25-34(年龄2534)和35-49(年龄35plus)[7]。基于一个测试连续值的几个细分的过程,我们将变量“hhsize”和“lnhhincpc”二值化为四个类。

18
大多数88 在职认证  发表于 2022-4-26 11:30:01
它测量每个类别与因变量[]的相关性。连续值的更多相关细分被分组在一起。例如,变量“hhsize”3和4(即受访者选择因变量)。表1所示的最终GWP数据集由六个国家变量(来源)、七年变量(2009年至2015年的访谈)、四个家庭规模变量、四个自报家庭收入百分比变量、三个年龄变量、性别、,生活环境(城市或农村)、海外联系(“mabr”)和个人教育水平(“hskill”)变量。4.2天气冲击数据Bertoli等人[7]的结果表明,确定的冲击周期、冲击强度以及(当地)作物生长或作物种植季节的处理对移民意向(一般和国际)有影响。本节介绍我们使用的天气冲击信息。有几种方法可以配置年份变量:(i)使用每年的整数值,(ii)用最小年份减去每年,得到相对较小的从0开始的数字,以及(iii)将整数视为分类变量,并执行一次热编码。

19
可人4 在职认证  发表于 2022-4-26 11:30:08
在这里,我们使用最后一种方法。我们使用了R软件包Correlation漏斗,该软件包速度快,并提供可视化功能,以促进这项工作。年份(图3)。预印本——12月8日,2020年的特点是一个热编码的国际通用GWP(X)GWPDataSetOnly Originburkina FasoIvory Coast Maliuritaniersenegal504(16%)3417(10%)4931(16%)6724(21%)5927(19%)5758(18%)4933(16%)3329(10%)4860(16%)6424(21%)5887(19%)5664(18%)4143(13%)3975(12%)4834(15%)4019(13%)4835(15%)5025(16%)4930(16%)4037(13%)3944(13%)3965(15%)4715%4925(16%)4727(15%)hhsizeinf-10905(34%)5767(18%)8933(28%)6156(19%)10663(34%)5637(18%)8745(28%)6052(19%)lnhhincpcinf-5.6055.605-6.4466.446-7.2317.231-inf.7961(25%)7903(25%)7935(25%)7962(25%)7834(25%)7732(25%)7780(25%)7751(25%)年龄1524岁2534岁35加11493(36%)10686(34%)9582(30%)11239(36%)10462(34%)9396(30%)性别女性16937(53%)14824(47%)16593(53%)14504(47%)Urbarbanural7491(24%)2476(24%)10686(34%)Mabno2847%(14879%)1673(2847%)Mabno2847(2847%)1673(53%)hskillyesno886(3%)30875(97%)862(3%)30235(97%)SPEI(C)SPEIdatasetSPEI时间尺度1,2,3,6,12,18,24 lag0-48所有GWP+可计算1:国际和一般移动的二值化和离散化数据集的样本数。预印本——2020年12月8日SPEI24SPEI18SPEI12SPEI6SPEI3SPEI2SPEI1-1012SPEI值2015201020001990198019701960-图5:六个西非国家55年的SPEI时间尺度。4.2.1特殊情况我们关注的地区的经济活动高度依赖农业部门。在缺乏灌溉基础设施的情况下,天气,尤其是水的可用性直接影响农业生产。在这种情况下,生计受到气候条件的间接影响。

20
可人4 在职认证  发表于 2022-4-26 11:30:14
应对长期气候变化的一个策略是搬家,尤其是在其他经济机会有限的情况下。研究气候变化对各种经济因素影响的文献中的统计挑战之一。在早期阶段,文献主要关注降水。然而,气候对农业产量的影响取决于温度和土壤保水能力等因素。此外,新出现的全球变暖问题强调了捕捉温度影响的重要性。这些由潜在蒸散量(PET)组合而成,而潜在蒸散量又取决于温度、纬度、日照和风速。SPEI的计算方法是将降水和PET(即气候水平衡)差异的时间序列拟合为概率分布。该过程将差异作为标准正态分数,平均值和单位方差均为零。使用对数逻辑分布函数对其进行标准化,发现该函数是SPEI[]最合适的分布。这些标准化单位在空间、时间和不同的SPEI时间尺度上具有可比性。指数值低于零表示干旱。这些计算出的每月SPEI值是在六个西非国家的每个次区域的不同时间尺度上收集的。图5显示了1960年至2015年间六个国家的平均SPEI值,以确定该地区的干湿条件。它清楚地用红色显示了20世纪80年代至1990年间的温和派。温度,它可以评估正在出现的全球变暖效应。事实上,SPI(标准降水指数)和SPEI在计算指数的方式上是相似的,但SPEI通过比较waterare多尺度指标克服了SPI的局限性,这些指标可以识别干旱的多时相性。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-29 23:03