楼主: 何人来此
1305 16

[经济学] 基于深度生成的城市居民建模中的人口合成 模型 [推广有奖]

11
mingdashike22 在职认证  发表于 2022-4-20 21:57:26
在验证、测试和应用程序集中都显示了性能,但是,验证性能分别决定了哪种模型体系结构对CVAE和CGAN是最优的。一般情况下,SRMSE-score越低越好,CVAE和CGAN的大量实验都是用SRMSE-score在最佳K倍的验证集上进行评价的。SRMSE是在生成的和真实的SAM-PLES的边缘分布上计算的。此外,我们还评估了SRMSE在所有k-折叠上的平均性能和标准性能,以及模型产生零样本的能力。零采样被定义为模型的生成能力,以生成真实城市中没有遇到的综合城市居民。从使用CGAN进行的所有实验中,我们在使用批大小为64个、学习速率为0.001的RMSProp优化器、在生成器和鉴别器中包含1200个隐藏单元的一个隐藏层的验证数据上获得了最低的SRMSE得分。所考察的隐单元数为;40、80、120、200、400、800、1200和1400。增加隐藏单元的数量会导致一个较低的srMSE,直到隐藏单元的数量超过1200。这个模型被训练了51个纪元,因为当训练超过51个纪元时,我们发现10%的情况会超过验证数据。从对CVAE进行的72次实验中,发现最佳结构是:一个包含50个隐藏单元的隐藏层,瓶颈维数为25,尺寸为32,预印本提交Elsevier的《城市居民建模用deep generative modelsModel Marg的12population synthesis for urban Dependent Denerative Models》第7页。零样本(pct.)原始数据ACVAE 0.463 0.564 0.084 1.020 CGAN 0.771 0.734 0.031 0.939基线0.373--扩展数据ACVAE 0.660 0.625 0.062 2.370 CGAN 0.850 0.802 0.047 2.550基线0.491--表2验证集上最佳CVAE和CGAN的性能。在SRMSE中,通过生成的样本和真实样本之间的边际分布来衡量性能。结果显示了原始数据集和扩展数据集。并提供了稳定模型训练的证据。每一列的最佳性能以b old.学习率为0.001,RMSProp优化器,beta值为0.5,ELU激活函数和500个训练周期表示。更复杂的体系结构导致SRMSE性能下降。更多的训练周期导致更多的零样本,但在更晚的周期中SRMSE性能更差,导致过早停止。然而,CVAE并没有显示出过度训练的迹象,即使有许多训练周期。表2显示了原始数据集和扩展数据集的性能。对表2的检查表明,在最佳k倍的验证集上,基线在边际上优于生成模型CVAE和CGAN。对于原始数据集和扩展数据集都是这样,但是,可以在数据集的内部大小中找到这种行为的几个原因。在高维问题中,特征之间的组合数可以以千亿为单位。给定可用的特征类别,组合被定义为anagent的组成。表1列出了原始数据集中的特征和类别数。将Output变量中的类别数相乘,总共得到4,608个理论组合。在扩展的数据集中,这里有7488个理论组合。考虑到这个相对较少的com-bindation,经验分布(也就是基线)预计会做得很好。随着功能数量的增加,可能的组合数量也会增加。如果有一定数量的组合,那么em-pirical分布实际上是不可行的。然而,对于较小的数据集,经验分布将是AC-Curate。

12
可人4 在职认证  发表于 2022-4-20 21:57:33
考虑到这一点,这些模型显示了相对于基线的良好性能,因为我们可以认为基线在性能方面是一个非平凡的模型。鉴于表2中的结果,生成模型为何优于基线有两个主要原因;然而,生成模型是可伸缩的,这意味着EcoParks可以添加更多的特性,同时继续将不同的服务数字化。更多的特性可能会在不降低性能的情况下增加应用程序的价值,就像基线最终会发生的那样。第二,bothTest ApplicationModel Marg。比瓦尔。特里瓦尔。1个Trivar。月2日。比瓦尔。特里瓦尔。1个Trivar。2原始原始CVAE 0.609 0.326 0.422 0.361 0.691 0.187 0.414 0.342 CGAN 0.855 0.434 0.495 0.475 0.810 0.208 0.592 0.442基线0.663 0.383 0.498 0.444 0.712 0.275 0.352 0.271扩展扩展CVAE 0.796 0.412 0.462 0.418 0.456 0.517 0.421 CGAN 1.102 0.527 0.801 0.662 0.955 0.600 0.770 0.618基线0.746 0.347 0.477 0.443 0.868 0.404 0.546 0.451表3最佳CVAE和最佳CGAN在测试和应用数据集上的表现。这些模型相互比较,并使用边际分布、二元分布和三元分布上的SRMSE距离作为基线。年龄和国籍之间的双变量分布。三变量分布1介于年龄、国籍和以前的家庭差异之间。三元分布2介于年龄、以前的家庭状况和投资者之间。每一列中最好的性能都用黑体标出。生成模型可以生成零样本,而基线是不可能的。另一个关键观察是,与两个数据集的基线相比,模型在生成扩展数据集上所需的零样本方面明显更好,同时不会丢失SRMSE。在进一步讨论模型的性能和结果时,较高的零样本损失了太多的性能,有利于扩展数据集对原始数据集的设置。为了进一步分析模型性能,我们研究了测试集和应用集的生成性能,这些在训练过程中没有被发现。在边际分布的基础上,将per-formance扩展为部分联合分布,即二元和三元分布。请注意,在应用程序集上测试模型性能演示了Ecopark如何在现实环境中使用themodel,因为我们实际上是在为一个完全封闭的未见房地产项目同步调整未来城市居民的规模。表3提供了测试和应用程序集的性能概述,包括原始数据集和扩展数据集。从表3可以明显看出,CVAE与基线相当,甚至在两个三变量SRMSE度量标准的扩展数据上优于基线。在验证、测试和应用程序数据集(表2和表3)上,CVAE向CGAN发布。到底是什么导致了CGAN的这种不佳表现尚不清楚,无论如何,GAN通常被认为是训练的邪教。训练GAN类似于盲目搜索,因为在训练过程中,没有任何指标表明性能何时收敛。此外,GAN和CGAN都可以避免模式崩溃的问题。模式折叠最好被描述为CGAN学习一个过于简单的分布,其中生成器将多个输入映射到鉴别器接受的单个输出。这导致CGAN在学习真实分布时失败,并生成多样性低的样本。:预印本提交给Elsevier的《使用深度生成模型进行城市居民建模的12Population synthesis》第8页图6:以对数刻度显示的预期输出变量的边际分布,以强调低概率区域。

13
mingdashike22 在职认证  发表于 2022-4-20 21:57:39
从表2和表3可以看出,扩展数据在验证、测试和应用程序数据上都得到了更高的SRMSE。这是意料之中的,因为与原始数据集相比,扩展的数据集具有明显更高的维数。随着扩展数据维数的增加,CVAE在两个测试应用数据上的两个三变量分布上似乎略优于基线。在试验和应用数据上的SRMSE或多或少与标准一致(除双变量分布外)表明CVAE可以在现实生活中产生居民。在Figurgure6中对边际分布进行了研究和验证,显示了在试验集条件下由Cecgan,CVAE和基线产生的样本,并与最大集的真实边际分布进行了比较。在图6中,所有的输出变量都是可视化的,并且在大多数AT上都具有良好的近似边际分布,所有的输出变量都是可视化的,所有的输出变量都是可视化的,所有的输出变量都是可视化的,所有的输出变量都是可视化的,所有的输出变量都是可视化的,所有的输出变量都是可视的。不一致最明显的是国籍属性,其中低概率值,即美国和信息技术,没有被CGAN或CVAE捕获。这很可能是国籍属性的普遍问题,因为许多国籍在数据中被大大低估。同样值得注意的是,基线采样的是中国(CN)居民,而不是testset(真正的分布条)中的居民。解决这一问题的一个可能的办法是将低频国家,如美国,归入一个类别,例如“西方国家”。另一个明显的不一致是CVAE模型在给定测试集条件的情况下生成“80岁以上”的居民。不能生成“80+”字符可能是与低频国籍类别中的no-ticed相同问题的结果。在对数标度上绘制了分叉图,因此“80+”年SEG-(a)条件变分自动编码器(b)条件生成对抗网络(c)基线7:从左到右;1)年龄和国籍之间的二元分布,2)年龄、国籍和前家乡之间的三元分布,3)年龄、前家乡和投资者之间的三元分布。散点图表示扩展测试集的抽样代理与真实代理之间的部分联合分布。轴在垂直和水平轴上都以归一化的bin频率去标注。当不在对数比例上绘制时,数据中显然没有去表示。一个解决方案可以是在最近的区间中包含低概率年龄值,减少尾部的低频区间。然而,考虑到边缘分布的单独说明是不够的。我们还需要评估par-tial联合分布。图7说明了对模型的生成性能进行压力测试的部分联合分布的性能。在7中,对模型在部分联合分布中生成代理的能力进行了评估。每个图都代表了一个模型在测试集中创建agents acrosstwo或三个变量的能力。这些点表示变量之间的组合和该组合的频率。例如,offigure7(a),最左边的图;每个点代表年龄和国籍的组合,例如30-35岁和越南人,以及每个组合中抽样和真实代理人的数量。每个组合中的抽样和真实代理的数量都以归一化轴为单位。

14
可人4 在职认证  发表于 2022-4-20 21:57:44
如果在双变量情况下比较的两个变量中,抽样量和True:提交给Elsevier的使用深度生成modelsagents的城市居民建模的12Population synthesis第9页的预印本相等,则点将位于虚线对角线上,从而产生有利的生成性能。对(a)、(b)和(c)项的检查表明,与CGAN相比,ECVAE在捕获部分联合分布方面优于CGAN。CVAE和基线都系统地围绕对角线分布,如表3所示,CVAEI在两个三变量分布中最好。部分联合分布被绘制为附录部分联合集合在扩展的应用数据集图8。一些图显示了网格状的点结构,这是由低维数据产生的,变量之间很少组合。我们通常可以说,在不同的性能指标下,模型的性能是稳定的;PCT.零样本和边缘分布、二元分布和三元分布的SRMSE。在测试应用程序集的高维扩展数据集中,CVAE的性能优于基线。CVAE的零抽样能力、标度能力和对前向数据集的生成性能,证明了CVAE是城市居民模型在人口综合应用中的最佳选择模型。最佳的模型可以用来生成综合的城市居民,并显示进一步的下行任务。下游任务可以围绕以下概念构建;城市居民的流动性预测,即公共交通模式和车辆拥有率;入住率预测,即评估有多少城市住宅购买者将搬进该物业的预测模型;以及城市居民聚集模型,以识别相关的居住群体。然而,这些模型在今后的工作中被排除在外。结论和未来的工作我们发现深度生成模型是一个强大的工具来建模联合分布,从而为基于Agent的模型创建同步Agent。该方法的一个关键优点是它对高维dat a集的可扩展性。研究人员或实践者可以从具有数百个特征的总体中获得样本,在给定足够大的样本容量和适当的神经网络训练的情况下,从总体分布中生成样本。性能最好的模型是条件变量自动编码器(CVAE),其体系结构由一个隐藏层和50个隐藏单元组成,瓶颈维数为25。表3的结果表明,CVAE优于代表经验分布的基线模型,有利于推广测试和应用数据。基线在其生成性能上优于验证集上的边际分布。然而,当考虑测试集和应用集的性能时,在部分联合分布上,CVAE优于基线,这表明了深度生成模型的优越性,在扩展应用集上,CVAE在四个SRMSE距离度量中有三个优于基线,尤其是在部分联合分布上。结果还提供了证据,表明当离散化输入变量时,与基线相比,深度生成模型得到了改进。在高维数据上的改进表明模型在增加数据维数时具有可伸缩性,这在许多问题中是一个很受重视的特性,包括本文所描述的城市居民建模。在她的工作中,我们将探索这些特性在ABMS中的应用。

15
大多数88 在职认证  发表于 2022-4-20 21:57:51
交通需求模型和能量模型的初步结果表明,它们可以很好地应用于此类任务。未来可能的工作中的其他有趣的ar-eas与本文提出的模型的e-cient和稳定性有关。havingstable培训的目标是使这个过程对不了解神经网络建模所有细节的从业者来说不是一个“黑箱”。这个未来的方向可以通过与机器学习文献的持续反馈来发挥杠杆作用,在这些问题至关重要的地方。:提交给Elsevier的预印本,12Population synthesis for urban Department generative Models使用deep generative Modelsa的城市居民建模第10页。附录1。扩展应用数据集(a)、条件变分自动编码器(b)、条件生成对抗网络(c)中的部分连接8:扩展应用数据集中部分连接的性能。从左到右;(1)年龄、国籍之间的二元分布;(2)年龄、国籍、前家乡之间的三元分布;(3)年龄、前家乡、后家乡之间的三元分布。散点图表示来自扩展应用集的抽样代理与来自扩展应用集的真实代理之间的部分联合分布。这些轴都用正规化的bin频率表示。参考文献[1]Alejandro,Y.,Palafox,L.,2019。应用ma-chine学习进行人口预测。《软计算进展》,Springer InternationalPublishing 978-3-030-33749-0。[2]Andrej Karpathy,Pieter Abbeel,Greg Brockman等。GenerativeModels.网址:https://openai.com/blog/generative-models/.[3]Arjovsky,M.,Chintala,S.,Bottou,L.,2017。瓦瑟斯坦·甘。arxiv:1701.07875。[4]巴杜-马尔福,G.,Farooq,B.,Paterson,Z.,2020年。用于表格和序列人口合成的复合旅行生成对抗网络。[5]宾,杰,加德纳,李英,刘志,2019.房地产估价的同行相依估价模型。数据支持的发现和应用3。DOI:10.1007/S41688-018-0027-0.[6]Borysov,S.,Rich,J.,Pereira,F.,2019a。如何生成微代理?人口综合的深度生成建模方法。运输研究。C部分:新兴技术106,73-97.Doi:10.1016/J.Trc.2019.07.006.[7]Borysov,S.,Rich,J.,Pereira,F.,2019b.具有深度生成建模的可伸缩种群综合。爱思唯尔。[8]博里索夫,S.S.,Rich,J.,2019。引入超级伪面板:运输偏好动力学的应用。ARXIV:1903.00516。[9]布姆加德纳,J.,2020年。Citybldr网站:https://www.Citybldr.com/solutionsURL:https://www.citybldr.com/solutions.[10]Choi,E.,Biswal,S.,Malin,B.,Duke,J.,Stewart,W.F.,Sun,J.,2017.使用生成性广告网络生成多标签离散病人记录。ARXIV:1703.06490.[11]CIO-应用程序,2019年。2019年10大proptech公司:www.proptech.cioapplicationseurope.com。网址:https://proptech.cioapplicationseurope.com/vendors/top-proptech-companies.html.[12]Deller,S.C.,Tsai,T.H.,Marcouiller,D.W.,English,D.B.,2001年。农村经济增长中的生活质量和生活设施问题。Amer-ican农业经济学杂志83,352-365.[13]Farooq,B.,Bierlaire,M.,Hurtubia,R.,Fl"otterd,G.,2013。基于仿真的种群综合。运输研究B部分:方法58。Doi:10.1016/J.Trb.2013.09.012.[14]Fedus,W.,Goodfellow,I.,Dai,A.M.,2018。Maskgan:通过arxiv:1801.07736中的数据生成更好的文本。[15]“Garrido,S.,Borysov,S.,Pereira,F.,Rich,J.,2019。人口合成中稀薄特征组合的预测:深度生成模型的应用。爱思唯尔。[16]Go-Weekly,2020。Go weekly杂志:房地产20家最具创新力的公司(orproptech)。

16
kedemingshi 在职认证  发表于 2022-4-20 21:57:57
网址:https://medium.com/go-weekly-blog/the-20-mest-in-in-in-in-real-esterate-or-proptech公司-2E0242B80E32.[17]戈麦斯,A.B.,莫雷诺,A.J.,伊图拉特,R.,伯南德斯,O.,阿方索,C.,2018年。利用机器学习识别房地产机会。ARXIV ABS/1809.04933.[18]古德费洛,I.,Bengio,Y.,Courville,A.,2016。深度学习。19 Goodfellow,I.J.,Pouget-Abadie,J.,Mirza,M.,Xu,B.,Warde-Farley,D.,Ozair,S.,Courville,A.,Bengio,Y.,2014年。Generative adversarialnets,载于:第27届神经信息处理系统国际会议论文集-第2卷,麻省理工学院出版社,剑桥,麻州,美国。第2672-2680页。[20]Kingma,D.P.,Welling,M.,2014年。自动编码变分Bayes.corr abs/1312.6114.[21]金马,D.P.,Welling,M.,2019.变分编码器介绍。机器学习的基础与趋势。[22]兰建,郭强,孙海,2018.基于条件生成对抗网络的需求侧数据生成。能源程序152,118 8-1193。网址:http://www.sciencedirect.com/science/article/pii/s187661021830701x,doi:https://doi.org/10.1016/j.egypro.2018.09.157清洁城市的清洁能源。[23]Localize,2020年。本地化网站:https://www.Localize.city/。网址:https://www.localize.city/.[24]Lv,H.X.,Yu,G,Tian,X.,Wu,G,2014。基于深度学习的社交网络目标客户位置抽取。国际管理科学与工程师年会论文集,590-595DOI:10.1109/ICMSE.2014.6930283.[25]Mirza,M.,Osindero,S.,2014。条件生成对抗网。ARXIV:1411.1784.[26]奥多诺霍,C.,Morrissey,K.,Lennon,J.,2014。空间mi-crosimulation建模:应用和方法选择综述。[27]赖斯,M.,2019。了解21家ai房地产公司。网址:https://builtin.com/artifice-intelligence/ai-real-estate。[28]Robinson,C.,Dilkina,B.,Hubbs,J.,Zhang,W.,Guhathakurta,S.,Brown,M.A.,Pendyala,R.M.,2017年。商业建筑能耗估算的机器学习方法。应用能源208,889-904。网址:http://www.sciencedirect.com/science/article/pii/s0306261917313429,doi:https://doi.org/10.1016/j.apenergy.2017.09.060.[29]Ryu,S.H.,Moon,H.J.,2016。基于学习技术的室内环境数据占用预测模型的开发。建筑与环境107,1-9。网址:http://www.sciencedirect.com/science/article/pii/:预印本提交给爱思唯尔12Population synthesis for urban Dusting deep generative Models0360132316302463,Doi:https://doi.org/10.1016/j.buildenv.2016.06.039.[30]Saadi,I.,Eftekhar,H.,Teller,J.,Cools,M.,2018。研究群体综合中的Scal-cability:一种比较方法。运输规划与技术41,1-12。DOI:10.1080/03081060.2018.1504182.[31]Saadi,I.,Mustafa,A.,Teller,J.,Farooq,B.,Cools,M.,2016。基于Hiddenmarkov模型的种群综合。运输研究B部分:方法学90,1-21。Doi:10.1016/J.Trb.2016.04.007.[32]Shi,Z.,Fonseca,J.A.,Schlueter,A.,2017.基于模拟的城市形态生成与能源驱动的城市设计优化研究综述。建筑与环境121,119-129.网址:http://www.sciencedirect.com/science/article/pii/s0360132317301865,doi:https://doi.org/10.1016/j.buildenv.2017.05.006.[33]孙K,Lee,H,Yan,X.,2015。使用深度条件生成模型学习结构化输出表示,载于:Cortes,C.,Lawrence,N.D.,Lee,D.D.,Sugiyama,M.,Garnett,R.(编辑),神经信息处理系统的进展28.CurranAssociates,Inc.,第3483-3491页。网址:http://papers.nips.cc/paper/5775-learning-structure-output-representation-using-deep-condition-generative-models.pdf.[34]Sun,L.,Erath,A.,2015.人口综合的贝叶斯网络方法。交通研究C部分:新兴技术61,49-62.[35]托德,L.,2014。

17
kedemingshi 在职认证  发表于 2022-4-20 21:57:58
交通和生活质量。斯普林格尼德兰,多德雷赫特。第6729-6733页。网址:https://doi.org/10.1007/978-94-007-0753-5_3053,doi:10.1007/978-94-007-0753-5_3053。[36]Tschannen,M.,Bachem,O.,Lucic,M.,2018。基于自动编码器的表征学习的最新进展。CoRR.[37]Whitney,V.,Ho,B.人行道实验室博客:迈向未来邻里设计的一步。网址:https://www.sidewalklabs.com/blog/a-first-step-toorge-the-future of the-regority-design/.[38]严X,杨J,孙K,李H.,2016.Attribute2Image:从视觉属性生成Condi-tional image arxiv:1512.00570。[39]尹,J.,Jordon,J.,van der Schaar,M.,2019.PATE-GAN:Gen-erating合成dat a与di-externative隐私保证,在:国际学习表征会议。URL:https://openreview.net/forum?id=s1zk9irqf7.[40]赵,Y.,Chetty,G.,Tran,D.,2019。用xgboost进行房地产估价的深度学习,1396-1401DOI:10.1109/SSCI44817.2019.9002790。:预印本提交给爱思唯尔12页中的第12页

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-30 21:39