楼主: 何人来此
794 16

[经济学] 基于深度生成的城市居民建模中的人口合成 模型 [推广有奖]

  • 0关注
  • 3粉丝

会员

学术权威

79%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
61.8934
学术水平
1 点
热心指数
6 点
信用等级
0 点
经验
24791 点
帖子
4194
精华
0
在线时间
0 小时
注册时间
2022-2-24
最后登录
2022-4-15

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
摘要翻译:
新房地产开发的影响与其人口分布(家庭类型和组成、收入、社会人口统计)密切相关,这些分布取决于住宅类型、价格、位置和楼层等方面。本文提出了一种基于机器学习的方法来建模在较大的社区/公寓设置中即将开发的新建筑的人口分布。我们使用来自越南河内房地产开发项目Ecopark Township的真实数据集,在那里我们研究了深度生成模型文献中的两种机器学习算法来创建合成代理群体:条件变分自动编码器(CVAE)和条件生成对抗网络(CGAN)。大量的实验研究表明,CVAE模型在估计新房地产开发项目人口分布方面优于经验分布模型和CGAN模型。
---
英文标题:
《Population synthesis for urban resident modeling using deep generative
  models》
---
作者:
Martin Johnsen, Oliver Brandt, Sergio Garrido, Francisco C. Pereira
---
最新提交年份:
2020
---
分类信息:

一级分类:Computer Science        计算机科学
二级分类:Machine Learning        机器学习
分类描述:Papers on all aspects of machine learning research (supervised, unsupervised, reinforcement learning, bandit problems, and so on) including also robustness, explanation, fairness, and methodology. cs.LG is also an appropriate primary category for applications of machine learning methods.
关于机器学习研究的所有方面的论文(有监督的,无监督的,强化学习,强盗问题,等等),包括健壮性,解释性,公平性和方法论。对于机器学习方法的应用,CS.LG也是一个合适的主要类别。
--
一级分类:Economics        经济学
二级分类:Econometrics        计量经济学
分类描述:Econometric Theory, Micro-Econometrics, Macro-Econometrics, Empirical Content of Economic Relations discovered via New Methods, Methodological Aspects of the Application of Statistical Inference to Economic Data.
计量经济学理论,微观计量经济学,宏观计量经济学,通过新方法发现的经济关系的实证内容,统计推论应用于经济数据的方法论方面。
--

---
英文摘要:
  The impacts of new real estate developments are strongly associated to its population distribution (types and compositions of households, incomes, social demographics) conditioned on aspects such as dwelling typology, price, location, and floor level. This paper presents a Machine Learning based method to model the population distribution of upcoming developments of new buildings within larger neighborhood/condo settings.   We use a real data set from Ecopark Township, a real estate development project in Hanoi, Vietnam, where we study two machine learning algorithms from the deep generative models literature to create a population of synthetic agents: Conditional Variational Auto-Encoder (CVAE) and Conditional Generative Adversarial Networks (CGAN). A large experimental study was performed, showing that the CVAE outperforms both the empirical distribution, a non-trivial baseline model, and the CGAN in estimating the population distribution of new real estate development projects.
---
PDF下载:
--> English_Paper.pdf (1.6 MB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:城市居民 distribution econometrics Developments Demographics

沙发
kedemingshi 在职认证  发表于 2022-4-20 21:56:31 |只看作者 |坛友微信交流群
使用deep generativemodelsMartin Johnsen*a,Oliver Brandt*a,Sergio Garridoaand Francisco C.Pereira**技术、管理和经济学院,丹麦工业大学,DTU,2800 kgs。新房地产开发的影响与它的人口分布(家庭类型和组成、收入、社会人口统计)密切相关,这些因素取决于住宅类型、价格、位置和居住水平。本文提出了一种基于机器学习的方法来建立大型社区/公寓小区内即将开发的新建筑的人口分布模型。我们使用越南河内的一个房地产开发项目Ecopark Township的真实数据集,在那里我们研究了深度生成模型文献中的两种机器学习算法来创建合成Agent的人口:条件变分自动编码器(CVAE)和条件生成对抗网络(CGAN)。进行了大量的实验研究,表明CVAE在估计新的实际est ate发展项目的总体分布方面优于经验分布(一个非平凡的基线模型)和CGANin。引言可持续发展决策的一个重要组成部分是预测长期相互作用的影响,如政策、基础设施投资和新社区地区。特别是应用于交通、社会学和生态学等研究领域的基于agent的模型(ABM)模拟器,其优点在于模拟可以再现agent(如工作地点决策)和agent群体(如Traàc·C·科诺)之间的复杂交互和决策链。在绝大多数情况下,ABMs以大的spa背景(如城市、地区、国家)为目标,从而在更高的分辨率水平上考虑粗糙的表示。对于ex-ample,代理的家乡位置最多在区域级别表示,而不是指定的建筑位置。对于较粗略的区域/城市一级的政策和投资,例如规划可持续的ur-ban能源发展[32],这是远远不够的,但对于规划规模小得多的大型投资来说,这是不够的。从房地产开发和基础设施规划的角度来看,了解每个建筑的具体人口,以及他们对资源、流动性和空间的使用情况成为必要。了解人口的发展及其特征,其主要目的是为人民群众提供适当的生活必需品。在交通研究[35]和经济研究[12]中,良好的服务水平已经被证明可以改善生活质量。在这项工作中,我们重点关注ABMS的基本步骤:人口综合,它包括准确地<这些作者对这项工作的贡献相等<<相应的作者:为研究领域的人口分布建模。具体来说,我们侧重于房地产项目开发水平。这意味着,在实际中,我们必须在非常详细的水平上综合规模因素,而不是考虑到例如房地产类型和住房结构的特征。正如城市模型一样,将周围的AR-EA视为外生的(例如其他城市、地区、国家),我们将孤立地考虑我们的研究区域,即我们不会考虑同一地区的其他地区,因此忽略了房地产市场的总体供求。

使用道具

藤椅
能者818 在职认证  发表于 2022-4-20 21:56:37 |只看作者 |坛友微信交流群
虽然这最终将是最稳健和精确的方法,因为它解释了所有系统的电子商务,但由于我们研究地区的数据有限,这实际上是不现实的。我们利用越南河内的一个房地产开发项目Ecopark Township的真实数据,研究了两个从深度生成模型中获得的机器,以创建用于ABMS的合成剂。特别地,我们使用了条件变分自动编码器(CVAE)和条件生成对抗网络(CGAN)。文献回顾作为本文的背景和背景,我们将集中在两个主要的主题:人口合成技术和房地产研究与实践中的机器学习模型。群体综合历史上,群体综合是用各种不同的方法进行的。在这篇论文中,我们将讨论在种群综合应用中使用深层遗传模型的几个最新进展。以前,迭代算法,如迭代比例拟合(IPF)已经成为一个实践标准,因为它们容易:预印本提交给Elsevier的12Population synthesis for urban Dependent generative modelsimplementation的城市居民建模第1页[30]。然而,它们最终是一种启发式的方法,简单地通过扩展因子来再现empir分布,对用于合成的样品的数据分布过于敏感。例如,如果某些属性的特定组合不存在或未被删除(例如,高于或低于某个年龄的人,来了,等等),它将强烈地偏向结果。为了解决这个问题,IPF本身并不是一个模型,因为它不能对数据样本进行概括。Fa-Roq等人提出的Gibbs抽样方法(Gibbs sampling method)在低密度问题(如在10个人口特征变量下)中表现出良好的性能,但在高维问题上存在明显的计算挑战。随后,Sunand Erath[34]的贝叶斯网络部分地解决了高维问题。然而,他们的工作要么依赖于知道网络图的拓扑结构,要么依赖于通过某种发现算法来发现它,这种发现算法不能扩展到具有潜在变量的高密度数据或模型。[31]也提出了使用隐马尔可夫模型(HMMs)作为合成总体的另一种方法,其中eachattribute表示一个状态,所有属性对所有个体都是连续采样的。最近,深度生成模型[18]已经证明了它在大规模生成建模问题上的缺陷。在群体综合的背景下,[6]和[8]以及[10]和[39]分别提出了用于综合运输数据和医学数据的深层生成模型。[7]提出使用变分自动编码器(VAE)来同步大小的运输数据,并成功地在高维环境中生成种群。文献[15]的结果显示了botha VAE和具有Wasserstein距离的生成对抗网络(GAN)如何生成零样本,即从样本中生成代理,这使得这些类型的生成模型更加特殊。[4]训练一个GAN,该GAN可以在迁移率设置下用表格和顺序数据描述重建代理。[8]提出了一种条件变分自动编码器(CVAE)的应用,用于估计出行偏好在社会经济和外部变量条件下的联合分布,从而揭示交通偏好是如何演变的。鉴于VAE的重要性和本文的GAN算法,我们将用分段方法对它们进行更详细的描述。[20]提出的变分自动编码器(VAE)成功地对大数据集上的分布进行了筛选和建模。[33]在VAE的基础上提出了一种新的变分自动编码器(CVAE)。

使用道具

板凳
kedemingshi 在职认证  发表于 2022-4-20 21:56:43 |只看作者 |坛友微信交流群
CVAE将高维输出空间作为生成过程,在附加输入特性1,c的基础上生成输出x。自从VAEs出现以来,许多扩展和改进已经成为机器学习中的一个术语,特征经常被用来描述其他文献中所提到的变量或属性,以优化性能。作为一个例子,编码器和解码器模型可以被修改为其他神经网络结构,如递归神经网络。[36]概述了基于自动编码器的学习的最新发展,并描述了确保特征及其分布的la-tent表示的三种机制。此外,[21]给出了被证明适用于深度生成模型(特别是VAEs)的直接框架和任务的概述。两个这样的领域是表征学习和艺术创造力。总之,[21]指出VAEs是目前Litera中为数不多的在学习潜在变量和综合方面具有重要作用的框架之一。[19]提出了生成对抗网络(GAN),作为训练生成模型的一种替代方法,除了GAN之外,还提出了大量的变体。例如,将由GAN损失函数度量的散度由Jensen Shan-non-Department改变为Wasserstein距离,可以提高训练过程中的稳定性,缓解常见的问题,如模式崩溃[3]。后来,[25]提出了一个条件版本的theGAN,即条件Gen-erative对抗网络(CGAN)。CGAN是通过向生成器和鉴别器提供条件特征来构造的。机器学习在房地产开发中的应用研究主要集中在房地产开发中的两个方面;预测未来价格,把握投资机会。房地产领域的其他研究集中在评估建设速度、移动模式和客户目标,然而,并不都使用机器学习方法。然而,Afew在入住率预测方面的文章大多使用agg regate建筑特征或室内环境数据。房价预测是机器学习在房地产领域最常见的应用。模型从回归模型到复杂的结构,如卷积神经网络(CNNs)和双向短期记忆(bi-LSTM)模型。[40]使用aCNN对网上房屋广告图片的美感进行评分,并将此评分与基本属性相结合,使用极端梯度boost-ing(XGBoost)回归模型预测房价。[5]通过包括邻近区域中其他类似的道具作为模型输入,声称优于现有的最先进的模型。他们发展了K-最近相似房屋抽样(KNSHS)算法,将KNSHS结果和当前待估值属性的相似附近属性和输入序列输入到abi-LSTM模型中。从生成序列中提取的特征被用来在一个完全一致的层次上预测房价。投资机会的研究包括模型:提交给爱思唯尔的12Population synthesis第2页的预印本,用于城市居民建模,使用deep generative models,由[1]提出,预测一个城市的哪些地区可能会经历Gen-Tri,由[17]提出,预测属性的模型列在市场价格以下。前者使用随机Forrest分类器,而Latterest评估几种算法,如K-最近neigh-bor(KNN)、支持向量机(SVM)和神经网络(NN)。由[24]提出,通过分类房地产、育儿和体育等细分领域,从社交媒体上创建客户目标群体。所选择的目标有助于mer-chants识别目标客户和规划社会媒体策略。

使用道具

报纸
大多数88 在职认证  发表于 2022-4-20 21:56:50 |只看作者 |坛友微信交流群
本文利用深度神经网络对目标客户进行分类,从aparticular社交媒体平台中提取特征。入住率预测和能源使用率预测是一个广泛的问题,可以从多种角度来解决。[28]利用建筑物的描述性特征,如建筑物的结构和在建筑物内工作的雇员人数,预测商业建筑的能耗。[29]建立了一个基于间接法的oc-cupancy预测模型。该模型使用机器学习和室内环境数据来预测居住,重点是隐私。提出了决策树模型和hid-den马尔可夫模型。第三种方法是由[22]提出的,他使用一个带有Wasserstein dis-tant的CGAN作为损失函数来预测需求侧的电量。他们通过对CGAN进行电气消费方面的培训来做到这一点,这些培训以中小企业30分钟的间隔表示。该发电机可以在训练过程中产生重复的电耗。学术界还没有详尽地阐述房地产领域的ML应用,然而,公司和创业公司正在使用ML在行业内提供服务和应用。公司在ter m Property Technology(简称orPropTech)下提供了一系列不同的应用程序。然而,据我们所知,没有一个研究提供了类似于城市住宅建模的概念,为潜在的客户获取和规划,本文所提出的。下面提供了四个最相关(但不相似)的应用程序的简要描述。对于更全面的描述,[27]、[16]和[11]是一个很好的概述。oCompass为代理机构预测购买:Compass经营一个销售列表网站,专注于美国主要城市,主要是东海岸。该公司声称,根据客户的搜索历史,当客户最有可能购买道具时,该公司将topredict,并在客户可能购买时通知销售机构[27]。oSidewalk Labs产生设计想法:Alphabetcompany创建了一个生成性设计工具,在提供广泛的基础信息的情况下,可以产生“数百万个规划场景”[37]。该工具旨在帮助规划者以最好的方式实现目标和交易。oCityBldr为下一个投资做好准备:寻找多地产开发用地可能需要几天到几个月的时间。CityBldr使用人工智能在几秒钟内找到合适的真实网站,并根据特定参数对机会进行排名[9]。oLocalize提供透明度:Localize主要是纽约市的运营商,使用人工智能为购房者提供跨部门服务。该公司提供了公寓实际照明、通勤时间、停车设施等方面的知识[23]3。方法在一个群体综合应用中,目标是对一个合成目标群体进行可抽样,该群体可以重新表示一个给定的真实的和已知的群体X。可以生成数据的特定类型的模型,类似于realdata,称为生成模型。从图像[38]到文本生成[14],深度生成模型已经被证明在广泛的生成任务中获得了高性能。生成对抗网络(GANs)和变异自动编码器(VAEs)是深层遗传模型的例子,已被证明在群体合成应用中创建同步智能体方面表现良好。与其他传统的生成模型相比,这两种方法为高维数据集提供了完整的联合分布。在前人研究的基础上,我们引入CGAN和CVAE对城市居民特征进行总体合成,生成综合的城市居民属性特征。生成模型与判别模型相比,生成模型是为了重建感兴趣的数据而建立的。

使用道具

地板
mingdashike22 在职认证  发表于 2022-4-20 21:56:56 |只看作者 |坛友微信交流群
一个解决标准分类问题的判别模型可以被定义为一个直接映射,其中xxx的一个实例被用于给定p(yyy xxx,www)的yyy。在生成模型中,我们试图用一种非常直接的方法来近似映射。这些模型正在学习一个潜在的分布,由潜在的随机变量表示,数据来自这些变量。这使得生成与真实数据相似的合成数据成为可能,可能是图像、文本或房地产项目的ur-ban居民。直觉遵循理查德·费曼的名言:“我不能创造的东西,我不理解。”[2]生成模型的特征是从概率分布(通常是高斯分布)z中提取样本,并通过生成模型对它们进行变换。使用高斯ran-dom变量生成近似分布,我们可以比较模型重构truedata分布的能力,p(xxx)。损失是真实分布p(xxx)和近似分布θp(xxx)之间的关系。:预印本提交给Elsevier《12Population Synthese for urban Deneral models》第3页,使用深度生成模型进行城市居民建模。生成特性迫使模型参数反映现实世界的一些潜在结构,这使得模型对隐藏或潜在的模式进行编码。在下一节中介绍的两个模型都是生成模型家族的一部分。条件生成对抗网络[19]提出了一种利用对抗训练概念训练生成模型的新方法。该方法包括两个对抗性模型,一个生成函数G和一个判别函数D。这些函数由神经网络参数化并同时训练。gen-erator G捕捉数据的分布,dis-criminator D估计样本是假的(来自生成器)还是真的概率。这样,生成器学习生成可信的数据,而鉴别器学习区分假的和真的采样。为了学习数据的分布,G用先验噪声分布p(zzz)中的一个样本来学习,然后把样本转换成一个真实的Agent。这种方法用神经网络建立了从先前噪声到数据空间的映射函数。称为鉴别器的对抗性网络D是一种二进制分类器。给D提供一个代理,从训练数据(真实)或G生成的代理(假的)。形式上,D输出一个介于0和1之间的值,表示从数据中得到xxx的概率D(xxx)。D被训练以最大化cor正确地标记来自G和训练数据的代理的概率。同时,Gis训练使ln(1*D(G(zzz))最小化。在博弈论中,D和G正在进行一个最小最大对策,其值函数为V(G,D)=exxxμpdata(xxx)[ln D(xxx)]+ezzμpz(zzz)[ln(1*D(G(zzz)))](1),其中,exxxμpdata(xxx)[ln D(xxx)]表示D赋予真实数据的对数概率的期望值。第二项Ezzzμpz(zzz)[ln(1*D(G(zzz)))]表示G的目标是使1减t的对数hm最小化,即D将G生成的一个agent标记为实的概率。由于等式1中的值函数,D使损失最小的损失函数LDcanbe提取为:ld=*[ln D(xxx(i))+ln(1*D(G(zzz(i)))](2)而G的损失函数为:lg=ln(1*D(G(zzz(i)))(3)对于每一个数据点i,方程2和3可以同时最大。cg(z c)gzcreal xcfake DD(x c)图1:条件生成对抗网络的高级结构。c broxcσμεxq pφ图2:条件变量自动编码器的高级结构。GAN模型可以通过条件集来扩展生成变量,ccc,如图1所示。

使用道具

7
何人来此 在职认证  发表于 2022-4-20 21:57:02 |只看作者 |坛友微信交流群
该控制是通过将ccc作为附加输入提供给D和G来实现的。对于G来说,这是通过将ccc与先前的输入噪声pz(zzz)相结合来实现的。有了这个附加的输入ccc,最小对策的目标函数是:mingmaxdv(D,G)=exxxμpdata(xxx)[ln D(xxxcc)]+ezzμpz(zzz)[ln(1*D(G(zzzcc)))](4)3.3。条件变分自动编码器CVAE的结构与VAE相似,具有先编码器网络和解码器网络。然而,在ECVAE中,编码器和解码器是以附加属性CCC为条件的。编码器用Q_4(zzzxxx,ccc)描述,解码器用P(xxxzz,ccc)描述。Q和P本质上是反映同一事物的两个复合神经网络。Q将输入的xxx和条件特征ccc投影到潜在空间中,P重构一个合成agent,在给定条件特征和机器人层Z的情况下,再现真实的agent。因此,条件特征在Q和P处都被输入到网络中,如图2所示。瓶颈维dzi经常小于原始输入维M,但是,也可以应用dz>mb的替代版本。在理论上,低维瓶颈应该确保在低维空间中表示该true分布,理想情况下接近真实的底层维。条件变量如图2所示。与VAE相比,CVAE是一个扩展,它包括:提交给Elsevier的12Population synthesis for urban Dependent generative Models的第4页的预印本,使用deep generative Models进行城市居民建模。附加条件变量ccc作为网络的输入。在训练过程中,利用交叉熵损失和Kullback-Leibler(KL)散度相结合的损失函数对CVAE进行优化。交叉熵损失(descrebedbyce(xxx,恰x,xx,xx)=*n…i=1xixilog(xi,xi,xi)xi+(1*xixixi)log(1*xixixi)log(1*xixi)xi)(5)度量解码器的重构损失,而KL散度(dkl[q_(zzz)p(zzz)]=*12dz…k=1(1+log k k k*k k k2*k k k k)(6)度量潜在变量分叉与高斯先验之间的散度,其中q_(zzz)=n(,)和p(zzz)=n(0,IDz).请注意,和是Q的输出,并得到近似的后验结果。方程5和6让我们将损失函数定义为方程7中的拟合法问题。Miné,L(é,)=ce(xxx,xxs,xxs)+dkl[Q\\(zzz)p(zzz)](7)其中有一个超参数权重,它是正则化项,由KL发散形式化。神经网络通过反求过程而产生。为了能够通过Q和P进行反向传播,必须将随机性与学习的参数分开。这是一种被称为reparameterizationtrick的技术。从技术上讲,潜在变量zzz是从的,和创建的,因此zzz不是直接sam-pled的,这使得我们可以通过整个网络进行反向传播。经验分布表为比较本文所述模型的生成性能,本文以经验分布表作为基准模型。经验分布表本质上是观察到的分布,给出了条件特征的组合。分布都是离散的,因为数据被分成离散的分类特征。通常,在低维数据集上使用经验分布将提供一个强有力的基线模型,因为可能的值组合的数量变得足够小,足以被原始数据集所覆盖。经验分布表可以用来评估模型输出的边际分布、二元分布和三元分布上的每共振峰类型。所有的分布表都是离散的分布表,其bins相当于数据集中的bins。

使用道具

8
可人4 在职认证  发表于 2022-4-20 21:57:08 |只看作者 |坛友微信交流群
在评估经验分布表的性能时,记住保持可伸缩性是至关重要的。在条件间有适度组合的数据集上,当测试数据和训练数据重新反映相同的分布时,经验分布的性能可能优于任何模型。然而,随着组合数量的增加,它们变得不可行和性能差。通过在训练集中建立一个包含所有条件组合的分布表来采样边缘值。在形式上,我们可以用pX(x)来描述边际概率分布。利用计算出的分布表,我们可以通过从组合器IALTABLES中抽取样本来对基于经验分布的合成总体进行抽样。这种简单的方法用于生成基准表。由于组合器ial表是由训练集(全部数据集的68%)制成的,所以可以在测试集中而不是训练集中对条件项的组合进行计数。如果满足这些未知组合,则从列车组的总体分布中抽取样本,分别在两个或三个变量pX,Y(x,Y)和pX,Y,Z(x,Y,Z)上通过联合概率分布计算出二元概率和三元概率。实验群体合成的目标是在给定的领域内生成具有特定属性的真实智能体。本文提出了一种应用于城市住宅和房地产领域的人口综合的方法,并将其作为城市房地产模型。利用生态公园城市中真实的城市居民的特征,以现有的业主为代表,我们将生成模型训练成相似的城市居民。然而,我们不仅希望在生态公园的城市中生成城市居民。我们希望根据特定的财产属性生成城市居民,如财产类型(别墅、联排别墅、公寓)、大小、价格等。这样一个应用程序Lica的目的是让城市规划人员和销售团队在特定的房地产项目的基础上,根据具体情况,获得关于居民的可供决策支持的数据。通过本文提出的人口综合应用程序,考虑到模型的条件方面,甚至在项目建成和入住之前就可以生成居民。生态公园镇专注于智能城市发展,目前正在接待越来越多的多样化的AP人口--来自近50个城市的近21,000名居民。图3提供了EcoparkTownship的可视化表示,其中三分之一目前正在开发。首先,我们使用由条件特征和输出特征组成的数据训练一个模型(读者请参见表:预印本提交给Elsevier的12Population synthesis for urban Deposition modeling使用deep generative Models的城市居民建模第5页图3:Ecopark township位于越南河内外约15公里处。总面积为500公顷。ModelTrainingConditionalFeatures现有的构建项目smodelSamplingConditionalFeatures Nthesi提供edurbanResidentsDownStreamtaskSoutputFeatures图4:实验设置的可视化,其中白色和灰色其次,我们可以利用条件特征对一个新的房地产项目从所得的分布中抽取综合的城市居民。最后,采样的输出特征可以在下游的任务中使用。数据描述为了生成生态公园中的城市居民,CVAE和CGAN需要一个由两个特征对组成的数据集;特征到begenerated和条件特征。

使用道具

9
能者818 在职认证  发表于 2022-4-20 21:57:14 |只看作者 |坛友微信交流群
在本文的其余部分,我们将把figurrst类型的特征称为out-put特征,把第二种类型的特征称为conditionalfeatures。有关CGAN和CVAEE如何在训练期间使用输出特征和条件特征的说明,读者请参阅第1和第2段。输出特征是关于EcoPark中当前财产所有者的匿名人口统计信息。通过训练一个生成模型来生成由人口特征所决定的城市住宅购房者,Ecopark将得到一个关于潜在潜在购房者的详细定性概述,这可以作为围绕新项目的战略决策的支持。此外,城市居民扫描作为后续下游模型的输入。本文没有实现下游模型,但可以是特征#特征类型类别描述1年龄输出8居民年龄2性别输出2男性或女性客户3国家输出12居民国家4投资者输出2如果客户拥有超过1套房产5先验房屋输出12客户曾经居住的地区6距离_阶段1条件4到市中心的距离1在生态公园7距离_阶段2条件4到市中心的距离2在生态公园8距离_绿色环保条件4到绿色环保学校的距离9销售价格条件11房产销售价格10大小条件5房产大小11楼层条件5公寓面积(仅适用于公寓)12房产类型条件3财产类型;别墅,联排别墅,公寓1功能概述。类型指示该功能是输出功能的一部分还是条件功能的一部分。在模型采样过程中,对每一个城市居民生成输出特征,并使用条件特征作为输入,对城市居民的特征进行分析和条件化。请注意,所有特征,无论是输出特征还是condi-condional特征,都被离散为分类特征。总共获得了6,893个观察结果。对于销售团队和城市规划者都有价值。条件特征不是个人特定的,而是更多的属性特定的,因为条件特征应该在新的城市资源生成时输入模型。条件特性由基本属性组成。直观地说,我们预计未来的城市环境将在某些人口特征和特定的财产属性之间具有相关性,如类型、位置等。表1提供了输出特征、条件特征以及简短描述的概述。模型中使用的所有特征,无论是输出还是condi-,都被离散为分类特征。在整个论文中使用范畴特征有两个原因。直观地说,限制输出的模型interms是有意义的。如果变量不是分类的,themodel有更多的自由来生成不切实际的值。此外,许多特征从本质上来说已经是分类的。Ecopark从2008-2019年的房地产销售中总共获得了6,893次观察。由于模型性能可能严重依赖于变量之间的组合数,我们在下一节中考虑了两个版本的数据集。这两个版本的分类箱的阈值不同。例如,年龄间隔和价格间隔可以是任意大小的。这两个版本具有表1所示的相同特性,但具有不同的分类维度:1。原始数据集,由表1中categories列中删除的bin大小组成。原始数据集的输出维数为36,传统维数为36.2。扩展的数据集增加了所选特征中的分类数量;年龄,距离,价格,大小和容量。

使用道具

10
能者818 在职认证  发表于 2022-4-20 21:57:20 |只看作者 |坛友微信交流群
扩展类别给出了45个输出Demen-sion和49个条件维度。:预印本提交Elsevier的12人口综合第6页,用于使用深度生成模型进行城市居民建模sa?ca(5%)(90%)t.(10%)(20%)(95%)t?a?a?a?a?a?a?a?a?a?a?a?a?a?a?a?p?图5:将数据集拆分为应用、测试、训练和验证的可视化。我们在训练和验证数据集上使用K=5的交叉验证,如firegure.4.2所示。结果和讨论在训练之前,数据被分成四个不同的数据集:训练、验证、测试和应用,如第5章所示。不需要应用程序集。然而,这是一种展示这种流行综合应用在现实世界中潜力的方法。假设Ecopark在新的房地产项目中使用人口合成应用程序作为工具。在这种情况下,Ecopark应该能够为一个新项目输入基本属性,模型应该为该项目中的每个单元生成输出特性。例如,Ecopark可以为一个由200栋联排别墅组成的项目生成,该模型将为200栋联排别墅中的每个单元生成城市潜在买家。DefinnedApplication集合由440个住宅买家组成(大约占总数据集的5%),来自两个名为“Rung Co A”和“Rung Co E”的高层建筑,这两个高层建筑都来自该房地产项目。dat a的其余部分分为AP--近90%的训练和10%的测试。在测试和应用程序集合中,经过修改的数据包保留了大约15%的数据不可见。在训练期间,在交叉验证循环(K=5)中,训练数据被分成80%的训练和20%的验证。训练集用于对CGAN和CVAE(权重和偏差)的内部参数进行筛选,而验证集用于选择产生最佳性能的超参数。CVAE以类似网格搜索的方式进行训练,其中大量的模型都是在双超参数上训练的。进行了72个不同参数的实验;批量大小、隐藏层、跨层隐藏单元、瓶颈大小、学习速率、优化器、betavalues、激活函数和时间数。最佳模型的特点是有一个隐藏层和25-30之间的高领维数。bestmodel体系结构的详细信息将在后面提供。在训练过程中,每100次迭代计算验证损失和验证距离测度,CGAN的训练与CVAE的训练相同。同样地,各种模型都带有不同的超参数。不同的超参数测试已经通过:批量大小,隐藏层,hid-den单位,学习率,激活函数和时间数。我们在生成器和鉴别器中分别实验了1,2,3个隐藏层。在训练过程中,每100次迭代计算验证偏差测度,并计算经验分布与模型输出之间的均方根误差(SRMSE)。考虑到边际分布、二元分布和三元分布,很明显哪个模型最接近数据集上的边际和部分连接分布。文献[8]中所描述的SRMSE:SRMSE=RMSE(N=V…I……J(恰I.J*I…J)2NC(8),其中I…JA是变量I…JA的部分连接分布,NCS是所比较的bins总数。另外两个标准度量也被用来评估性能;r平方(R2)和皮尔森相关系数。在此基础上,给出了所有实验中的最佳CVAE和CGAN,以及它们在原始数据集和扩展数据集上的性能,并与基线模型进行了比较。

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-6-15 07:44