楼主: 大多数88
1913 73

[量化金融] 估算城市经济复杂性的驱动因素及其联系 [推广有奖]

61
何人来此 在职认证  发表于 2022-6-11 06:08:22
对于“25岁及以上人口”,我们收集了七个不同教育程度的人口数字:9年级以下、9至12年级(无文凭)、高中毕业生、一些大学(无学位)、副学士学位、学士学位和研究生或专业学位。我们对每个级别使用一个顺序变量,从1到7,我们用该教育级别统计的人数来平均它们的权重:b’sc=Xl=1l×Pc(l)Pc,(E.2)其中,Pc是c市25岁或以上人口的规模,Pc(l)是最高教育级别为l级的部分。根据结构,PlPc(l)=Pc.F。文本中显示的替代模型,方程式(A.3)提出了一种估算参数SMF、RCA和si的方法。如果缺乏个人层面的微观数据,且数据仅按行业和城市的就业水平进行汇总,则仍可以估计MFA和代表(1)的城市特定变量- \'sc)(1- rc),其中“SCI”是c市的平均siacross个体。估算方法是将一个城市各行业的就业份额取两次对数,确保乘以负1,- 日志(- 日志(pc,f))。在这一转变之后,可以使用行业和城市固定效应进行回归。然而,如果我们将有关能力的假设从“互补”改为“可替代”,会发生什么?这种变化导致了这样一种预测,即人们应该在对数回归(pc,f)(而不是- 日志(- log(pc,f)):要看到这一点,假设功能是可替代的。也就是说,如果我的员工具备行业所需的任何Mfcapabilities(而不是必须具备所有能力),那么她就是我的员工。像以前一样,能力可以来自城市,也可以来自她自己。

62
大多数88 在职认证  发表于 2022-6-11 06:08:25
在可替代能力假设下计算Pr(Xi,c,f=1)的方法是计算Pr(Xi,c,f=0)。没有被雇用的概率(Xi,c,f=0)是指她没有获得任何能力的概率。无法获得某一特定能力的概率为(1- si)(1- rc)。因此,无法获得任何Mfcapabilities的概率为[(1- si)(1- rc)]Mf。因此,就业概率为1减去:Pr(Xi,c,f=1)=1- [(1 - si)(1-rc)]Mf≈ Mf(si+rc)。最后,假设c市的工人拥有平均的个人专有技术sc,我们得到c市的一名随机工人将受雇于f行业,概率为c,f=Mfτc,其中τc=\'sc+RCI是城市特有的效应。由此,我们得出结论,如果世界遵循一种能力可替代的逻辑,我们称之为“模型1.2”的模型,其中我们回归ln(yc,f)=δf+γc应该优于我们的模型。请注意,正文中等式(4.2)中的模型对于每个行业都有一个自由参数,对于每个城市都有一个自由参数,因此它比可能包含较少参数的备选模型更复杂(就自由度而言)。由于我们的模型有如此多的自由度,它可以容纳和拟合数据。因此,根据我们用来拟合模型的数据来证伪理论是不明智的。换句话说,我们的模型有过度拟合数据的风险。要检验的假设是,与其他替代模型相比,我们的模型是否具有更好的预测yc值的能力,fyc值未用于模型拟合程序(“样本外预测”)。如果我们的模型确实相对更好,那么我们将有证据表明该理论捕捉到了现实的有意义方面,而其他模型则没有。因此,我们建议评估模型Eq的预测能力。

63
mingdashike22 在职认证  发表于 2022-6-11 06:08:28
(4.2)关于使用保持数据的以下替代模型的正文。这些替代模型需要或相同的参数数量:模型1.1:yc,f,t=δf,t+γc,t+εc,f,t。模型1.2:lnyc、f、t= δf,t+γc,t+εc,f,t。模型2.1:lnyc、f、t= αf,t+0.16 ln(Nc,t)+εc,f,t。模型2.2:lnyc、f、t= αf,t+βf,tln(Nc,t)+εc,f,t。注意,我们将模型分为两种类型:因变量函数转换不同的固定效应模型,以及使用人口规模作为自变量的城市尺度模型。换句话说,模型1.1和1.2改变了回归方程的左侧,而模型2.1和2.2改变了右侧。除非有明确的需要,否则表示年份的Subscript t将被删除,以便在下面的内容中进行简化。模型1.1假设人均就业率由两个相加项驱动,一个来自行业,另一个来自城市。相反,模型1.2假设人均比率是行业和城市固定效应的产物,因此通过取对数,我们将这种相互作用分开。请注意,在模型1.1和1.2中,与我们的模型(4.2)一样,我们排除了截距。模型(4.2)与模型1.1和1.2之间的性能差异将告诉我们理论预测的特定功能形式的重要性。模型2.1是标准的城市比例模型,根据基于网络的解释,假设所有现象的比例指数都相同。我们将使用人口作为衡量城市规模的指标。然而,如果使用像总就业率这样的替代性指标,我们的分析结果在质量上是相同的。模型2.2是模型2.1的无约束版本,其中我们假设每个行业的基线患病率和标度指数原则上都不同。

64
能者818 在职认证  发表于 2022-6-11 06:08:31
模型(4.2)与模型2.1和2.2之间的绩效差异向我们展示了增加自由度来解释城市和行业就业模式的有效性。每年,我们都会将数据分为训练集和测试集。这些集合被定义为随机选择的城市和现象对(c、f)列表。其中一些线对属于toR(列车组),而其他线对属于S(测试组)。使用训练数据确定模型参数后,通过预测测试集上的相关变量的准确程度对模型进行比较。我们选择20%作为测试集的大小。将使用均方根误差RMSE评估预测≡vuut | S | X(c,f)∈Syc,f- dyc,f,平均绝对误差,MAE≡|S | X(c,f)∈Syc,f- dyc,f,式中,dyc,fis为预测值。这两个指标都量化了模型的预测准确性,但RMSE对异常值更为敏感,而MAE量化了平均预测误差。感谢F.Neffke提出这些备选方案。比较模型的另一种方法是根据所有可用数据对模型进行拟合,然后根据每个模型的复杂性进行一些统计惩罚,如Akaike信息准则(AIC)或贝叶斯信息准则(BIC),然后选择性能最好的模型(如AIC值最低的模型)。该方法通常渐近等价于上述方法(参见,例如,[117118])。选择“先培训后测试”的方法有两个原因。首先,数据量足够大,可以为列车和测试集提供较大的数据量,以进行交叉验证。这使我们摆脱了AIC或BIC等指标背后的基本假设。

65
可人4 在职认证  发表于 2022-6-11 06:08:34
其次,也是更重要的一点,样本外预测是比较不同模型的一种公平且无假设的方法(进一步讨论请参见[119])。平均加权所有偏差。因此,M AE优于RM SE,尽管我们显示了两者的完整性。列车和试验随机拆分将重复100次不同的数据(引导交叉验证)。G、 规范化人口密度标度在正文中,我们说,基于网络和密度的规范化城市规模模型有一个局限性,即它们预测了所有现象都将随人口密度标度的独特方式。要了解这一点,假设人均产出(如人均GDP)的衡量与互动次数y成正比∝ 我介于一个人和城市中其他人之间(或一小部分人之间),如[74]。反过来,互动的比例与社会互动的密度成正比,即∝ 非社会性,因为社会性是社会交往发生的领域(例如,基础设施网络)。假设个体均匀分布在一个有空间的物理区域,那么个体之间的平均距离是d,我们得到面积与有空间成正比∝ Nd。假设空间中的社会互动跨越了近距离互动树(见[120121])定义的“社会区域”,则可以得出∝ Nd,这意味着∝ (鼻腔)1/2。

66
mingdashike22 在职认证  发表于 2022-6-11 06:08:37
如果ρ=N/Aspatialis是空间种群密度,那么我们得到y∝ 我∝ 非社交∝ (N/Aspatial)1/2这意味着∝ ρ1/2.根据这一推理,人均产出以城市人口密度的平方根来衡量。由此,Bettencourt(2013)[74]通过对城市旅行的最低预算和成本提出一些限制,得出了人均产出与人口规模的直接关联,这意味着城市表面积与人口规模之间存在关联。因此,考虑到这些限制,他会变得有野心∝ ND/(D+H),其中D是城市的维度(原则上,D=2),H是人们用来穿越城市的路径的分维。有人可能会说,跨越现象的不同标度指数是由适用于不同经济活动或行业的不同H值的存在所解释的。然而,我们强调,H的差异仍然不会改变产出和人口密度之间的关联,这就是为什么我们认为基于网络/密度的解释预测了密度的指数缩放,而不管是否考虑空间平衡和预算约束。请注意,此练习不同于使用机器学习技术的典型预测练习,机器学习技术可能会将数据分成三部分(或更多):用于定义模型的训练集,用于优化模型并选择其可能依赖的任何自由“超参数”的验证集,以及仅用于报告和比较模型最终性能的测试集。我们的模型并没有超参数,因此,我们只需要对数据进行双向拆分。H、 分析表3中排除和包含的行业列表。

67
mingdashike22 在职认证  发表于 2022-6-11 06:08:40
被排除在分析之外的行业,因为它们在城市中的出现是由政府决定的,或者主要是由需求的可用性而不是供应能力的可用性驱动的。NAICS标题113林业和伐木114渔业、狩猎和捕获115农业和林业支持活动211石油和天然气开采212采矿,除石油和天然气之外213采矿支持活动447加油站482铁路运输483水运486管道运输487风景和观光运输491邮政服务516互联网出版和广播521货币当局-中央银行921行政、立法和一般政府922司法、公共秩序,安全活动923人力资源计划管理924环境计划管理925社区和住房计划管理926经济计划管理927空间研究和技术928国家安全和国际事务999非机密表4。

68
nandehutu2022 在职认证  发表于 2022-6-11 06:08:43
由于城市中出现的行业主要是由供应驱动的,因此我们将其纳入分析。NAICS标题NAICS标题111作物生产453杂项商店零售商112动物生产和水产养殖454非商店零售商221公用事业481空运236建筑施工484卡车运输237重型和土木工程施工485过境和地面客运238专业贸易承包商488运输支持活动311食品制造492名信使和信使312饮料和烟草制品制造493仓储和储存313纺织厂511出版行业,互联网除外314纺织厂512电影和录音行业315服装制造515广播,除互联网316皮革及相关产品制造517电信321木制品制造518数据处理、托管及相关服务322纸张制造519其他信息服务323印刷及相关支持活动522信贷中介及相关活动324石油和煤炭产品制造523证券、商品合同,投资325化工制造524保险公司和相关活动326塑料和橡胶制品制造525个基金、信托、,和其他金融工具327非金属矿产品制造531房地产331初级金属制造532租赁服务332金属制品制造533非金融无形资产出租人333机械制造541专业技术服务334计算机和电子产品制造551公司管理和enterprises335电气设备和器具制造商。

69
kedemingshi 在职认证  发表于 2022-6-11 06:08:46
561行政和支持服务336运输设备制造562废物管理和修复服务337家具和相关产品制造611教育服务339杂项制造621流动医疗服务423商户批发商,耐用品622医院424商户批发商,非耐用品623护理和住宿护理设施425电子市场和代理商及经纪人624社会援助441汽车和零部件经销商711表演艺术和观众体育442家具和家居用品商店712博物馆、历史遗址、动物园和公园443电子和电器商店713娱乐、赌博、,和娱乐444家建筑材料和花园用品店721家住宿445家食品和饮料店722家食品服务和饮用场所446家健康和个人护理店811家维修和保养448家服装和服装配件店812家个人和洗衣服务451项运动、爱好、乐器、,书店813个会员协会和组织452家百货商店814家私人业主。改变因变量的影响我们在正文中表明,当比较回归不同形式的因变量对城市和现象固定效应的模型时,我们的模型表现最好。但是函数y,ln(y)和- ln公司(- ln(y))?图9显示,将人均利率的对数取一次,会放大最小值之间的差异。有趣的是,取两次对数似乎可以放大大小值,但放大程度较低。图10显示了根据三种转换,我们数据中每资本价值的直方图。

70
mingdashike22 在职认证  发表于 2022-6-11 06:08:49
这一效应解释了为什么次优模型不是回归固定效应的人均利率对数,而是直接回归人均值,而不取对数。图9:。对0到1之间的数字取重对数的效果。图10:。因变量y、ln(y)和- ln公司(- ln(y)),其中y是2016年不同行业和城市的就业率。J、 根据城市经济复杂性的不同,城市和行业排名的演变图11和图12显示了根据模型估计的驱动因素排名的变化。复杂性和集体专有技术从1990年持续到2016年。城市排名仅显示了前100个MSA,我们重点介绍了一些锈带城市。K、 美国集体专有技术的地理分布图13。1990年和2016年美国大都会统计区地图的地理比较,以集体专有技术的排列为颜色。0.000.050.100.15200920102011201321201420152016年鉴Coef。对数(人口)-0.9-0.6-0.30.020009201020112013201420152016年Coef。对于日志(平均年入学率)-1.00-0.75-0.50-0.250.0020092011201120132014201152016年Coef。对于日志(行业复杂性)0123420092010201120122013201420152016YearOLS Coef。对于log(集体专有技术)因变量:log(平均初始规模)(按年份的多元回归)0.0000.0250.0500.0750.1002009201011201321201420152016yearols Coef。对数(人口)0.00.10.20.30.40.5200920102011201321201420152016年Coef。对于日志(平均年教育)0.00.10.20.320092010120112013201420152016年Coef。对于log(行业复杂性)0.00.20.40.620009201020112201301201420152016yearols Coef。对于log(集体专有技术)因变量:log(平均工资)(按年份的多元回归)图14。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-2 09:48