楼主: nandehutu2022
1744 36

[量化金融] 城市和地区的交叉排名:人口与收入 [推广有奖]

11
mingdashike22 在职认证  发表于 2022-5-8 08:02:55
应用程序。C包含一个关于皮尔逊系数的注释,以及一些支持考虑秩-秩相关性而非价值-价值相关性的论点。2数据人口数据来自意大利统计研究所(ISTAT)进行的2011年人口普查。经济数据由意大利经济和财政部研究中心提供。人口数据由居民人数构成,而经济数据则由近五年(2007-2011年)的IT GDP提供(总税收收入-ATI)。在这两种情况下,我们都有市一级的分类贡献(在ITa市或市中,表示为comuni,-复数comuni)。为了更好地理解本文的目的和结果,本文首先描述了IT管理结构。它由20个地区、100多个省和8000多个市组成。每个直辖市只属于一个省;每个省都包含在一个且只有一个地区。在所审查的五年期内,由于IT政治制度而进行的行政调整导致了不同数量的省和市。每个行政实体的城市数量也发生了变化,但地区数量一直保持在20个。因此,每年可用的ATI数据对应不同数量的城市。特别是,从2007年到2011年,城市的数量每年都在变化,分别为8101、8094、8094、8092、8092。附录A中给出了详细信息。表1给出了每个地区的城市数量随时间的变化。为了有意义,有必要比较相同的列表。我们认为2011年的最新“计数”是最基本的。

12
能者818 在职认证  发表于 2022-5-8 08:02:58
因此,根据IT行政法声明(另见http://www.comuni),我们考虑了在适当的(2011年之前)年份,城市的虚拟合并-意大利语。它/雷吉奥尼。html)。本着同样的精神,由此产生的城市(和地区)的ATI已被线性调整,就好像这些ATI在合并或城市吞噬之前就已经存在。所有ATI(rM)的统计特征摘要≡ N=8092)2007-2011年的IT城市如表2所示。关于意大利地区结构的统计概况,见表3。值得注意的是,随着时代的推移,城市的ATI排名也发生了一些变化。在计算总和或平均数时,要注意算术运算与同一个城市有关。例如,这里有两个3个同名城市;我们仔细地把它们区分开来。人口普查是对意大利人口的官方统计调查。它基于所有意大利人提供的响应,每10年进行一次。然而,也存在一些不规则的情况:1891年和1941年没有进行人口普查(前一种情况是由于经济困难,后一种情况是由于第二次世界大战),但在1936年进行了辅助人口普查。下次人口普查将于2021进行。莱尔北卡罗来纳州地区:2007 2009 2011伦巴第1546 1546↓ 1544皮埃蒙特1206威尼托581坎帕尼亚551阿拉巴马409西西里390拉齐奥378萨尔德尼亚377埃米利娅罗马尼亚341 341↑ 348Trentino Alto Adige 339↓ 333 Abruzzo 305Toscana 287普利亚258 Marche 246 246↓ 239利古里亚235Friuli Venezia Giulia 219↓ 218 Molise 136Basilicata 131Umbria 92Valle d\'Aosta 74Total 8101↓ 8094↓ 8092表1:N的数量(8092≡ rM)2011年和前几年(20)个IT地区的城市;按城市数量进行的区域排名与图1.2007 2008 2009 2011 5年平均值所示一致。敏。

13
kedemingshi 在职认证  发表于 2022-5-8 08:03:01
(x10)-5) 最大3.0455 2.9914 3.0909 3.6083 3.3479 3.3219。(x10)-10) 4.3590 4.4360 4.4777 4.5413 4.5490 4.4726总和(x10-11) 最大6.8947 7.0427 7.0600 7.1426 7.2184 7.0738。范围(rM)8092 8092 8092 8092 8092 8092平均值(u)(x10-7) 8.5204 8.7033 8.7248 8.8267 8.9204 8.7417中值(m)(x10-7) 2.2875 2.3553 2.3777 2.4055 2.4601 2.3828RMS(x10-8) 6.5629 6.6598 6.6640 6.7531 6.7701 6.682Std。偏差(σ)(x10)-8) 6.5078 6.6031 6.6070 6.6956 6.7115 6.6256Var。(x10)-17) 4.2351 4.3601 4.3653 4.4831 4.5044 4.3899标准。犯错误(x10)-6) 7.2344 7.3404 7.3448 7.4432 7.4609 7.3654偏斜度48.685 48.855 49.266 49.414 49.490 49.126峰度2898.7 2920.42 2978.1 2991.0 2994.7 2955.2u/σ0.1309 0.1318 0.1321 0.1319 0.13193(u- m) /σ0.2873 0.2884 0.2883 0.2878 0.2889 0.2879表2:2007-2011年IT城市(N=8092)ATI(欧元)统计特征(四舍五入)汇总。Nc,最小74最大1544平均值(u)404.6中间值(m)319RMS 536.998Std偏差(σ)362.253方差131 227.52Std误差81.0023偏斜度2.1284曲率3.8693u/σ1.1173(u- m) /σ0.7089表3:2011年各地区(Nr=20)IT城市数量(Nc=8092)分布(四舍五入)统计特征汇总。最大值为北卡罗来纳州,ris 1544(伦巴第),最小值为74(奥斯塔河谷),见表1。图1:Nc,rvs。五年期间该地区的排名;城市数量发生变化的地区用箭头表示↑ 或↓;箭头方向根据Nc的变化而定,如表1所示。fit对应于函数式(3.1);文本中给出了fit参数。图2:根据每年“所得税”的重要性,8902个IT城市2007-2011年年度ATI的半对数图;如插入部分所示,数据将按系数10或100重新缩放,以获得更好的可见性。

14
能者818 在职认证  发表于 2022-5-8 08:03:04
在rM/2附近可以很好地看到反射点~ 4000.(i)(8092)(ii)(20)p+q 32 736 186 190p- q 27 778 116 148p 30 256 042 169q 2 480 144 21肯德尔τ0.849 0.779斯皮尔曼ρ0.9637 0.9098皮尔逊∏0.9849 0.9787表4:肯德尔τ,等式(3.2)和斯皮尔曼ρ,等式(3.5)2007年期间,(i)在(8092)个城市或(ii)在(20)个地区的居民数量与相应的平均ATI之间的排序相关统计- 2011; 为了完整性,给出了皮尔逊∏值-值相关系数。图3:每个意大利城市<AT I>与其排名之间的排名-规模关系的半对数图(所检查的五年期的平均值);黑色点线对应于整个(8092)数据;绿色虚线对应于整个数据减去前8个城市异常值。图4:根据每年“所得税”的重要性,8902个IT城市2007-2011年年度ATI的对数图;如插入中所示,数据通过因子10或100重新缩放,以获得更好的可见性。与图2相比,这里更强调异常值,但反映点在rM/2附近~ 不太明显。3城市人口规模和ATI排名顺序分布在本节中,规模根据两个标准定义:(i)经济规模(2007-2011年期间的平均ATI)或(ii)人口规模(2011年的人口)。首先寻找经验排名-规模关系,见第节。3.1. 接下来使用Kendallτ系数比较两种标准下的秩配对,见第节。3.2. 下一步计算斯皮尔曼ρ系数,并在两种标准下进行比较,见第节。3.2. 应用程序中讨论了皮尔逊∏系数。C.3.1排名-规模关系我们根据各自的城市数量,按降序排列各地区。

15
mingdashike22 在职认证  发表于 2022-5-8 08:03:08
一般来说,数据的中心部分似乎符合指数略低于(-1)的幂律。然而,在低阶,通常有一个跳跃,而在高阶,有一个明显的向下弯曲。因此,为了获得数据范围中心附近的一个反射点,尝试采用双倍递减幂律的秩-大小规则,即分析形式[62]y(r)=a mr-m(N)- r+1)m,(3.1),其中r是秩,A是一个数量级振幅,是先验施加的,并适应数据,不丧失通用性,以便非线性fit过程更平滑地收敛,N当然是区域数。获得了A=10和N=8092的最佳3个参数:m=0.847;m=0.68;m=0.209:对于回归系数R=0.957和χ≥106 013,表明与上述方程式(图1)相当吻合。关于参数m,m和misposted的某些含义的进一步讨论被提交给Sect。5.图2给出了针对“区域ATI”的类似FIT研究,以及每年的asemi日志图。视觉上与图1相似的行为建议使用公式(3.1)进一步研究经济数据。接下来,我们对每个城市进行了五年期的未加权平均。图3显示了等级-大小关系。对于等式(3.1)中的函数,对于A=10和N=8092,最佳fit参数为m~ 27332;M~ 0.938; M~ 1.05:对于回归系数R=0.985和χ≥ 10,表明与上述等式(图3)相当吻合。然而,它在视觉上并不是很吸引人。从对数图(图4)可以看出,一些大城市(罗马、米兰、都灵、热那亚、那不勒斯、博洛尼亚、巴勒莫和费伦泽)似乎是异常值。我们已将这些异常值从整体财务报表中删除。

16
能者818 在职认证  发表于 2022-5-8 08:03:11
当前8名城市被删除时,最好的结果就是m~ 1.725;M~ 0.725; M~ 0.055:对于回归系数R=0.998,以及χ≥(图3)。它更好,视觉上更吸引人。在附录B中,验证了在考虑的五年期内计算ATI的平均值不会使分析产生偏差。3.2肯德尔τ系数在此讨论肯德尔τ测度。这样一个统计指标比较了一致性对p和非一致性对q的数量,即一个城市在两个(大小必须相等)列表中出现或不出现在同一级别的次数。这种测量是一种常见的相关系数,它可以发现不同测量的排名是否具有一定的规律性。换句话说,测量两个等大小数据之间的互相关的肯德尔τ系数类似于两个等大小时间序列的互相关函数[41,42]。因此,肯德尔τ与皮尔逊相关系数一样,允许与统计物理理论相联系:尤其是,它是一种类似于线性响应理论相关系数的装置。为了更精确,请注意τ就像线性响应理论[63,64]和凝聚态物质[42]中的反对角线广义磁化率,因为变量是两个不同的“函数”,一个是经济变量,一个是人口变量。根据定义,τ=p- qp+q,(3.2)表明排名有多稳定。当然,p+q=N(N-1) /2,其中n是两组(大小必须相等)中的城市数(此处为8092个)或区域数(20个);因此,p+q=32736186(城市)或p+q=190(地区)。用于计算Kendallτ,即。

17
kedemingshi 在职认证  发表于 2022-5-8 08:03:15
找到p、q和p- q、 例如,参见[65],逐步形式的程序(仅概述了城市的情况)如下:o制作一个两列表格:第(1)列为市政名称,第(2)列为平均值对第(4)列中的人口数据和第(3)列中的市政名称也要这样做根据第(2)列中的平均ATI、r<AT I>对第(1)列中的城市进行排名,例如按降序排列根据人口规模对第(3)列中的城市进行排名,rNinhabin第(4)列也按降序排列比较城市的位置(“排名”列(1)和(3)),即在两个排序中,城市出现在同一排名(p)或不同排名(q)的次数。Kendallτ、公式(3.2)、Z、公式(3.3)和其他相关数据的值,用于根据2011年的调查结果得出的居民人数与五年期(小于2007年)的平均ATI之间的相关性- 表4给出了从Wessa算法[65]获得的数据。从表4中观察到τ~ 0.85.从纯统计角度来看,在秩集独立的零假设下,抽样的期望值τ=0。对于大样本,通常使用均值为零和方差的正态分布近似值,以便通过计算来强调系数τ的重要性:Z=τστ≡τq2(2N+5)9N(N-1). (3.3)这里,对于城市,N=8092,στ=0.00741。注意τ\'0.85(\'1)和Z\'115。因此,可以得出结论,仅从统计角度来看,尽管存在不同的制度,但两人的排名有很强的规律性。

18
nandehutu2022 在职认证  发表于 2022-5-8 08:03:19
在热力学意义上,系统呈现出不同的阶段。3.3斯皮尔曼秩相关系数本节包含斯皮尔曼ρ的计算和相关讨论。首先需要回顾皮尔逊系数的定义,即两个变量x和y的协方差与各自标准偏差的乘积的比率,即∏=∑xy- N(σx)(σy)p[(σx)- N∑x]。[(∑y)- N∑y](3.4)在通常的符号中。很容易证明,皮尔逊系数衡量的是平均值偏差之间的相关性,即波动之间的相关性,如线性响应理论中的传输系数。在本例中,∏与τ一样,对应于反对角线项。因此,它也有一些直接的统计物理吸引力。斯皮尔曼秩序相关系数ρ是皮尔逊相关系数的基于秩的版本,即被测量量的值x和y被替换为等式(3.4)中相应的秩(有关秩的计算,请参阅上一节列出的算法的前四个项目):ρ=∑rxry- N∑rx∑ry∑q[∑rx)- N∑rx]。[(∑ry)- N∑ry]≡∑(rx)- < rx>)(ry- < ry>)p∑(rx- < rx>)∑(ry)- < (3.5)值得注意的是,除了斯皮尔曼式方程式(3.4)中出现的秩函数的乘积外,其他项仅与测量的数量N有关;e、 g.∑ry=N(N+1)/2。相比之下,Kendallτ反映了一致性和不一致性的数量,与数据集的基数无关,因此是一种概率度量。

19
大多数88 在职认证  发表于 2022-5-8 08:03:22
必然地,肯德尔的τ似乎包含了更多关于分布的信息,并且从统计结论来看似乎更可靠:事实上,一些不正确的值数据对错误的不一致对的数量的影响小于错误的绝对值对皮尔逊的影响,而斯皮尔曼也具有系数,尤其是对于有限大小的样本[66]。斯皮尔曼系数是在市政层面(ρ~0.9637)和区域水平(ρ~ 0.9098),见表4。图5:<AT I>的城市等级散点图(检查五年期的平均值)和每个意大利城市的居民数量。正如预期的那样,发现了高值。事实上,斯皮尔曼ρ的值通常比肯德尔τ的值大,在我们的计算中,肯德尔τ的值更大(见表4)。因此,斯皮尔曼ρ证实了肯德尔τ在市ZF和区域层面上的经济和人口数据之间的规律性。4结果与讨论在本节中,对实证结果进行了评论,并考虑了数字、经济、历史、人口和政治因素。城市等级相关性(平均ATI与人口)散点图如图5所示,使用[65]获得。在拉长的点云中,许多城市的排名大致相同,但存在明显的偏差。可获得主“惯性轴”:itreads:rNinhab=178.35(±15)+0.956(±0.003)r<AT I>。沿惯性轴观察到一些对称性偏差。一项详细的统计分析表明,差异分布- r<AT I>略显负面;偏斜~ -0.57; 中位数=92。

20
nandehutu2022 在职认证  发表于 2022-5-8 08:03:25
忽略异常值尾部,分布在负rNinhab上呈现平滑变化- r<在I>侧,然后是接近0区域的尖峰,然后是rNinhab的尖峰- r<AT I>范围。这意味着找到图6的概率:<AT I>的散点图(检查五年期的平均值)和所有意大利城市的居民数量;线性函数强调了两组城市。图7:意大利城市居民数量的对数散点图和<AT I>(所检查五年期的平均值);主惯性轴如图所示。图8:Ni、rin IT地区和平均地区ATI与五年期地区排名的对比。这些功能对应于功能EQ。(3.1); 文本中给出了fit参数。图9:该地区<AT Ir>的散点图以及不同地区意大利城市的居民数量(Ni,r);两组区域从线性特征中得到了强调,再加上离群的伦巴第。图10:<AT I>地区等级相对于地区等级居民数量的散点图;linearbest Fits.rNinhab强调了区域集≤ r<AT I>约为40%。这表明两个均匀/相似分布的叠加。观察<AT I>的散点图(所检查的五年期的平均值)和所有城市的居民数量也是有意义的;这如图6所示。需要强调的是数据点云内部的一些结构:两组城市似乎存在。这一点通过视觉区分两组数据点和随后的线性特征来明确显示:一组(i)(蓝色虚线)y=16791.15X,以及(ii)(红色点线)y=9311.28x。整体系数给出了比例(iii)(黑色连续线)y=15942.30 x。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-1 23:10