楼主: mingdashike22
380 16

[量化金融] 基于非连续自组织的职业轨迹分析 [推广有奖]

11
能者818 在职认证  发表于 2022-5-8 20:23:44
在断开连接的情况下,例如d13,21=+∞ d26,31=5,而在经典网格中,d13,21=1和d26,37=4。对于两个单位i和j,如果i和j之间存在边,则邻接矩阵i的条目(i,j)为1,如果不存在边,则为0。                                          (a) (b)图1:(a)由8个单元组成的5个字符串组成的断开地图的二维表示;(b)经典(5×8)栅格地图的表示。总之,通过限制只在宏类内部起作用的合作,并保持所有单元之间的竞争,该算法允许我们获得给定数量的自组织宏类。我们可以把这个拓扑称为D-SOM。另一个有趣的选择是一个星形图,如图2所示。这张图是一个清晰的自然中心,不同的手臂或光线都是从这个中心生长出来的。如果不同的光线对应不同的类别,用户可以很容易地解释这种图形,我们将在中心收集“正常”模式的同时识别类别。组织发生在每条射线上,到中心的距离以有序的方式描述模式的特征。这些图形可以用射线的数量和长度来表示。使用这种拓扑结构的SOM将被称为自组织星(SOS)(如Come et al.(2010)[6]所定义)。图2显示了一个星形邻域结构的示例。在这种情况下,例如3,20=5。图2:由8个单位的5条光线组成的星形地图的二维表示。还有其他方法可以获得分离良好的类,例如参见[12]。

12
可人4 在职认证  发表于 2022-5-8 20:23:48
但是我们的方法是不同的,因为我们不寻求通过重复多次SOM算法来在代码向量之间建立邻接矩阵。相反,我们施加一个先验邻接矩阵,定义星形类或非连通类。也可以使用[13]或[14]中的U矩阵可视化,或[15]中的直接码向量聚类来定义宏类。在下文中,我们实现了经典网格情况下代码向量的分层升序分类,将类分组为之前固定数量的宏类,请参见[8]。这两种拓扑结构(D-SOM、SOS)都非常适合于劳动力市场细分的分析,因为人们希望将细分划分为具有良好辨别力的宏观类,并将其划分为有组织的数据类。在一般情况下,选择宏类数的问题由先验参数(如果存在)指导。在我们的案例中,我们选择了5个宏类,这是获得对比和良好识别情况的最佳选择。事实上,在文献中,作者通常选择了4个细分市场(例如,参见最近两项关于真实市场的研究,法国和德国劳动力市场[4],[5])。但我们必须为美国经济增加第五个细分市场,这与两个或两个以上工作岗位的常规做法相对应(这在美国经济中是一种相当普遍的做法,而在法国和德国是罕见的)。这就是为什么要选择五个宏观类别,而不是经济模型可能无法解释的其他数字。现在,让我们描述一下使用这三种拓扑对PSID数据得到的结果。4.比较m aps,选择一种拓扑。我们对三种不同的拓扑使用Kohonen算法:一种(5×8)网格上的I类拓扑,一种由8个单元组成的5串D-SOM,一种由8个单元组成的5条射线组成的SOS。

13
大多数88 在职认证  发表于 2022-5-8 20:23:51
课程的总数几乎是相同的(40、40和41个单元)。数据包括41467对夫妇(年,个人),由8个数量变量组成的8向量表示。初始类别(微观级别)的数量由可用观察值的数量决定:在该级别构建的描述性统计必须使用每个类别中的有效观察值数量进行计算。通过大约40000次观察,将每个大类划分为8个单元,得到40个类,平均每类100次观察。图3(a)、(b)和(c)显示了每个ma p的代码向量:每个代码向量的8个组成部分按照表1中定义的顺序显示。他们组织得很好。SOMmap是在各个方向上组织的,而其他的则在每个字符串中组织。从定量的角度来看,比较三张地图的一个指标是量化误差,这是聚类质量的一个衡量标准。我们认为平方和的内和为:scin=Xxkx- mc(x)k,(3)式中c(x)=arg mini∈{1,…,K}| | x- |mi。(4) 这只是模式空间中每个模式x和其BMU的代码向量之间的平方距离之和。然后我们确定总平方和asSCtotal=Xxkx- “xk。(5) 因此,我们可以定义相对量化误差a s:RQE=SCwithinSCtotal。(6) 相对量化误差越小,分类越好。第二个指标是扩展到相邻代码向量的平方和与总平方和之间的比率。

14
mingdashike22 在职认证  发表于 2022-5-8 20:23:54
如果我们注意到(如[16]所示),SCextended=XxXk∈V(c(x))|V(c(x))| |x- mk | |,(7)-202468-202468-202468-202468-202468                     (a)-202468-202468-202468-202468-202468                     (b)-2.-2.-2.-2.-2.                    (c) 图3:(a)SOM映射(经典网格邻域)码本表示,(b)D-SOM映射码本表示,(c)SOS映射码本表示。对于每个码本,其在特征空间中的坐标用表1中的特征顺序进行描述。对于每个子批次,我们在横坐标中找到特征编号,并在纵坐标中找到码本特征的标准值。其中V(c(x))是c(x)的邻域集,由图的邻接矩阵定义,我们可以计算相对扩展的量化误差:RQEext=SCextendedSCtotal。(8) RQEEminate的一个小值表示组织良好,因为它意味着地图上的相邻码向量在模式空间中很接近。为了进行比较,三种可能的解决方案,即SOM、D-SOM和SOS,以相同的程序和参数(线性递减学习率和高斯尼荷霍德函数,每种方法运行一次)对PSID数据进行了拟合,相关结果如表3所示。表3显示,D-SOM在单位级别的量化效果优于其他方法。这是因为map约束较少,所以自适应算法为RQE找到了更好的最小值。对于相对扩展的量化误差,D-SOM和SOS的结果接近并优于SOM情形的结果。此外,D-SOM和SOS使我们能够得到良好的对比,并易于解释宏观分类。

15
kedemingshi 在职认证  发表于 2022-5-8 20:23:58
由于我们的主要目标是构建健壮的宏类,所以我们决定只考虑这两种拓扑。RQE RQEextSOM 22.23%40.37%D-SOM 12.79%22.01%SOS 16.79%22.36%表3:三种拓扑的相对量化误差和相对扩展量化误差,单位为%。因此,在单元级,D-SOM拓扑在该特定数据集上实现了最佳结果,因此这种拓扑似乎更适合这种情况。同样类型的质量度量可以作为第三个指标在宏类级别计算。为此,我们定义:SCmacro=Xxkx- Mb(x)k,(9),其中b(x)给出x的宏类数,比如b(x)=s,s∈ {1,…,S}其中S表示映射中的宏类数,Msis表示宏类S成员的经验平均数。通过平方和的总和对该数量进行归一化,可以得到一个标准化的质量度量:RQEmacro=SCMACROCTOAL。(10) 对于D-SOM拓扑和SOS拓扑,如果恒星的每一条射线都与一个宏类加上一个宏类相关联,则可以很容易地计算出该数量。由于基于矩形网格的经典SOM拓扑没有定义此类宏类,因此必须使用额外的步骤,使用K-均值[15]或分层升序聚类(HAC)[8]来构建它们。我们在这里使用后者来构建经典SO M映射中的宏类。使用这种方法,可以计算RQEMACRO的演化,并与OM映射的宏类数量相对应,如图4所示。

16
mingdashike22 在职认证  发表于 2022-5-8 20:24:01
因此,我们能够在宏类级别上对三个具有5个宏类的映射进行相对量化误差的比较。结果如表4所示。RQEMocrosom+HAC 60.4%D-SOM47。5%SOS 55.7%表4:宏类级别f的相对量化误差或%.05 10 15 20 25 30 35 400.10.20.30.40.50.60.70.80.91 HAC簇的数量图4:RQEMACRO相对于SOM+HAC宏类数量的演变。这种质量度量得出的结论与之前的相同,D-SOM在PSID数据集上表现更好,与其他两种方法的差异更为明显。正如预期的那样,由于数据的描述更粗糙,因此结果比单位级别的结果更差。所有这些因素促使我们选择具有五个类别的D-SOM拓扑作为参考,以研究本文中的PSID数据集。即使D-SOM似乎是最佳选择,我们也可以从经济角度分析SOM和D-SOM之间的比较。最好的解释是,在近二十年的时间里,在不断变化的经济政策和经济环境的影响下,对特定的劳动力市场做出了最清晰的解释。潜在的全球解释是,这个劳动力市场不是一个同质市场,而是一系列在活动水平、工资和资历方面完全不同的子市场;它们之间的联系,例如工人从一个部门转移到另一个部门的能力,是理解经济体系的重要点。4.1. D-SOM算法产生的宏观类分析如果基本假设“劳动力市场由5个细分市场组成,且在观察期内相互独立”成立,则该拓扑结构适用于整个样本。

17
何人来此 在职认证  发表于 2022-5-8 20:24:04
如果这是错误的,我们可以看到一些宏类对应于第一个周期,其他的对应于第二个周期:这不是我们所发现的。见表5。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-22 01:01