楼主: mingdashike22
411 16

[量化金融] 基于非连续自组织的职业轨迹分析 [推广有奖]

11
nandehutu2022 在职认证  发表于 2022-6-24 22:18:02
在断开连接的情况下,例如d13,21=+∞ d26,31=5,而在经典网格中,d13,21=1,d26,37=4。对于两个单位i和j,如果i和j之间存在边,则邻接矩阵i的条目(i,j)为1,如果不存在边,则为0。                                          (a) (b)图1:(a)由8个单元组成的5串断开映射的二维表示和(b)经典(5×8)栅格映射的表示。总之,通过限制只在宏类内部起作用的合作,并保持所有单元之间的竞争,该算法允许我们获得给定数量的宏类,这些宏类本身是自组织的。我们可以将这种拓扑称为D-SOM。另一个有趣的选择是星形图,如图2所示。这张图是一个清晰的自然中心,不同的手臂或光线从这里生长。如果不同的光线对应不同的类别,那么用户可以很容易地解释这种图形,而中心收集“正常”模式。组织发生在每条射线上,到中心的距离以有序的方式描述模式的特征。这些图形可以用射线的数量和长度来表示。使用这种拓扑的SOM将被称为自组织星(SOS)(如Come等人(2010)[6]所定义)。图2显示了星形邻域结构的示例。在这种情况下,例如3,20=5。图2:具有8个单位的5条射线的星形地图的二维表示。还有其他方法可以获得分离良好的类,例如参见[12]。

12
何人来此 在职认证  发表于 2022-6-24 22:18:06
但我们的方法有所不同,因为我们不寻求通过重复多次运行SOM算法来在代码向量之间构建邻接矩阵。相反,我们使用先验邻接矩阵定义星形类或非连通类。也可以使用【13】或【14】中的U矩阵可视化,或【15】中的代码向量直接聚类来定义宏类。在下文中,我们在经典网格情况下实现了代码向量的分层升序分类,以将类分组到先前固定数量的宏类中,请参见[8]。这两种拓扑结构(D-SOM、SOS)都非常适合于劳动力市场细分的分析,因为人们希望将细分划分为具有良好辨别力的宏观类,划分为有组织的数据类。在一般情况下,如果存在先验参数,则选择宏类别数的问题由先验参数指导。在我们的案例中,我们选择了5个宏类,这是获得对比和良好识别情况的最佳选择。事实上,在文献中,作者通常选择了4个细分市场(例如,参见最近两项关于真实市场的研究,法国和德国劳动力市场[4],[5])。但我们必须为美国经济增加第五个细分市场,这与两个或更多工作的常规做法相对应(这在美国经济中是一种相当普遍的做法,而在法国和德国则很少见)。这就是为什么要选择五个宏观类别,而不是经济模型可能无法解释的其他数字。现在,让我们描述一下对PSID数据使用这三种拓扑得到的结果。4、比较m aps,选择拓扑我们对三种不同的拓扑使用Kohonen算法:一种是(5×8)网格上的I类拓扑,一种是由8个单元组成的5条线组成的D-SOM,一种是由8个单元组成的5条线组成的SOS。

13
kedemingshi 在职认证  发表于 2022-6-24 22:18:09
类的总数几乎是sa me(40、40和41个单元)。数据包括41467对夫妇(年,个人),由8个数量变量组成的8向量表示。初始类别(微观级别)的数量由可用观察值的数量决定:在该级别构建的描述性统计数据必须使用每个类别中的有效观察值数量进行计算。大约有40000个观测值,将每个大类划分为8个单元,得到40个类,平均每类100个观测值。图3(a)、(b)和(c)显示了每个ma p的码向量:每个码向量的8个分量按照表1中定义的顺序显示。他们组织得很好。SOMmap在各个方向上进行组织,而其他somma则在每个字符串中进行组织。从定量的角度来看,比较三张地图的一个指标是量化误差,这是聚类质量的一个衡量指标。我们认为平方内和为:SCwithin=Xxkx- mc(x)k,(3),其中c(x)=arg mini∈{1,…,K}| | x- mi | |。(4) 这只是模式空间中每个模式x与其BMU的代码向量之间的平方距离之和。然后我们确定总平方和asSCtotal=Xxkx- (R)xk。(5) 因此,我们可以确定相对量化误差a s:RQE=SCwithinSCtotal。(6) 相对量化误差越小,分类越好。第二个指标是扩展到相邻代码向量的平方和与总平方和之间的比率。

14
mingdashike22 在职认证  发表于 2022-6-24 22:18:12
如果我们注意到(如【16】所示),则扩展=XxXk∈V(c(x))| V(c(x))| | | x- mk | |,(7)-202468-202468-202468-202468-202468                     (a)-202468-202468-202468-202468-202468                     (b)-2.-2.-2.-2.-2.                    (c) 图3:(a)SOM映射(经典网格邻域)codebo ok r表示,(b)D-SOM映射码本表示,(c)SOS映射码本表示。对于每个码本,其在特征空间中的坐标用表1所示的特征顺序进行描述。对于每个子批次,我们在横坐标中找到特征编号,在纵坐标中找到码本特征的标准值。其中V(c(x))是c(x)的邻域集,由图的邻接矩阵定义,我们可以计算相对扩展的量化误差:RQEext=SCextendedSCtotal。(8) RQEEmiversion的一个小值表示组织良好,因为它意味着映射上的相邻码向量在模式空间中很接近。为了进行比较,将三种可能的解决方案,即SOM、D-SOM和SOS,用相同的程序和参数(线性递减学习率和Gaussianneighborhood函数,每种方法运行一次)拟合到PSID数据中,相关结果如表3所示。表3显示,D-SOM在单位级别上比其他方法获得更好的量化。这是因为map约束较少,所以自适应算法为RQE找到了更好的最小值。对于相对扩展的量化误差,D-SOM和SOS的结果接近并优于SOM情形的结果。此外,D-SOM和SOS使我们能够得到良好的对比,并易于解释宏观分类。

15
nandehutu2022 在职认证  发表于 2022-6-24 22:18:15
由于我们的主要目标是构建健壮的宏类,因此我们决定只考虑这两种拓扑。RQE RQEextSOM 22.23%40.37%D-SOM 12.79%22.01%SOS 16.79%22.36%表3:三种拓扑的相对量化误差和相对扩展量化误差,单位为%。因此,在单元级,D-SOM拓扑在该特定数据集上实现了最佳结果,因此这种拓扑似乎更适合这种情况。同样类型的质量度量可以作为第三个指标在宏观类级别上计算。为此,我们定义:SCmacro=Xxkx- Mb(x)k,(9),其中b(x)给出x的宏类数,例如b(x)=s,s∈ {1,…,S},其中S是映射中宏观类的数量,Msis是宏观类S成员的经验平均值。通过平方和的总和对该数量进行归一化,可以得到一个标准化的质量度量:RQEmacro=SCMACROCTOL。(10) 对于D-SOM拓扑和SOS拓扑,如果恒星的每一条射线都与一个宏类加上一个宏类相关联,则可以很容易地计算出该数量。由于基于矩形网格的经典SOM拓扑没有定义此类宏类,因此必须使用额外的步骤,使用K-means(15)或层次升序聚类(HAC)来构建宏类。我们在这里使用后者来构建经典SO M映射中的宏类。使用这种方法,可以计算RQEmacrowith的演化与SOM映射的宏类数量的对应关系,如图4所示。

16
能者818 在职认证  发表于 2022-6-24 22:18:18
因此,我们能够在宏类级别上比较具有5个宏类的三个贴图的相对量化误差。结果如表4所示。RQEmacroSOM+HAC 60.4%D-SOM47.5%SOS 55.7%。0 5 10 15 20 25 30 35 400.10.20.30.40.50.60.70.80.91 HAC集群数量图4:RQEMACRO相对于SOM+HAC宏类数量的演变。该质量度量得出的结论与之前的相同,D-SOM在PSID数据集上表现更好,与其他两种方法的差异更为明显。正如预期的那样,由于数据描述较粗糙,因此结果比单位级别的结果差。所有这些因素促使我们选择具有五个类别的D-SOM拓扑作为参考,以研究本文研究的PSID数据集。即使D-SOM似乎是最佳选择,我们也可以从经济角度分析SOM和D-SOM之间的比较。最好的方法是在近二十年的时间里,在不断变化的经济政策和经济环境的影响下,对特定的劳动力市场做出最清晰的解释。潜在的全球解释是,这个劳动力市场不是一个同质市场,而是一组在活动水平、工资和资历方面差异很大的子市场;它们之间的联系,例如工人从一个部门转移到另一个部门的能力,是理解经济体系的重要点。4.1. D-SOM算法产生的宏观类别分析如果基本假设“劳动力市场由5个不同于观察期的细分市场组成”成立,则该拓扑结构适用于整个样本。

17
kedemingshi 在职认证  发表于 2022-6-24 22:18:21
如果这是错误的,我们可以看到一些宏类对应于第一个周期,其他的对应于第二个周期:这不是我们所发现的。见表5。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-21 13:32