楼主: 可人4
279 12

[量化金融] 基于非连续自组织的职业轨迹分析 [推广有奖]

  • 0关注
  • 2粉丝

会员

学术权威

76%

还不是VIP/贵宾

-

威望
10
论坛币
15 个
通用积分
46.5432
学术水平
0 点
热心指数
1 点
信用等级
0 点
经验
24566 点
帖子
4099
精华
0
在线时间
0 小时
注册时间
2022-2-24
最后登录
2022-4-15

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Analysis of Professional Trajectories using Disconnected Self-Organizing
  Maps》
---
作者:
Etienne C\\^ome (IFSTTAR/COSYS/GRETTIA), Marie Cottrell (SAMM), Patrice
  Gaubert (ERUDITE)
---
最新提交年份:
2015
---
英文摘要:
  In this paper we address an important economic question. Is there, as mainstream economic theory asserts it, an homogeneous labor market with mechanisms which govern supply and demand for work, producing an equilibrium with its remarkable properties? Using the Panel Study of Income Dynamics (PSID) collected on the period 1984-2003, we study the situations of American workers with respect to employment. The data include all heads of household (men or women) as well as the partners who are on the labor market, working or not. They are extracted from the complete survey and we compute a few relevant features which characterize the worker\'s situations. To perform this analysis, we suggest using a Self-Organizing Map (SOM, Kohonen algorithm) with specific structure based on planar graphs, with disconnected components (called D-SOM), especially interesting for clustering. We compare the results to those obtained with a classical SOM grid and a star-shaped map (called SOS). Each component of D-SOM takes the form of a string and corresponds to an organized cluster. From this clustering, we study the trajectories of the individuals among the classes by using the transition probability matrices for each period and the corresponding stationary distributions. As a matter of fact, we find clear evidence of heterogeneous parts, each one with high homo-geneity, representing situations well identified in terms of activity and wage levels and in degree of stability in the workplace. These results and their interpretation in economic terms contribute to the debate about flexibility which is commonly seen as a way to obtain a better level of equilibrium on the labor market.
---
中文摘要:
在本文中,我们讨论一个重要的经济问题。主流经济理论认为,是否存在一个同质的劳动力市场,其机制控制着工作的供求,并以其显著的特性产生均衡?利用1984-2003年期间收集的收入动态面板研究(PSID),我们研究了美国工人的就业情况。这些数据包括所有户主(男性或女性)以及在劳动力市场上工作或不工作的伴侣。它们是从完整的调查中提取出来的,我们计算了一些描述工人情况的相关特征。为了进行这种分析,我们建议使用一种基于平面图的具有特定结构的自组织映射(SOM,Kohonen算法),其中包含断开连接的组件(称为D-SOM),这对于聚类来说尤其有趣。我们将结果与经典SOM网格和星形映射(称为SOS)得到的结果进行了比较。D-SOM的每个组件都采用字符串的形式,并对应于一个有组织的集群。从这个聚类中,我们利用每个周期的转移概率矩阵和相应的平稳分布来研究类中个体的轨迹。事实上,我们发现了明显的异质部分的证据,每个部分都具有高度的同质性,代表着在活动和工资水平以及工作场所的稳定程度方面得到很好识别的情况。这些结果及其在经济学方面的解释,引发了关于灵活性的争论,而灵活性通常被视为在劳动力市场上获得更高水平均衡的一种方式。
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:Economics        经济学
分类描述:q-fin.EC is an alias for econ.GN. Economics, including micro and macro economics, international economics, theory of the firm, labor economics, and other economic topics outside finance
q-fin.ec是econ.gn的别名。经济学,包括微观和宏观经济学、国际经济学、企业理论、劳动经济学和其他金融以外的经济专题
--

---
PDF下载:
--> Analysis_of_Professional_Trajectories_using_Disconnected_Self-Organizing_Maps.pdf (564.56 KB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:轨迹分析 自组织 Professional distribution Quantitative

沙发
何人来此 在职认证  发表于 2022-6-7 20:02:16 |只看作者 |坛友微信交流群
第8节专门讨论最近的文章,并得出总结主要结果的结论。数据:第一阶段(1984、86、88、90、92)和第二阶段(93、95、97、992001、03)我们使用PSID(收入动态面板研究),将观察分为两个阶段,以实现两个目标:一方面观察大量足够大的工人,以获得代表整个人口的统计指标,另一方面保持每个阶段都有个人在场,以确定轨迹。我们为每个时期(1984-1992、1993-2003)创建一个样本。通过查看每个时期定量变量的描述性统计,我们可以假设两个时期具有相同的特征。因此,我们可以将所有观察结果一起进行分类。在PSID中,我们每年在每个iod中选择户主(男性或女性)在户主中的家庭,并在每个时期分别进行选择。行政规则是,如果家里有男性,他就是户主,如果没有,户主就是女性。幸运的是,如果有关于实验室或市场活动的相同变量,也可以用于头部的妻子/父亲。通过检索这些信息,我们组成了一组个人(3965可在线访问http://psidonline.isr.umich.edu/in在每个时期,每两年观察一次,女性的比例接近于在整个人口中观察到的比例。观察包括一对夫妇(年、个人)。其中一个由8个定量变量和2个定性变量描述。

使用道具

藤椅
可人4 在职认证  发表于 2022-6-7 20:02:18 |只看作者 |坛友微信交流群
变量列表及其含义见表1。姓名描述最小最大类型Httrav每周工作小时数0-112 Quantnbstrav工作周数0-52 Quantnbschom失业周数0-52 Quantnbsret离开劳动力市场的周数0-52 Quantsalhor实际小时工资0-83.85 Quantnbex额外工作数0-5 Quanthortex额外工作小时数0-1664 Quantantctrav在当前工作中的资历0-780个月Quantgender性别2模式资格年龄组(<30,30-45,>45)3模式资格表1:PSID数据集的变量名称、描述和类型。pr电子处理包括删除具有明显不一致值的观测值,例如每年we e k的数量大于52。经过这一筛选,1467项观察结果构成了我们的工作数据库。观察到的当前工资使用1992年(第一个iod)或2003年(第二个周期)的PIB价格指数换算为实际美元。最后,对8个定量变量进行集中和简化,以标准化数量级。

使用道具

板凳
大多数88 在职认证  发表于 2022-6-7 20:02:23 |只看作者 |坛友微信交流群
我们可以计算这些变量的相关矩阵,如表2所示。nbhtrav 1 0.72-0.04-0.14 0.36 0.0 5 0.01 0.23nbstrav0.72 1-0.23-0.30 0.38 0.6 0.01 0.30nbschom-0.04-0.23 1 0.02-0.09-0.01-0.01-0.11nbsret-0.14-0.30 0.02 1-0.10-0.04-0.04-0.12salhor0.36 0.38-0.09-0.10 1 0.0 7 0.05 0.31nbex 0.05 0.06-0.01-0.04 0.07 1 0.7 2 0.00轴0.01 0.01-0.01-0.04 0.0 5 0.72 1-0.01 ANCTRAV 0.23 0.30-0.11-0.12 0.3 1 0.00-0.01 1表2:相关性定量变量矩阵。我们观察到,变量每周工作小时数(nbhtrav)、工作周数(nbstrav)、美元小时工资(salhor)和当前月工作资历(anctrav)呈强正相关,它们与失业周数(nbschom)和离开劳动力市场周数(nbsret)相反。与兼职相关的变量与其他变量不相关。3、SOM、Di连接自组织映射(D-SOM)、自组织星(SOS)3.1。Kohonen算法(SOM)在其经典表述中【7,8】,SOM算法是一种迭代算法,它在训练模式xjn上迭代以下两个步骤,以计算代码向量集mi,i∈{1,…,K}其中定义了映射:o竞争步骤,该步骤旨在为样本xj找到最佳匹配单位(BMU):c=arg mini∈{1,…,K}| | xj- mi | |。(1) o协作步骤,该步骤旨在移动BMU及其邻居s(在地图上)的代码向量,使其更接近训练模式:mi(t+1)=mi(t)+α(t)hci(t)[xj- mi(t)],(2)用t表示时间步长,α(t)表示算法的学习率,hci(t)表示时间t时单元c和i之间的邻域函数。通常使用几种邻域函数,如hci(t)=1(dci<σt)或hci(t)=exp(-dci/2σt)。所有这些都依赖于半径σt,该半径在学习过程中经典地减小。

使用道具

报纸
mingdashike22 在职认证  发表于 2022-6-7 20:02:26 |只看作者 |坛友微信交流群
这些邻域函数还取决于dci:单位之间的距离cand i,由地图拓扑决定。在协作步骤中,最佳匹配码向量mcare的坐标会更新,以使其更接近训练模式。其他代码向量Mi也根据它们与晶格定义的BMU之间的距离dCif向训练模式移动。来自BMU的闭合码向量比其他向量更受影响。这两个步骤在几个时期内对数据集进行迭代,直至收敛。由于协作步骤,在算法结束时实现了自组织。可以看出,图中单元之间的距离对算法的自组织特性起着关键作用;对该距离的修改将对算法的结果产生影响。因此,格结构可以作为一种将有关数据集拓扑的先验信息纳入维数缩减过程的方法。在经典SOM的背景下,我们假设数据集拓扑可以有效地用网格或直线表示,但其他假设可能很有趣,可以进行有利的研究。已经注意到,图论可以用来定义这种距离[9,10]。在这种情况下,地图单元是图的节点,它们之间的距离定义为每个节点从另一个节点开始所需的最小边数,即所谓的最短路径距离。因此,我们建议仅通过将邻接矩阵(见[11])作为输入来修改SOM算法,邻接矩阵指定了用户所需的图拓扑。

使用道具

地板
mingdashike22 在职认证  发表于 2022-6-7 20:02:31 |只看作者 |坛友微信交流群
理论上可以使用所有无向图,但有一个特殊类别很有趣:平面图类别,因为这样的图可以很容易地在二维环境中重新呈现,使我们能够为SOM提供可视化,如下一节所示。3.2. 新拓扑图一个有趣的选择是由一个由几个不相连的一维字符串组成的地图定义的。每个字符串将包含大致相似的数据,并以有序的方式显示。这种拓扑有一个特殊的意义:当地图由不相连的部分组成时,该算法的“协作”步骤只涉及作为获胜单元的属于同一组件的单元。竞争步骤没有修改,因此算法满足双重目标:1。将观察结果分组为宏观类,对应于图形的不同断开组件;2、组织宏类内部的单元。图1显示了我们在此定义的一个断开的邻域结构和一个经典的g rid邻域的示例。

使用道具

7
kedemingshi 在职认证  发表于 2022-6-7 20:02:34 |只看作者 |坛友微信交流群
在断开连接的情况下,例如d13,21=+∞ d26,31=5,而在经典网格中,d13,21=1,d26,37=4。对于两个单位i和j,如果i和j之间存在边,则邻接矩阵i的条目(i,j)为1,如果不存在边,则为0。                                          (a) (b)图1:(a)由8个单元组成的5串断开映射的二维表示和(b)经典(5×8)栅格映射的表示。总之,通过限制只在宏类内部起作用的合作,并保持所有单元之间的竞争,该算法允许我们获得给定数量的宏类,这些宏类本身是自组织的。我们可以把这个拓扑称为D-SOM。另一个有趣的选择是星形图,如图2所示。这张图是一个清晰的自然中心,不同的手臂或光线从这里生长。如果不同的光线对应不同的类别,那么用户可以很容易地解释这种图形,而中心收集“正常”模式。组织发生在每条射线上,到中心的距离以有序的方式描述模式的特征。这些图形可以用射线的数量和长度来表示。使用这种拓扑的SOM将被称为自组织星(SOS)(如Come等人(2010)[6]所定义)。图2显示了星形邻域结构的示例。在这种情况下,例如3,20=5。图2:具有8个单位的5条射线的星形地图的二维表示。还有其他方法可以获得分离良好的类,例如参见[12]。

使用道具

8
nandehutu2022 在职认证  发表于 2022-6-7 20:02:37 |只看作者 |坛友微信交流群
但我们的方法有所不同,因为我们不寻求通过重复多次运行SOM算法来在代码向量之间构建邻接矩阵。相反,我们使用先验邻接矩阵定义星形类或非连通类。也可以使用【13】或【14】中的U矩阵可视化,或【15】中的代码向量直接聚类来定义宏类。在下文中,我们在经典网格情况下实现了代码向量的分层升序分类,以将类分组到先前固定数量的宏类中,请参见[8]。这两种拓扑结构(D-SOM、SOS)都非常适合于劳动力市场细分的分析,因为人们希望将细分划分为具有良好辨别力的宏观类,划分为有组织的数据类。在一般情况下,如果存在先验参数,则选择宏类别数的问题由先验参数指导。在我们的案例中,我们选择了5个宏类,这是获得对比和良好识别情况的最佳选择。事实上,在文献中,作者通常选择了4个细分市场(例如,参见最近两项关于真实市场的研究,法国和德国劳动力市场[4],[5])。但我们必须为美国经济增加第五个细分市场,这与两个或更多工作的常规做法相对应(这在美国经济中是一种相当普遍的做法,而在法国和德国则很少见)。这就是为什么要选择五个宏观类别,而不是经济模型可能无法解释的其他数字。现在,让我们描述一下对PSID数据使用这三种拓扑得到的结果。4、比较m aps,选择拓扑我们对三种不同的拓扑使用Kohonen算法:一种是(5×8)网格上的I类拓扑,一种是由8个单元组成的5条线组成的D-SOM,一种是由8个单元组成的5条线组成的SOS。

使用道具

9
nandehutu2022 在职认证  发表于 2022-6-7 20:02:40 |只看作者 |坛友微信交流群
类的总数几乎是sa me(40、40和41个单元)。数据包括41467对夫妇(年,个人),由8个数量变量组成的8向量表示。初始类别(微观级别)的数量由可用观察值的数量决定:在该级别构建的描述性统计数据必须使用每个类别中的有效观察值数量进行计算。大约有40000个观测值,将每个大类划分为8个单元,得到40个类,平均每类100个观测值。图3(a)、(b)和(c)显示了每个ma p的码向量:每个码向量的8个分量按照表1中定义的顺序显示。他们组织得很好。SOMmap在各个方向上进行组织,而其他somma则在每个字符串中进行组织。从定量的角度来看,比较三张地图的一个指标是量化误差,这是聚类质量的一个衡量指标。我们认为平方内和为:SCwithin=Xxkx- mc(x)k,(3),其中c(x)=arg mini∈{1,…,K}| | x- mi | |。(4) 这只是模式空间中每个模式x与其BMU的代码向量之间的平方距离之和。然后我们确定总平方和asSCtotal=Xxkx- (R)xk。(5) 因此,我们可以确定相对量化误差a s:RQE=SCwithinSCtotal。(6) 相对量化误差越小,分类越好。第二个指标是扩展到相邻代码向量的平方和与总平方和之间的比率。

使用道具

10
kedemingshi 在职认证  发表于 2022-6-7 20:02:44 |只看作者 |坛友微信交流群
如果我们注意到(如【16】所示),则扩展=XxXk∈V(c(x))| V(c(x))| | | x- mk | |,(7)-202468-202468-202468-202468-202468                     (a)-202468-202468-202468-202468-202468                     (b)-2.-2.-2.-2.-2.                    (c) 图3:(a)SOM映射(经典网格邻域)codebo ok r表示,(b)D-SOM映射码本表示,(c)SOS映射码本表示。对于每个码本,其在特征空间中的坐标用表1所示的特征顺序进行描述。对于每个子批次,我们在横坐标中找到特征编号,在纵坐标中找到码本特征的标准值。其中V(c(x))是c(x)的邻域集,由图的邻接矩阵定义,我们可以计算相对扩展的量化误差:RQEext=SCextendedSCtotal。(8) RQEEmiversion的一个小值表示组织良好,因为它意味着映射上的相邻码向量在模式空间中很接近。为了进行比较,将三种可能的解决方案,即SOM、D-SOM和SOS,用相同的程序和参数(线性递减学习率和Gaussianneighborhood函数,每种方法运行一次)拟合到PSID数据中,相关结果如表3所示。表3显示,D-SOM在单位级别上比其他方法获得更好的量化。这是因为map约束较少,所以自适应算法为RQE找到了更好的最小值。对于相对扩展的量化误差,D-SOM和SOS的结果接近并优于SOM情形的结果。此外,D-SOM和SOS使我们能够得到良好的对比,并易于解释宏观分类。

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-11-6 00:25