楼主: nandehutu2022
2147 36

[经济学] 拓扑数据分析和联合国儿童基金会多指标类集调查 [推广有奖]

11
何人来此 在职认证  发表于 2022-4-26 16:07:19 |只看作者 |坛友微信交流群
自1995年成立以来,多指标类集调查(MICS)已成为全球最大的妇女、儿童和青少年数据来源。在联合国儿童基金会的支持和实施下,该项目目前已进入第六个多年期(MICS6)。20多年来,在117个国家进行了341次多指标类集调查,帮助制定了改善妇女和儿童福祉的政策。中等收入国家是联利特派团发展目标指标的主要数据来源,并将继续是联合国2030年可持续发展议程的主要数据来源。MICS调查由多个模块组成,一些是标准的,一些是根据特定国家的需要调整的。收集了一些问题的数据,如生育率、死亡率、避孕、新生儿和母亲健康以及各种其他社会经济参数。一些模块是家庭层面的,而其他模块是个人层面的。6.JUN RU ANDERSON、FAHRUDIN MEMI\'C和ISMAR VOLI\'C这项调查由训练有素的工作团队与家庭成员进行面对面访谈。这些数据可从MICS网站公开用于研究目的。[4]中对中等收入国家调查、其方法、历史和意义进行了极好的概述。2.3。财富指数和财富分数。从MICSsurveys中提取的一条重要信息是财富指数。这种计算方法通过对家庭资产和设施所有权进行排序来获取累积财富。部分中等收入国家调查问题用于计算财富指数。这些问题适用于每个国家,并根据其对解释家庭财富的恰当性进行选择。

使用道具

12
kedemingshi 在职认证  发表于 2022-4-26 16:07:25 |只看作者 |坛友微信交流群
就我们在本文中考虑的塞尔维亚而言,用于计算财富指数的2014-2015年ICS调查问题的子集与受访者居住的物质空间和特征有关。最初的财富指数计算通过MICS4使用,在2008年进行了修改,以考虑城市偏见。当前版本包括以下步骤:(1)选择一组被认为与财富相关的变量。(2) 对城市和农村地区分别进行主成分分析(PCA)。(3) 对整个人群进行PCA。(4) 将城市和农村因素得分回归到普通人群的得分上。(5) 获得综合财富分数。(6) 将综合财富得分分配给每个家庭(所有家庭成员的得分相同)。(7) 根据综合财富得分,将家庭分成五个相等的群体,从最穷到最富有,每个群体包含20%的家庭成员。Household最后的五分之一是它的财富指数。更详细地说,主成分分析(PCA)是一种数据缩减技术,是财富指数构建的核心。PCA从一组与财富相关的变量中提取一组不相关的主成分,从而将数据集中的几个变量减少到更小的维度中。每个维度或主成分都是初始变量的加权线性组合,最能解释方差。换句话说,每个主成分都是变量的总和乘以它们的权重。在每个主成分中,每个变量的权重是不同的,并从数据的相关矩阵中推导出来。对成分进行排序,以便第一个主成分能够解释数据中最大的变化量。

使用道具

13
可人4 在职认证  发表于 2022-4-26 16:07:33 |只看作者 |坛友微信交流群
财富分数计算方法使用第一主成分作为财富的代表。3.方法3。1.2014-2015年塞尔维亚MICS数据。本文重点关注塞尔维亚2014-15年的MICS5数据,该国参与了所有六轮MICS5(MICS6数据将于2020年底提供)。最后三个见https://mics.unicef.org.A讨论多指标类集调查方法的论文数量也可在https://mics.unicef.org/publications/reports-and-methodological-papers.TDA对塞尔维亚的两个独立样本进行了7轮多指标类集调查:全国代表性样本和居住在罗姆人定居点的人口样本。本文中的分析涵盖了塞尔维亚ICS5调查在全国代表性样本上的数据。我们的分析集中在以下34个问题上:(1)你有空调吗?(2) 你有动物拉的车吗?(3) 你有银行账户吗?(4) 你有床吗?(5) 你有自行车吗?(6) 有有线电视吗?(7) 你有车吗?(8) 你有洗碗机吗?(9) 你有烘干机吗?(10) 你有电炉吗?(11) 你有电吗?(12) 你有冰箱吗?(13) 你有冰箱吗?(14) 你有吹风机吗?(15) 你有互联网吗?(16) 你有熨斗吗?(17) 你有微波炉吗?(18) 你有手机吗?(19) 你有摩托车还是摩托车?(20) 你有非手机吗?(21)你拥有自己的住所吗?(22)你拥有可用于农业的土地吗?(23)你养动物吗?(24)你有个人电脑/笔记本电脑吗?你有收音机吗?你有带椅子的桌子吗?你有电视机吗?(28)你有拖拉机吗?你有卡车吗?你有吸尘器吗?(31)你有衣橱吗?你有洗衣机吗?你有手表吗?你有热水器吗?这些都是关于物质财产的是/否问题。

使用道具

14
可人4 在职认证  发表于 2022-4-26 16:07:39 |只看作者 |坛友微信交流群
这些问题的答案易于编码,TDA过滤函数易于定义。原则上,人们可以将TDA分析建立在考虑不同目的的不同问题子集的基础上;我们将在第7.1节中对此做出一些评论。在接受调查的7351个家庭中,6147个家庭回答了上述所有34个问题,1160个家庭没有回答任何问题,44个家庭回答了其中一些问题,但不是全部问题。我们对回答了全部34个问题的家庭进行分析。对每个问题的“是”或“否”回答分别编码为1和0。家庭对这些问题的回答将是一个坐标为0或1的向量torx=(x,…,x),用xi编码第i个问题的答案。数据集将包含6147个长度为34的二进制向量。我们的大部分分析都与将财富评分数据叠加到上述问题的地图上有关。塞尔维亚的财富评分问题比这些问题更广泛,除了物质财富之外,他们还收集关于水资源、住宅特征等方面的数据。回答上述34个问题的6147户家庭的财富评分值从-7.68至1.40,震级平均值<0.001,标准偏差为0.99,偏差为-2.48.从图2和图3可以明显看出,财富分数分布的低端有一条长尾;这可以从分布的偏斜以及简单地查看密度图中看出。正如引言中所述,这是我们相信TDA可以提供的功能之一。在第5.1.2节中,我们讨论了TDA如何帮助识别哪些财产(或缺乏财产)能够区分尾部的家庭。

使用道具

15
mingdashike22 在职认证  发表于 2022-4-26 16:07:45 |只看作者 |坛友微信交流群
我们还在第5.1.3.8节JUN RU ANDERSON、FAHRUDIN MEMI’C和ISMAR VOLI’C图2中讨论了如何使用TDA对家庭进行分类。塞尔维亚财富分数分布图3。塞尔维亚财富分数的彩色编码可视化。应该注意的是,在分布的高端没有相应的尾部。有可能不存在这样的尾部,但另一种解释是中等收入国家的调查问题在中等富裕家庭和极端富裕家庭之间没有区别。3.2. 韵律学。如第2.1节所述,为了将Mapper算法应用于塞尔维亚数据集X,我们首先需要确定两个家庭的响应向量X=(X,…,X)和y=(y,…,y)之间的距离d(X,y)。我们希望距离函数满足两个直观的性质:(1)如果x和z在x和y一致的地方一致,那么x和z必须至少与x和y一样接近。更正式地说,如果oA是家庭x和y一致的问题集,oB是家庭x和z一致的问题集,以及oA B、 然后d(x,z)≤ d(x,y)。TDA和MICS 9(2)不寻常的相似性应该被更加重视。换句话说,如果许多家庭拥有电视,但拥有汽车的家庭较少,那么两个都拥有汽车的家庭比两个都拥有电视的家庭更能体现相似性。为了满足这两个条件,我们设计了一个新的半度量。我们首先计算了34个项目中对问题i回答“是”的家庭的比例。这就是Household对这个问题回答“是”的概率。注意,通过假设不同问题之间的独立性,可以从这些概率中生成随机响应向量。如果两个家庭的回答相同,我们将他们之间的距离定义为零。

使用道具

16
nandehutu2022 在职认证  发表于 2022-4-26 16:07:52 |只看作者 |坛友微信交流群
否则,我们将确定两个家庭同意哪些问题,并将距离定义为两个随机生成的响应向量同意这些问题的概率。换句话说,如果x 6=y,而p=(p,…,p)是拥有34个项目的家庭比例的向量,我们定义为:x×x-→ R(x,y)7-→ d(x,y)=Y1≤我≤34:xi=yipi+(1)- pi)。从定义中可以明显看出,这满足了半度量的条件,即d(x,y)≥ 0,od(x,y)=0==> x=y,od(x,y)=d(y,x)。然而,这个距离函数严格地说是一个半度量而不是度量,因为它可能违反了三角形不等式,也就是说,对于某些x,y,z,d(x,y)>d(x,z)+d(y,z)是可能的。然而,d(x,y)确实满足上面列出的两个理想条件:因为π是概率,π∈ [0,1],因此pi+(1- (圆周率)∈ [0, 1]. 如果x和y对问题A达成一致,x和z对问题B和A达成一致 B、 我们有(x,z)=Yi∈Bpi+(1)- pi=Yi∈Api+(1)- pi)·易∈“A∩Bpi+(1)- pi)=d(x,y)·Yi∈“A∩Bpi+(1)- (圆周率)≤ d(x,y)进一步,π+(1)- pi)是数据集中两个随机家庭同意问题i的概率,是一条抛物线,最小值为0.5。因此,更罕见的相似性对产品d(x,y)的贡献更小,这比更常见的相似性更能减少两个家庭之间的差异。我们的大多数分析将使用这种基于概率的半度量(第4.1节)。然而,为了进行比较,我们还使用标准欧几里德度量(第4.2节)在数据集X上运行Mapper算法。过滤功能。对于filter函数,我们对每个向量x的分量求和∈ X.统计一个家庭报告拥有的物品数量。因此,乍一看,拥有相似数量财产的家庭在图中被分组在一起。

使用道具

17
可人4 在职认证  发表于 2022-4-26 16:07:58 |只看作者 |坛友微信交流群
然后,在每个开放集10 JUN RU ANDERSON、FAHRUDIN MEMI’C和ISMAR VOLI’C中进行聚类。图像将基于一个家庭拥有哪些物品,而不是一个家庭拥有多少物品。下表总结了多少家庭报告拥有任何数量的物品。例如,该表显示,239户家庭报告拥有34项调查中的18项,或448户报告欠27项。Pi=1xi1 2 3 4 6 7 8 9 10 11 12 13 14 15 17 18计数2 0 6 6 10 7 20 23 33 38 56 54 85 101 158 239Pi=1xi19 20 21 22 24 25 26 28 29 30 31 32 33计数303 371 473 561 607 710 670 616 448 276 131 71 8 1要形成该滤波函数图像的覆盖,我们使用10个重叠30%的间隔。下面是一张表格,总结了过滤器图像的封面。间隔编号为0-9。例如,第一个区间包括报告拥有34件物品中1至5件(含)的家庭,共有23个这样的家庭。重要的是要记住,间隔是重叠的。区间数0 1 2 3 4 6 7 8 9区间元素1-5 4-8 7-11 11-14-18 17-21-24 24-28 27-31 30-34住户计数23 52 106 181 637 1544 2351 2720 956 1113.4。集群。我们使用了DBSCAN,这是一种广受好评的通用聚类算法。DBSCAN需要两个参数:minPts和 并将任何数据点x分类为至少具有最小点的无差别数据点 (包括x本身)作为核心点。任何一点都可以 x的位置与x放在同一个簇中。

使用道具

18
nandehutu2022 在职认证  发表于 2022-4-26 16:08:04 |只看作者 |坛友微信交流群
如果y本身是一个核心点,那么 y的位置与y位于同一簇中;这将被逐次应用,直到所有点都聚集在一起,每当到达簇的边缘时,都会选择一个新的x。任何非核心点且不在核心点群中的点都被归类为异常值。minPts的选择通常由ln(n)来指导,其中n是数据集中的观察数。在这种情况下,n=6147,回答全部34个问题的家庭数量,因此ln(n)≈ 8.7.我们选择minPts为10,所以我们希望选择 这样一个半径为10的球这意味着一个集群。选择, 我们绘制了数据集中每个点到其第9个最近邻点的距离,如图4所示。这张图有一个清晰的“肘”对于肘部上方的距离值d,我们预计大多数点在d内至少会有9个其他点,从而产生过于粗糙的簇。另一方面,对于d的值低于图的大部分,我们预计很少有点在距离d内至少有10个点;因此,我们的核心点非常少,许多点被归类为异常值。因此,我们选择 大致位于图表的肘部底部,即我们选择 = 10-4.对于欧几里得度量,我们可以重复这个过程。选择, 我们再次绘制数据集中每个点到其第9个最近邻的距离,如图5所示。很难分辨出一个清晰的肘部。因为数据是二进制的,坐标是0或1,所以欧几里德度量只产生点之间可能的离散距离集。我们使用1.5作为.有关DBSCAN的更多信息,请参阅https://scikit-learn.org/stable/modules/generated/sklearn.cluster.dbscan.html.TDA和图4。参数 选择位于肘部的大致底部。图5。

使用道具

19
mingdashike22 在职认证  发表于 2022-4-26 16:08:10 |只看作者 |坛友微信交流群
参数 通常选择在“肘部”的底部4.结果在查看映射图之前,我们先做一些符号约定和初步观察。给定映射图中的节点n将由(i,c)表示,其中i是住户所处的区间,c是n中住户所在的集群(在区间i内)。请注意,c的标签是任意的,而i的标签是根据家庭报告拥有的物品数量升序排列的。例如,节点(3,0)指的是包含(或指)来自区间3的住户的节点(拥有34个调查项目中的11到14个),这些住户被DBSCAN聚类到区间3的聚类0中。节点(3,1)指包含从区间3聚集到区间3的群集1的住户的节点。节点(2,0)是指包含来自区间2的住户的节点,这些住户由DBSCAN聚集到区间2的群集0中。如第2.1节所述,当节点重叠表示簇时,节点之间存在边。因为每个间隔在每一侧最多重叠一个其他间隔(正如我们将12 JUN RU ANDERSON、FAHRUDIN MEMI\'C和ISMAR VOLI\'Cto映射到一维空间),簇只能与直接位于其上方或下方的间隔中的其他簇重叠(例如,间隔1中的簇只能与间隔0或2中的簇重叠)。因此,一个节点在其自身和一个节点之间只能有一条边,该节点代表一个以上或以下间隔的集群。请注意,根据定义,给定间隔内的簇是不相交的,因此一个节点自身和代表同一间隔内簇的另一个节点之间不能有边。

使用道具

20
能者818 在职认证  发表于 2022-4-26 16:08:16 |只看作者 |坛友微信交流群
因此,(3,0)和(3,1)在定义上是相互排斥的(也就是说,没有家庭可以同时存在),但(2,0)不一定与(3,0)或(3,1)相互排斥。4.1。基于概率的半度量。图6显示了使用第3.2节中描述的半度量值和第3.3节中的过滤函数生成的映射图。回想一下,每个节点代表一组家庭,这些家庭包含在图像中的单个间隔中。每个节点根据其所代表的集群中家庭的平均财富分数上色,紫色对应低平均财富分数,黄色对应高平均财富分数。节点的大小反映了节点中代表的家庭数量。图6。使用概率半度量生成的塞尔维亚2014-15年MICS数据的映射图。每个节点的颜色基于组成家庭的平均财富分数。较暗的颜色表示财富分数较低。图形的形状无关紧要;该图应被视为同构图。例如,图7给出了节点(5,0)中家庭的财富分数分布。表8总结了每个节点的关键统计信息。请注意,总户数为7220户。这是因为,由于间隔重叠,一些家庭出现在多个节点中,而其他家庭则没有出现在任何节点中,因为DBSCAN将其归类为异常值。文章末尾的表14和表15总结了每个节点的家庭如何回答每个问题。4.2. 欧几里得度量。图9显示了使用欧几里德度量生成的映射图。和以前一样,每个节点都是基于它所代表的家庭的平均财富分数来着色的。Wesee 9个节点,每个间隔一个节点,间隔1除外。

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-10-6 20:37