楼主: nandehutu2022
2146 36

[经济学] 拓扑数据分析和联合国儿童基金会多指标类集调查 [推广有奖]

  • 0关注
  • 4粉丝

会员

学术权威

75%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
66.7366
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
24498 点
帖子
4088
精华
0
在线时间
1 小时
注册时间
2022-2-24
最后登录
2022-4-20

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Topological data analysis and UNICEF Multiple Indicator Cluster Surveys》
---
作者:
Jun Ru Anderson, Fahrudin Memic, Ismar Volic
---
最新提交年份:
2020
---
英文摘要:
  Multiple Indicator Cluster Surveys (MICS), supported by UNICEF, are one of the most important global household survey programs that provide data on health and education of women and children. We analyze the Serbia 2014-15 MICS dataset using topological data analysis which treats the data cloud as a topological space and extracts information about its intrinsic geometric properties. In particular, our analysis uses the Mapper algorithm, a dimension-reduction and clustering method which produces a graph from the data cloud. The resulting Mapper graph provides insight into various relationships between household wealth - as expressed by the wealth index, an important indicator extracted from the MICS data - and other parameters such as urban/rural setting, ownership of items, and prioritization of possessions. Among other uses, these findings can serve to inform policy by providing a hierarchy of essential amenities. They can also potentially be used to refine the wealth index or deepen our understanding of what it captures.
---
中文摘要:
由联合国儿童基金会支持的多指标类集调查(MICS)是最重要的全球家庭调查项目之一,提供有关妇女和儿童健康和教育的数据。我们使用拓扑数据分析对塞尔维亚2014-15 MICS数据集进行分析,拓扑数据分析将数据云视为拓扑空间,并提取关于其内在几何特性的信息。特别是,我们的分析使用了Mapper算法,这是一种降维和聚类方法,可以从数据云生成图形。由此产生的映射图可以深入了解家庭财富与其他参数之间的各种关系,如城市/农村环境、物品所有权和财产优先级等。家庭财富由财富指数表示,财富指数是从多指标类集调查数据中提取的一个重要指标。在其他用途中,这些发现可以通过提供基本设施的层次结构来为政策提供信息。它们还可能被用来完善财富指数,或加深我们对它所反映的内容的理解。
---
分类信息:

一级分类:Physics        物理学
二级分类:Physics and Society        物理学与社会
分类描述:Structure, dynamics and collective behavior of societies and groups (human or otherwise). Quantitative analysis of social networks and other complex networks. Physics and engineering of infrastructure and systems of broad societal impact (e.g., energy grids, transportation networks).
社会和团体(人类或其他)的结构、动态和集体行为。社会网络和其他复杂网络的定量分析。具有广泛社会影响的基础设施和系统(如能源网、运输网络)的物理和工程。
--
一级分类:Economics        经济学
二级分类:General Economics        一般经济学
分类描述:General methodological, applied, and empirical contributions to economics.
对经济学的一般方法、应用和经验贡献。
--
一级分类:Quantitative Finance        数量金融学
二级分类:Economics        经济学
分类描述:q-fin.EC is an alias for econ.GN. Economics, including micro and macro economics, international economics, theory of the firm, labor economics, and other economic topics outside finance
q-fin.ec是econ.gn的别名。经济学,包括微观和宏观经济学、国际经济学、企业理论、劳动经济学和其他金融以外的经济专题
--

---
PDF下载:
--> Topological_data_analysis_and_UNICEF_Multiple_Indicator_Cluster_Surveys.pdf (890.9 KB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据分析 联合国 基金会 Quantitative Contribution

已有 1 人评分经验 收起 理由
wwqqer + 100 精彩帖子

总评分: 经验 + 100   查看全部评分

沙发
nandehutu2022 在职认证  发表于 2022-4-26 16:06:23 |只看作者 |坛友微信交流群
拓扑数据分析和联合国儿童基金会多指标聚类调查Jun RU ANDERSON、FAHRUDIN MEMI\'C和ISMAR VOLI\'CAbstract。由联合国儿童基金会支持的多指标类集调查(MICS)是最重要的全球家庭调查项目之一,提供有关妇女和儿童健康和教育的数据。我们使用拓扑数据分析对塞尔维亚2014-15 MICS数据集进行分析,拓扑数据分析将数据云视为拓扑空间,并提取关于其内在几何特性的信息。特别是,我们的分析使用了Mapper算法,这是一种降维和聚类方法,可以从数据云生成一个图。由此产生的映射图提供了家庭财富与其他参数(如城市/农村环境、物品所有权和财产优先顺序)之间的各种关系的洞察——如财富指数所示,财富指数是从多指标类集调查数据中提取的一个重要指标。在其他用途中,这些发现可以通过提供基本设施的层次结构来为政策提供信息。它们还可能被用于重新定义财富指数,或加深我们对其所捕获内容的理解。内容1。导言21.1。论文的组织31.2。致谢42。背景42.1。映射算法42.2。多指标聚类调查52.3。财富指数和财富得分63。方法63.1。2014-15塞尔维亚MICS数据63.2。指标83.3。过滤功能93.4。聚类104。结果114.1。基于概率的半度量124.2。欧几里得度量125。讨论145.1。将信息叠加到地图145.2上。基于概率的映射器176的图论性质。结论197。未来工作207.1。其他中等收入国家调查数据207.2。其他国家207.3。其他TDA方法涉及24个关键词和短语。

使用道具

藤椅
大多数88 在职认证  发表于 2022-4-26 16:06:30 |只看作者 |坛友微信交流群
多指标聚类调查、多指标类集调查、财富指数、拓扑数据分析、Mapperalgorithm、Mapper graph、联合国儿童基金会。2 JUN RU ANDERSON、FAHRUDIN MEMI\'C和ISMAR VOLI\'C1。导言多指标类集调查(MICS.unicef.org)是关于健康、教育和妇女儿童福祉的家庭数据最重要的全球来源之一。在联合国儿童基金会的支持下,自20世纪90年代中期以来,已经在100多个国家开展了这些活动。这些数据是通过对全国代表性家庭样本的面对面访谈收集的,可以以各种方式进行分类。多指标类集调查分多年进行,为政府和机构制定、告知和实施社会经济和卫生政策提供工具和指导。MICS数据和文档可在MICS网站上免费获取。更多细节可在调查文章[4]中找到。从多指标类集调查中可以计算出并归属于每个家庭的一个重要参数是其财富指数。这个数字基本上反映了基于某些物品所有权的家庭财富,是评估一个国家经济状况的重要且广泛使用的工具。通过数据的标准主成分分析(PCA)进行计算,财富指数取决于第一个主成分。本文的目的是利用拓扑数据分析(TDA)对MICS数据和财富指数进行分析。这是一种相对较新的技术,它试图从数据云的形状中提取内在信息,并将这些信息解释为数据的特征。有关TDA及其应用的概述,请参见[1,2,6]。目前有几种成功的TDA方法正在使用,本文中我们将使用的是Matper算法,这是由Singh、M’emoli和Carlsson[8]提出的。

使用道具

板凳
能者818 在职认证  发表于 2022-4-26 16:06:36 |只看作者 |坛友微信交流群
Mapper是一种无监督的机器学习算法,本质上是一种降维和聚类过程。其想法是将数据简化为一个映射图,以保留数据云的各种拓扑特征。根据某种距离概念,图中的节点表示“附近”的点簇,而边表示簇的重叠。由于该算法能够保留数据的“形状”,同时保留局部(节点)和全局(边缘)信息,因此它似乎比其他降维过程(如PCA)捕捉到更多信息。同时,它是一个强大的可视化工具,因为它将高维云导出为图形。Mapper在医学、基因组分析、神经科学、化学、遥感、土壤科学、农业、体育、投票和经济学等领域发挥了巨大作用(参考文献集见[3])。然而,我们认为,利用TDA研究生活标准和财富不平等是一种新颖的方法。更详细地说,我们将Mapper算法应用于2014-15年塞尔维亚的MICS调查。该数据集的选择完全取决于作者之一(Memi\'c)密切参与创建、执行和分析塞尔维亚的多指标类集调查,因此非常熟悉该方法、现场数据收集和调查后统计分析。本文关注塞尔维亚的事实在很多方面是次要的;值得注意的是,Mapper算法对多指标类集调查数据提供了不同的观点,可用于为决策提供信息。

使用道具

报纸
kedemingshi 在职认证  发表于 2022-4-26 16:06:43 |只看作者 |坛友微信交流群
我们的分析可以在任何多指标类集调查数据集上进行,事实上,未来的比较研究可以揭示哪些社会经济指标针对世界上特定的国家或地区,哪些更具普遍性。进入Mapper图表的数据基于34个调查问题的是/否答案(包括MICS提出的所有问题)。这些数据被赋予了一个距离函数,该函数捕捉到了这样一个想法,即“亲密”的家庭是那些拥有相似的一组距离的家庭,并且一些财产比其他财产不那么常见。这导致了一种基于概率的半度量的定义,这种定义以前似乎没有在文献中使用过。TDA和MIC3Mapper生成后,我们从中提取两组观测值。一种方法是将信息叠加到映射器上,即根据财富指数或特定项目的所有权为节点着色。该分析深入了解了财富与农村/城市生活方式、物品所有权和特定类型家庭之间的关系。这是了解如何最有效地提高生活水平的潜在有用信息;例如,它表明,对大多数人来说,家庭设施比小玩意更重要。鉴于财富分数分布的低端有一条长尾(图2),这一点很有帮助,这表明数据集包含许多家庭,这些家庭的财富——以及人们可能会因此怀疑的生活水平——低于平均水平的几个标准差。我们的分析提供了一些关于哪些财产可能最有效地提高这些家庭生活水平的见解。我们研究映射器的另一种方法是观察它的图论性质,即路径和曲面。

使用道具

地板
能者818 在职认证  发表于 2022-4-26 16:06:48 |只看作者 |坛友微信交流群
研究这些路径可以深入了解家庭在项目所有权方面的相对优先级。Mapper的一个优点是,它可以在没有现场证据表明可能存在这种关系的情况下,拾取材料间隙之间的非单调关系。另一方面,闪光似乎以一种比仅仅基于收入和资产更微妙的方式告知我们对家庭分类的理解。由于映射器执行从局部到全局的信息提取,因此查看具有不同覆盖颜色的同一图形可以让我们清楚地看到总体趋势和与这些趋势的偏差,而不会受到噪声的影响。分析布尔数据的能力和叠加颜色的应用都让地图绘制者能够识别不同财产与财富之间的关系模式,并通过财富指数进行量化。这扩展了映射器和TDA作为假设生成方法的实用性。需要注意的是,我们的分析依赖于现有的财富衡量指标,即财富指数,因此我们不希望用我们的方法重新定义它。然而,由于Mapper是一种比PCA(计算财富指数的标准方法)更为精细的数据缩减技术,本文工作的一个收获是,Mapper或许可以作为一种更细致的方式来理解财富分数。1.1. 论文的组织。在撰写本文时,我们试图将对Mapper算法和底层拓扑的技术阐述减至最少。

使用道具

7
nandehutu2022 在职认证  发表于 2022-4-26 16:06:55 |只看作者 |坛友微信交流群
然而,读者需要熟悉基本统计学,包括对主成分分析(PCA)的粗略理解,以及线性代数和拓扑的基本概念,如地图和度量。论文组织如下:o在第2节中,我们提供了Mapper算法(第2.1节)和MICSsurveys(第2.2节)的背景知识,包括对财富分数和财富指数的简要回顾第3节介绍了用于生成映射图的数据和参数。特别是,第3.1节列出了二元答案为数学题提供输入的问题,并讨论了财富分数的分布,该分数在长端有一条长尾。第3.2节、第3.3节和第3.4节详细介绍了度量、过滤和聚类——为了生成映射器必须做出的选择。如上所述,我们对基于概率的(半)度量的定义似乎以前从未使用过,这是该设置中独立利益的一个特点第4节给出了两个映射器,一个由基于概率的半度量生成,另一个由欧几里德度量生成。后者只是提供了证据,证明前者更具信息性,值得研究。4 JUN RU ANDERSON、FAHRUDIN MEMI\'C和ISMAR VOLI\'Co我们在第5节中讨论和分析了映射器。我们首先在第5.1节中将各种信息叠加到地图上。如上所述,这导致人们对财富指数和城乡分割之间的关系进行了各种观察(第5.1.1节),并根据项目所有权对家庭进行了一些更细微的描述(第5.1.2节)。然后,我们在第5.2节中研究了映射器的一些图论性质。

使用道具

8
何人来此 在职认证  发表于 2022-4-26 16:07:01 |只看作者 |坛友微信交流群
通过连接其节点的各种路径,我们可以了解家庭拥有物品的相对优先级(第5.2.1节)。火炬,大致来说,是从地图主体分离出来的路径,以一级节点结束,另一方面,它提供了关于哪些物品被认为更豪华,哪些更重要的洞察我们在第6节总结了我们的结论第7节旨在说明,此处进行的分析只是将TDA应用于MICS数据的第一步,该方法具有很大潜力。制定了各种未来的调查方向,包括扩大用于生成图表的问题集以及叠加在图表上的问题集,根据不同的具有统计意义的参数修改度量和过滤函数,以及该方法的应用对塞尔维亚以外国家的数据集进行了分析。1.2. 致谢。第三作者得到了西蒙斯基金会的部分支持。2.背景2。1.映射算法。Mapper算法允许我们将高维数据集可视化为图形。该图保留了原始数据云的许多几何特性,如连通性和孔洞的存在,但更易于分析。从数据集X开始 Rn由一些高维欧氏空间Rn中的向量组成,用户首先指定一个降维函数h:X→ RDF称为过滤器或投影。过滤器通常具有一定的统计意义,其变化取决于要公开的数据的上下文和所需的特征。由于d通常比n小得多,所以目标空间更易于管理。

使用道具

9
何人来此 在职认证  发表于 2022-4-26 16:07:07 |只看作者 |坛友微信交流群
我们的过滤器将简单地提供一系列问题的有效答案(见第3.3节)。然后,过滤器的图像被m个重叠的超立方体覆盖,即间隔的乘积,其中m由用户选择。也可以选择重叠的程度。然后,对于每个超立方体i(其中1≤ 我≤ m) ,超立方体i的前映像中的数据点是聚集的。为了进行聚类,需要对数据进行距离函数。通常使用标准的欧几里德标准,但也会根据分析的上下文使用其他指标。事实上,我们只需要一个半度量,一个不一定满足三角线性质的距离函数。我们的距离函数实际上是一个半度量函数(见第3.2节)。它将基于概率考虑,以前文献中似乎没有使用过。有了“紧密度”的概念,我们就可以在过滤图的前图像上使用一些聚类算法,例如单链接层次聚类,来决定哪些数据点足够紧密,可以聚集在一起。然后,每个簇都成为映射器图中的一个节点。由于超立方体重叠,来自不同超立方体的聚类可能有共同的数据点。发生这种情况时,两个节点之间正好有一条边。换句话说,当且仅当两个节点所代表的簇具有非空相交时,两个节点通过一条边连接。或者更一般地说是一种简单的情结;我们不需要这个更通用的版本。TDA和MICS 5图1说明了R中一个简单数据集上的映射程序,即在这种情况下,每个数据点是一个包含两个分量的向量。映射器中节点的大小对应于其中聚集的数据点的数量。节点也可以根据被认为重要的属性进行着色。

使用道具

10
kedemingshi 在职认证  发表于 2022-4-26 16:07:13 |只看作者 |坛友微信交流群
在我们的分析中,我们将首先根据集群中代表的家庭的平均财富分数为节点着色,然后将结果与不同财产的拥有率着色的图表进行比较。图1。映射器算法的说明。过滤图h:R→ R投影到y坐标上。h的图像被4个超立方体(本例中的间隔)I。。。,I.h的前像是开集U。。。,我们和数据云在一起。然后将这些前图像聚集起来,形成映射器的节点。只要数据点属于多个群集,就会创建一条边。图像来源:Belchi等人[3]。Mapper算法有很多免费的实现,比如Python Mapper[5]、TDAmapper(R实现)[7]和开普勒Mapper[9]。最后一个是我们将用于分析的内容。Mapper是一种数据简化方法,在这种方式上类似于主成分分析。然而,虽然节点是从局部信息创建的,但图的边作为Rn的子空间保留了一些关于数据全局拓扑特征的知识。这种从局部到全局的外推能力使Mapper具有吸引力和实用性。需要注意的是,用户在实现Mapper时会做出很多选择——过滤功能、封面中的集合数量、重叠的大小、度量和聚类过程——这些参数的变化会产生非常不同的图形。2.2. 多指标类集调查。

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-10-6 18:42