关于在stata设定权重的讨论(APPLIED SURVEY DATA ANALYSIS IN STATA 13)-经管之家官网!

人大经济论坛-经管之家 收藏本站
您当前的位置> 期刊>>

期刊库

>>

关于在stata设定权重的讨论(APPLIED SURVEY DATA ANALYSIS IN STATA 13)

关于在stata设定权重的讨论(APPLIED SURVEY DATA ANALYSIS IN STATA 13)

发布:圣、裁 | 分类:期刊库

关于本站

人大经济论坛-经管之家:分享大学、考研、论文、会计、留学、数据、经济学、金融学、管理学、统计学、博弈论、统计年鉴、行业分析包括等相关资源。
经管之家是国内活跃的在线教育咨询平台!

经管之家新媒体交易平台

提供"微信号、微博、抖音、快手、头条、小红书、百家号、企鹅号、UC号、一点资讯"等虚拟账号交易,真正实现买卖双方的共赢。【请点击这里访问】

提供微信号、微博、抖音、快手、头条、小红书、百家号、企鹅号、UC号、一点资讯等虚拟账号交易,真正实现买卖双方的共赢。【请点击这里访问】

写这个帖子的初衷是在跟老师做项目的时候,发现数据库中有一个权重变量(w_l),数据库是SPSS格式在SPSS中有一个加权模块直接可以给数据加权并进行一些统计分析,但是鉴于SPSS编程语言的晦涩难懂,于是想用STATA来做, ...
免费学术公开课,扫码加入


写这个帖子的初衷是在跟老师做项目的时候,发现数据库中有一个权重变量(w_l),数据库是SPSS格式在SPSS中有一个加权模块直接可以给数据加权并进行一些统计分析,但是鉴于SPSS编程语言的晦涩难懂,于是想用STATA来做,可是STATA又卡在如何加权上,遂开始在网上查找资料。网上关于STATA加权的问题,提问的人很多,回答的人却很少,即便是回答也是只言片语语焉不详,另外,在读论文以及与同学讨论时候也发现,在实际的论文写作中很少有人去提及加权的问题,甚至在某些国家级的调查中对权重问题也是模棱两可。鉴于实际中发现的问题,所以有了该篇帖子,写这个帖子是希望能对STATA中加权问题进行一个较为系统的讨论,同时希望大家提出自己的宝贵意见,给正困在这个问题中的同学一些帮助,另外,笔者非统计专业也非英语专业,文中的不当之处希望大家指出和理解!
STATA中的权重分类
fweight, 频数权重,指观测值的重复次数。
pweight, 抽样权重,指根据抽样设计得到的观测值被抽到的概率的倒数。
aweight, 分析权重,指与观测值方差成反比例的权重。观测值指平均值,权重是指提升平均值的要素的数量。
iweight,重要性权重,基于模糊的感觉,指定观测值的重要性。
语法
通用语法:
  1. command ... [weightword=exp] ...
复制代码例子:
  1. . anova y x1 x2 x1*x2 [fweight=pop]

  2. . regress avgy avgx1 avgx2 [aweight=cellpop]

  3. . regress y x1 x2 x3 [pweight=1/prob]

  4. . scatter y x [aweight=y2], mfcolor(none)
复制代码
缩写:
  1. . anova y x1 x2 x1*x2 [fw=pop]

  2. . regress avgy avgx1 avgx2 [aw=cellpop]

  3. . regress y x1 x2 x3 [pw=1/prob]

  4. . scatter y x [aw=y2], mfcolor(none)
复制代码注意:
weight = fweight = frequency
aweight = cellsize
下面四条命令是等价的
  1. . roctab disease rating [fweight=pop]
  2. . roctab disease rating [fw=pop]
  3. . roctab disease rating [freq=pop]
  4. . roctab disease rating [weight=pop]
复制代码
有关pweight和svy的进一步探讨
我们为什么需要调查数据分析软件?
一般的统计分析软件(未针对调查数据进行专门设计)在进行数据分析时,假定数据是在理想状况下通过随机抽样获得的,例如实验数据或准实验数据。事实上对大多数数据来说,都不是通过简单随机抽样获得的,这不仅是因为通过简单随机抽样获得数据是不可能的,还因为简单随机抽样的效率要低于其他抽样方法。当任何除简单随机抽样以外的抽样方法被应用时,我们需要使用调查数据分析软件去统计实验设计与简单随机抽样的差别。这是因为实验设计及影响点估计又影响标准误的估计。如果忽视实验设计,比如基于简单随机抽样的假设,而使用其他的抽样方法时,不仅点估计有误,标准误估计也是不正确的。这是因为抽样权重会影响点估计,而不同的抽样层或集群将会影响标准误的估计。忽视数据集可能会带来标准误的低估,导致事实上不显著的结果变得显著。普通统计软件和针对调查设计的统计软件,在点估计和标准误计算方法上的差异,会使得两者在计算结果上随数据集的变化而变化,甚至同一个数据集,两种统计软件得到的结果都是不同的。虽然通过非调查统计软件可能得到合理且准确的结果,但我们无法预先对偏离的程度进行计算。
抽样设计
绝大多数人不会亲自去通过调查收集数据,他们使用的数据主要来自其他机构、公司收集的数据或出版的数据。当拿到数据时,阅读与抽样设计有关的文档是非常重要的,这是因为点估计和标准误的估计方法会随着抽样设计的不同而不同。因此,如果错误的指定抽样设计,将会得到错误的点估计和标准误。
一下是许多抽样设计所共有的特征。
抽样权重(Sampling weight),调查可以使用多种权重,但普遍采用的是抽样权重。抽样权重是由一个或多个调整因子构成的概率权重。抽样权重和概率权重通过给样本加权,从而使样本能够反映整体的状况。根据定义,概率权重是由抽样设计决定的抽样概率的倒数(除了某些PSU)。概率权重在STATA中又称为pweight,计算公式为N/n,N指不同要素的总体数量,n指不同要素在样本中的数量。在两阶段抽样中,概率权重的公式为f1f2,这表示抽样权重为,第一阶段的抽样概率的倒数与第二阶段抽样概率的倒数的积。在许多抽样设计中,概率权重之和等于总体的数量。
这是教科书上对概率权重的一般定义,在实际的抽样调查中并不适用。在实际的抽样中,抽样权重又叫做“时候调整权重”,这个权重也是以抽样概率的倒数开始的,但它会包含一些其他变量,比如对抽样框中个抽样单元的拒访、错误等进行修正。因为因为这些调整因子包含在数据集的概率权重中,因此,在实际的数据分析中,最好不要擅自修改抽样权重,例如,为了某个变量去对他们进行标准化。
PSU:指基本抽样单元。在抽样设计中,这是第一个单元。例如,从加利福尼亚州的抽取学区中然后抽取学校,学区就是PSU。如果从美国抽取不同的州,被抽中的州中抽取学区,从被抽中的学区中抽取学校,那么州将成为PSU。在实际的工作中,不同的层次可以使用不同的抽样方法。例如,可以在第一层次中使用PPS抽样(用于抽取州),在第二层次中使用整群抽样(由于抽取学学区)。在简单随机抽样中,PSU与不同的要素单元是一致的。一般情况下,在数据中考虑不同的数据集(例如,PSU的用),将会提高标准误和点估计值。相反,如果忽略PSU将导致标准误太小,以至于在做某些重要的检验时得到错误的显著性。
Strata:层是将参与抽样的总体人口划分为不同组的方法,常用的人口学变量有:性别、种族或SES。在总体中的每一个元素必须唯一的属于其中的一个层次。一旦层确定后,从每一个层中抽取样本,都是一个互不相关的独立过程。例如,一个抽样通过性别来分层,被抽到的男性和女性是相互独立的。这意味着,男性的概率权重跟女性的概率权重可能并不相同。在绝大多数案例中,在每一层中,你需要有两个或更多个PSU,分层的目的是减少标准误差的估计,并且互不相关的变量在不同层中的误差小于各变量在整体中的误差时,分层的效果是最有效的。
FPC:是有限的总体修正。FPC用于抽样分数(元素的数量或被抽中的受访者与总体的比值)变大的情况。FPC用于标准误的估计。如果FPC的直接进1,它将几乎没有影响,影响可以忽略。在一些调查数据分析软件中,例如SUDAAN,如果你获得的调查数据是非重复抽样,FPC的信息是必需的。FPC的计算公式是:((N-n)/(N-1))1/2,N是总体中各元素的数量,n是样本中各元素的数量。
Replicate weights:重复权重是用于修正抽样设计标准误的一系列权重,它的作用跟用PSU和层变量修正抽样设计标准误类似。许多公开的数据现在也开始用重复权重来代替PSU和层变量,以保护受访者的隐私。理论上,用PSU和层变量获得的标准误与通过重复权重获得的标准误是一样的。有很多方法可以计算重复权重,具体用那种方法取决于抽样设计。
不使用设计因素带来的结果
实验设计因素包括:抽样权重,时候调整权重,PSUs,层和重复权重。几乎没有哪一个数据能包含所有的这些信息。然而忽略这些实验设计元素,可能导致不准确的点估计值和不一定准确的标准误差。
阅读与数据相关的文件
分析调查数据的第一步是阅读相关的技术文档。许多公开数据会有连篇累牍的文档和技术文件,为了避免进行重复劳动,我们需要关注一些重点部分。首先,阅读介绍,这部分通常容易阅读,并且能够引导你理解数据。这部分通常叫做“抽样设计和分析原则”,“方差估计”等。这是部分会告诉你数据集中包含的抽样设计元素和使用这些设计元素的方法。如果数据集中包含多种抽样权重,这部还将会对这些权重使用的情景进行介绍。如果有关于缺失值原因介绍的章节,这部分也需要重点阅读。另外,有关变量标签和取值的部分也应仔细阅读,尤其是缺失值的取值。
svyset命令
在我们开始进行分析之前,我们需要声明svyset命令。svyset命令告诉Stata在调查中包含的设计元素。一旦声明这个变量,在进行数据分析时,所有的命令都要加svy:这个前缀。在2011-2012NHANES数据中,包含抽样权重(wtint2yr),PSU变量(sdmvpsu),和层变量(sdmvstra),我们可以用这些变量进行设置。
singleunit选项从Stata10开始加入。这个选项允许用不同的方法处理层中只有一个PSU的情况。如果你用默认的missing选项,当Stata发现层中只有一个PSU时,你将无法得到标准误。当数据缺失或进行亚群体分析时这种情况可能发生。这个命令还有其他三个选项。一个是certainty,意思是把单独的PSU作为作为一个确定的PSU,也就是说,这个PSU被选入抽样的概率是1,它不用于计算标准误。scaled选项是缩放版的certainty选项,对每一个有一个PSU的层,缩放因子为从有多个抽样单元的层中获得的方差的平均值。centered选项集中只有一个抽样单元的层,用一个大范围的平均值来代替层内的平均值。声明svyset后,我们可以用svydescribe命令得到关于层和PSU的信息。
结果显示,调查数据有14个层,每个有2-3个PSU,总共有31个PSU。在每个层和每个PSU中,有各种数量的观测,最少的有140条观测,最多的有388条观测,平均每个PSU有315条观测。
描述统计
我们可以用svy:mean命令得到连续变量的平均值,并且在进行平均值操作后,我们可以用estat sd命令得到标准差和变量的方差。
需要注意的是,有不同数量观测的变量应该分别求平均值。这一点非常重要,这是因为,如果你用一个svy:mean对三个变量同时求平均值的话,得到的平均值的估计与单独每个变量得到的估计值是不同的。原因是pad630和hsq496有缺失值。但是观测数量相同的变量,他们的缺失值并不是在同一条观测上,pad630和hsq496都在第3666条观测上有缺失,但是pad630在4036条观测有缺失值,而hsq496在207条观测有缺失值。对这三个变量来说,只有1847条观测是匹配的,不过只用一个svy:mean求平均值时,只用了1847条观测,其他被忽略。
接下来是分类变量的描述统计,以female和dmdborn4为例。
得到的编码为0/1的分类变量平均值,其实是编码为1的值的比重。上面的结果显示,大约51.2%的观测是女性,大约84.99%的受访者出生在美国。
「经管之家」APP:经管人学习、答疑、交友,就上经管之家!
免流量费下载资料----在经管之家app可以下载论坛上的所有资源,并且不额外收取下载高峰期的论坛币。
涵盖所有经管领域的优秀内容----覆盖经济、管理、金融投资、计量统计、数据分析、国贸、财会等专业的学习宝库,各类资料应有尽有。
来自五湖四海的经管达人----已经有上千万的经管人来到这里,你可以找到任何学科方向、有共同话题的朋友。
经管之家(原人大经济论坛),跨越高校的围墙,带你走进经管知识的新世界。
扫描下方二维码下载并注册APP
本文关键词:

本文论坛网址:https://bbs.pinggu.org/thread-6558267-1-1.html

人气文章

1.凡人大经济论坛-经管之家转载的文章,均出自其它媒体或其他官网介绍,目的在于传递更多的信息,并不代表本站赞同其观点和其真实性负责;
2.转载的文章仅代表原创作者观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,本站对该文以及其中全部或者部分内容、文字的真实性、完整性、及时性,不作出任何保证或承若;
3.如本站转载稿涉及版权等问题,请作者及时联系本站,我们会及时处理。
经管之家 人大经济论坛 大学 专业 手机版