楼主: 圣、裁
17074 13

[学习心得] 关于在stata设定权重的讨论(APPLIED SURVEY DATA ANALYSIS IN STATA 13) [推广有奖]

  • 6关注
  • 11粉丝

博士生

37%

还不是VIP/贵宾

-

威望
0
论坛币
4840 个
通用积分
169.3138
学术水平
13 点
热心指数
33 点
信用等级
12 点
经验
4660 点
帖子
179
精华
0
在线时间
268 小时
注册时间
2015-10-1
最后登录
2023-8-15

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
写这个帖子的初衷是在跟老师做项目的时候,发现数据库中有一个权重变量(w_l),数据库是SPSS格式在SPSS中有一个加权模块直接可以给数据加权并进行一些统计分析,但是鉴于SPSS编程语言的晦涩难懂,于是想用STATA来做,可是STATA又卡在如何加权上,遂开始在网上查找资料。网上关于STATA加权的问题,提问的人很多,回答的人却很少,即便是回答也是只言片语语焉不详,另外,在读论文以及与同学讨论时候也发现,在实际的论文写作中很少有人去提及加权的问题,甚至在某些国家级的调查中对权重问题也是模棱两可。鉴于实际中发现的问题,所以有了该篇帖子,写这个帖子是希望能对STATA中加权问题进行一个较为系统的讨论,同时希望大家提出自己的宝贵意见,给正困在这个问题中的同学一些帮助,另外,笔者非统计专业也非英语专业,文中的不当之处希望大家指出和理解!

STATA中的权重分类

fweight, 频数权重,指观测值的重复次数。

pweight, 抽样权重,指根据抽样设计得到的观测值被抽到的概率的倒数。

aweight, 分析权重,指与观测值方差成反比例的权重。观测值指平均值,权重是指提升平均值的要素的数量。

iweight,  重要性权重,基于模糊的感觉,指定观测值的重要性。

语法

通用语法:
  1.           command ... [weightword=exp] ...
复制代码
例子:
  1.         . anova y x1 x2 x1*x2 [fweight=pop]

  2.         . regress avgy avgx1 avgx2 [aweight=cellpop]

  3.         . regress y x1 x2 x3 [pweight=1/prob]

  4.         . scatter y x [aweight=y2], mfcolor(none)
复制代码

缩写:
  1.         . anova y x1 x2 x1*x2 [fw=pop]

  2.         . regress avgy avgx1 avgx2 [aw=cellpop]

  3.         . regress y x1 x2 x3 [pw=1/prob]

  4.         . scatter y x [aw=y2], mfcolor(none)
复制代码
注意:
weight = fweight = frequency
aweight = cellsize

下面四条命令是等价的
  1.         . roctab disease rating [fweight=pop]
  2.         . roctab disease rating [fw=pop]
  3.         . roctab disease rating [freq=pop]
  4.         . roctab disease rating [weight=pop]
复制代码


有关pweight和svy的进一步探讨

我们为什么需要调查数据分析软件?
一般的统计分析软件(未针对调查数据进行专门设计)在进行数据分析时,假定数据是在理想状况下通过随机抽样获得的,例如实验数据或准实验数据。事实上对大多数数据来说,都不是通过简单随机抽样获得的,这不仅是因为通过简单随机抽样获得数据是不可能的,还因为简单随机抽样的效率要低于其他抽样方法。当任何除简单随机抽样以外的抽样方法被应用时,我们需要使用调查数据分析软件去统计实验设计与简单随机抽样的差别。这是因为实验设计及影响点估计又影响标准误的估计。如果忽视实验设计,比如基于简单随机抽样的假设,而使用其他的抽样方法时,不仅点估计有误,标准误估计也是不正确的。这是因为抽样权重会影响点估计,而不同的抽样层或集群将会影响标准误的估计。忽视数据集可能会带来标准误的低估,导致事实上不显著的结果变得显著。普通统计软件和针对调查设计的统计软件,在点估计和标准误计算方法上的差异,会使得两者在计算结果上随数据集的变化而变化,甚至同一个数据集,两种统计软件得到的结果都是不同的。虽然通过非调查统计软件可能得到合理且准确的结果,但我们无法预先对偏离的程度进行计算。

抽样设计
绝大多数人不会亲自去通过调查收集数据,他们使用的数据主要来自其他机构、公司收集的数据或出版的数据。当拿到数据时,阅读与抽样设计有关的文档是非常重要的,这是因为点估计和标准误的估计方法会随着抽样设计的不同而不同。因此,如果错误的指定抽样设计,将会得到错误的点估计和标准误。

一下是许多抽样设计所共有的特征。

抽样权重(Sampling weight),调查可以使用多种权重,但普遍采用的是抽样权重。抽样权重是由一个或多个调整因子构成的概率权重。抽样权重和概率权重通过给样本加权,从而使样本能够反映整体的状况。根据定义,概率权重是由抽样设计决定的抽样概率的倒数(除了某些PSU)。概率权重在STATA中又称为pweight,计算公式为N/n,N指不同要素的总体数量,n指不同要素在样本中的数量。在两阶段抽样中,概率权重的公式为f1f2,这表示抽样权重为,第一阶段的抽样概率的倒数与第二阶段抽样概率的倒数的积。在许多抽样设计中,概率权重之和等于总体的数量。

这是教科书上对概率权重的一般定义,在实际的抽样调查中并不适用。在实际的抽样中,抽样权重又叫做“时候调整权重”,这个权重也是以抽样概率的倒数开始的,但它会包含一些其他变量,比如对抽样框中个抽样单元的拒访、错误等进行修正。因为因为这些调整因子包含在数据集的概率权重中,因此,在实际的数据分析中,最好不要擅自修改抽样权重,例如,为了某个变量去对他们进行标准化。
PSU:指基本抽样单元。在抽样设计中,这是第一个单元。例如,从加利福尼亚州的抽取学区中然后抽取学校,学区就是PSU。如果从美国抽取不同的州,被抽中的州中抽取学区,从被抽中的学区中抽取学校,那么州将成为PSU。在实际的工作中,不同的层次可以使用不同的抽样方法。例如,可以在第一层次中使用PPS抽样(用于抽取州),在第二层次中使用整群抽样(由于抽取学学区)。在简单随机抽样中,PSU与不同的要素单元是一致的。一般情况下,在数据中考虑不同的数据集(例如,PSU的用),将会提高标准误和点估计值。相反,如果忽略PSU将导致标准误太小,以至于在做某些重要的检验时得到错误的显著性。

Strata:层是将参与抽样的总体人口划分为不同组的方法,常用的人口学变量有:性别、种族或SES。在总体中的每一个元素必须唯一的属于其中的一个层次。一旦层确定后,从每一个层中抽取样本,都是一个互不相关的独立过程。例如,一个抽样通过性别来分层,被抽到的男性和女性是相互独立的。这意味着,男性的概率权重跟女性的概率权重可能并不相同。在绝大多数案例中,在每一层中,你需要有两个或更多个PSU,分层的目的是减少标准误差的估计,并且互不相关的变量在不同层中的误差小于各变量在整体中的误差时,分层的效果是最有效的。

FPC:是有限的总体修正。FPC用于抽样分数(元素的数量或被抽中的受访者与总体的比值)变大的情况。FPC用于标准误的估计。如果FPC的直接进1,它将几乎没有影响,影响可以忽略。在一些调查数据分析软件中,例如SUDAAN,如果你获得的调查数据是非重复抽样,FPC的信息是必需的。FPC的计算公式是:((N-n)/(N-1))1/2,N是总体中各元素的数量,n是样本中各元素的数量。

Replicate weights:重复权重是用于修正抽样设计标准误的一系列权重,它的作用跟用PSU和层变量修正抽样设计标准误类似。许多公开的数据现在也开始用重复权重来代替PSU和层变量,以保护受访者的隐私。理论上,用PSU和层变量获得的标准误与通过重复权重获得的标准误是一样的。有很多方法可以计算重复权重,具体用那种方法取决于抽样设计。

不使用设计因素带来的结果

实验设计因素包括:抽样权重,时候调整权重,PSUs,层和重复权重。几乎没有哪一个数据能包含所有的这些信息。然而忽略这些实验设计元素,可能导致不准确的点估计值和不一定准确的标准误差。

阅读与数据相关的文件

分析调查数据的第一步是阅读相关的技术文档。许多公开数据会有连篇累牍的文档和技术文件,为了避免进行重复劳动,我们需要关注一些重点部分。首先,阅读介绍,这部分通常容易阅读,并且能够引导你理解数据。这部分通常叫做“抽样设计和分析原则”,“方差估计”等。这是部分会告诉你数据集中包含的抽样设计元素和使用这些设计元素的方法。如果数据集中包含多种抽样权重,这部还将会对这些权重使用的情景进行介绍。如果有关于缺失值原因介绍的章节,这部分也需要重点阅读。另外,有关变量标签和取值的部分也应仔细阅读,尤其是缺失值的取值。

svyset命令

在我们开始进行分析之前,我们需要声明svyset命令。svyset命令告诉Stata在调查中包含的设计元素。一旦声明这个变量,在进行数据分析时,所有的命令都要加svy:这个前缀。在2011-2012NHANES数据中,包含抽样权重(wtint2yr),PSU变量(sdmvpsu),和层变量(sdmvstra),我们可以用这些变量进行设置。

2018-08-05_195834.png
singleunit选项从Stata10开始加入。这个选项允许用不同的方法处理层中只有一个PSU的情况。如果你用默认的missing选项,当Stata发现层中只有一个PSU时,你将无法得到标准误。当数据缺失或进行亚群体分析时这种情况可能发生。这个命令还有其他三个选项。一个是certainty,意思是把单独的PSU作为作为一个确定的PSU,也就是说,这个PSU被选入抽样的概率是1,它不用于计算标准误。scaled选项是缩放版的certainty选项,对每一个有一个PSU的层,缩放因子为从有多个抽样单元的层中获得的方差的平均值。centered选项集中只有一个抽样单元的层,用一个大范围的平均值来代替层内的平均值。声明svyset后,我们可以用svydescribe命令得到关于层和PSU的信息。

2018-08-05_200100.png
结果显示,调查数据有14个层,每个有2-3个PSU,总共有31个PSU。在每个层和每个PSU中,有各种数量的观测,最少的有140条观测,最多的有388条观测,平均每个PSU有315条观测。

描述统计

我们可以用svy:mean命令得到连续变量的平均值,并且在进行平均值操作后,我们可以用estat sd命令得到标准差和变量的方差。
2018-08-05_201158.png
需要注意的是,有不同数量观测的变量应该分别求平均值。这一点非常重要,这是因为,如果你用一个svy:mean对三个变量同时求平均值的话,得到的平均值的估计与单独每个变量得到的估计值是不同的。原因是pad630和hsq496有缺失值。但是观测数量相同的变量,他们的缺失值并不是在同一条观测上,pad630和hsq496都在第3666条观测上有缺失,但是pad630在4036条观测有缺失值,而hsq496在207条观测有缺失值。对这三个变量来说,只有1847条观测是匹配的,不过只用一个svy:mean求平均值时,只用了1847条观测,其他被忽略。
2018-08-05_203350.png

接下来是分类变量的描述统计,以female和dmdborn4为例。

2018-08-05_203733.png

得到的编码为0/1的分类变量平均值,其实是编码为1的值的比重。上面的结果显示,大约51.2%的观测是女性,大约84.99%的受访者出生在美国。


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝


已有 3 人评分学术水平 热心指数 信用等级 收起 理由
Sunknownay + 3 + 3 + 3 鼓励积极发帖讨论
海绵萧萧 + 2 + 2 + 2 精彩帖子
Stakiny + 3 + 3 + 3 精彩帖子

总评分: 学术水平 + 8  热心指数 + 8  信用等级 + 8   查看全部评分

沙发
Baccaarmyman 发表于 2018-12-3 16:29:29 |只看作者 |坛友微信交流群
读完您这个帖子,获益匪浅,感谢您的在普及SVY知识方面做出的努力!
我最近也在使用SVY进行复杂抽样数据分析,但遇到了几个问题向您请教:
1. 在使用的公开数据库中有一个权重变量“newweigh”,但是将其取值加总之后并不是总体的数量,只是稍微大于数据集中的样本量(_N),那么这个权重还是“抽样权重”吗?这个权重还能否用于SVY分析中呢?
2. 进行svy: regress回归分析时,模型整体的F statistics和对应的P value均为缺失,这是由于什么原因呢?我看stata官网中的FAQ的回答是:SVY估计时,只能同时检验6个自变量,超过6个自变量时,就无法检验所有自变量的联合显著性。您觉得是什么原因呢?
(如果您方便,可给我发邮件讨论:bacca_gts@163.com)
十分感谢!

使用道具

藤椅
零点晓敏 学生认证  发表于 2019-3-16 20:52:31 |只看作者 |坛友微信交流群
弱弱的问一句,楼主为什么用pweight啊?

使用道具

板凳
圣、裁 发表于 2019-3-30 15:09:38 |只看作者 |坛友微信交流群
零点晓敏 发表于 2019-3-16 20:52
弱弱的问一句,楼主为什么用pweight啊?
这个应该类似于自己设计调查,然后计算权重,如果是使用现成的数据库应该会给一个权重变量,那时候用[weight=],我的理解是这样。

使用道具

报纸
零点晓敏 学生认证  发表于 2019-4-3 16:06:04 |只看作者 |坛友微信交流群
圣、裁 发表于 2019-3-30 15:09
这个应该类似于自己设计调查,然后计算权重,如果是使用现成的数据库应该会给一个权重变量,那时候用[we ...
对,现成数据库给了一个标准化权重变量,但没有说明应该用哪种权重,就一直在纠结用pw还是aw还是其他的

使用道具

地板
圣、裁 发表于 2019-4-9 11:57:16 |只看作者 |坛友微信交流群
零点晓敏 发表于 2019-4-3 16:06
对,现成数据库给了一个标准化权重变量,但没有说明应该用哪种权重,就一直在纠结用pw还是aw还是其他的[e ...
我个人觉得应该差不多,我纠结过这个问题,但是查到的文献太少,然后考虑到在spss中并不存在这种情况,所以在处理的时候我采取一种随缘的态度[titter][titter]

使用道具

7
海绵萧萧 发表于 2019-6-17 13:55:15 |只看作者 |坛友微信交流群
很有帮助 谢谢楼主的分享

使用道具

8
零点晓敏 学生认证  发表于 2019-7-22 16:27:59 |只看作者 |坛友微信交流群
圣、裁 发表于 2019-4-9 11:57
我个人觉得应该差不多,我纠结过这个问题,但是查到的文献太少,然后考虑到在spss中并不存在这种情况,所 ...
用数据中给的这个标准化权重,在stata里面做描述性表格的时候,发现无论pw,还是aw或者其他的,结果都一样。所以就不用纠结啦!

使用道具

9
huohuo12 发表于 2019-12-10 17:20:28 |只看作者 |坛友微信交流群
求教求教~~楼主大神~我也用的公共数据,权重变量只有一个,但是它分了必选层和抽选层,每层里都有自己的PSU和SSU,这要怎么搞啊啊啊啊啊救命救命~~~~

使用道具

10
DeerHarbor 学生认证  发表于 2020-7-17 12:49:46 |只看作者 |坛友微信交流群
楼主,吉大校友,可以加个联系方式吗?最近写文章遇到了sample weight的问题,想请教一下,感谢,Q:1257119676。

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-25 11:51