楼主: wmcheng2006
4465 3

[学习分享] 非正态数据处理 [推广有奖]

  • 2关注
  • 10粉丝

硕士生

34%

还不是VIP/贵宾

-

威望
0
论坛币
502 个
通用积分
5.4003
学术水平
19 点
热心指数
13 点
信用等级
8 点
经验
2268 点
帖子
132
精华
0
在线时间
139 小时
注册时间
2007-4-27
最后登录
2019-3-24

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
非正态数据是研究中最常见的情况之一,国内相关研究很少有报告数据分布形态信息的。目前处理非正态的方法有多种,现总结如下:(1)数据转换。可以先将非正态分布数据进行正态化转换再进行估计,但有些估计方法,如非加权最小二乘法(Unweighted least squares ULS)对转换数据比较敏感,有时甚至无效(Kline, 2010)。通过转换数据计算的参数还需要转换成之前的单位,否则结果无法解释。通过数据转换也可能犯错误,如果数据本身就不是正态分布,通过正态化转换只能产生新的错误。
(2)稳健估计法。有些参数估计方法对数据的分布形态不做要求,如渐进自由分布(Asymptotic Distribution Free, ADF)也称作加权最小二乘法(weighted least squares, WLS)。但研究者指出,只有当ADF在大样本中才能得到比较精确的估计结果(e.g., Yuan & Bentler, 1998)。West等(1995)建议的样本量为1000至5000,而在多数实际研究中很难达到如此规模的样本量。另外,ADF在实际应用中常高估卡方统计量 (e.g., Chou & Bentler, 1995; Curran, West, & Finch, 1996; Hu, Bentler, & Kano, 1992),而低估标准误(DiStefano, 2002)。除此之外还有多种稳健加权最小二乘法(Robust Eeighted Least Squares),如 Mplus提供的WLSMV和WLSM。
WLSMV估计是专门为了处理类别变量设计的(Muthén, 1993),所以在处理类别数据时表现优于其他估计方法(Beauducel & Herzberg, 2006; Flora & Patrick, 2004; Finney & DiStefano, 2006)。Flora和Patrick(2004)的模拟研究比较了WLSMV和WLS处理非正态类别数据时的表现,结果发现WLS仅在简单模型、大样本时(n > 1000)表现尚可,在其他条件下表现均不理想(不精确的参数估计、检验统计量和标准误),而WLSMV在所有条件下(偏态和小样本n=100)均能获得不错的参数估计结果。Beauducel和Herzberg(2006)比较了WLSMV和ML在处理2-6个类别及4个样本量(250, 500, 750, 1000)情况下的表现,结果发现在2和3个类别时ML会低估因子负荷,特别是样本量较小时,而在所有条件下WLSMV均表现优良。因此在处理类别数据时不管数据分布形态如何选择WLSMV是相对稳妥的做法。
(3)校正统计量 。当处理非正态分布或/和类别数据时,ML所估计的卡方和标准误都不够精确,有学者提出了校正卡方和标准误的方法。其中最常用的是由Satorra和Bentler(1994)提出的校正法,所得卡方称为S-Bχ2。在Mplus中通过选用MLM估计法得到此统计量(嵌套模型的比较不能直接使用似然比检验 ,具体计算见http://www.statmodel.com/chidiff.shtml)。DiStefano(2002)在模拟研究中发现,当处理非正态类别数据时S-B 校正程序是有效的。他在结合先前的相关研究后进一步指出S-B 校正程序可作为处理非正态类别数据的替代方法。然而当样本量小于400时(Boomsma & Hoogland, 2001),SBχ2检验表现较差,此时可以使用基于残差的Yuan-Bentler检验(Bentler & Yuan, 1999; Yuan & Bentler, 1998b),在Mplus中通过MLR估计法得到此统计量,或使用基于残差的Yuan-Bentler F检验(Yuan & Bentler, 1998a)。
(4)条目组或打包(Items Parcels or item parceling) 。由于单个指标很容易受极端值或极端反应的影响,特别是条目较多而可选项较少时,研究者常将几个条目相加(或求均值)组成项目包,然后再进行分析。这种做法可以使偏态的单个项目转换成正态(近似正态)分布。当然打包的前提是包内的条目属于同一维度,否则将产生新的问题(Bandalos, 2002; Bandalos & Finney, 2001; West, Finch, & Curran, 1995)。
(5)Bootstrap再抽样法。Bootstrap的原理是当正态分布假设不成立时,经验抽样分布可以作为实际整体分布用于参数估计。Bootstrap以研究样本作为抽样总体,采用放回取样,从研究样本中反复抽取一定数量(例如,抽取500次)的样本,通过平均每次抽样得到的参数作为最后的估计结果(Efron & Tibshirani, 1993; Mooney & Duval, 1993)。Bootstrap对非正态连续变量特别有用(Brown, 2006),但也有研究发现这种方法并非总是有效,在可靠性方面不如稳健参数估计法(Yung & Bentler, 1996; Yuan & Hayashi, 2003)。模拟研究还发现,在处理小样本时,Bootstrap法优于ML和S-B稳健估计法(Enders 2002; Fouladi 2000; Nevitt & Hancock, 2001),但在非常小的样本(N < 100)时则会产生不精确的参数估计,当然这也与模型复杂性有关。
获得更多信息可以参见:
http://www.hneap.com/a/EAPanli/kechengxinxi/2012/0516/201.html

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:非正态数据 数据处理 非正态 distribution Asymptotic 数据 正态分布 实际应用 least 数据分析专题 数据处理 数据分析软件 数据分析报告 面板数据分析 excel数据分析 数据分析方法 项目数据分析

Mplus学习分享http://blog.sina.com.cn/u/2142257021
沙发
辛勤工作 发表于 2012-5-24 21:30:06 |只看作者 |坛友微信交流群
好文章,感谢楼主。建议版主加分。
统计是一种生活方式和思维方式。

使用道具

藤椅
luyancn 学生认证  发表于 2012-6-8 10:47:33 |只看作者 |坛友微信交流群
请教 wmcheng2006 我有2006-2009年的数据,但是2006-2007年的数据是上旬、中旬数据,2008-2009年的数据周数据,请问我能把2006-2007年的数据采用一定的方法变成周数据,然后做时间序列分析,行吗?

使用道具

板凳
zcxwendy 在职认证  学生认证  发表于 2022-11-2 11:11:10 |只看作者 |坛友微信交流群
接一下自己用非正态数据处理mplus路径分析的例子,跟大家一起学习
VARIABLE:
  NAMES ARE id Y M X;
  USEVARIABLES = Y M X;
ANALYSIS:
  TYPE = GENERAL;
  ESTIMATOR = WLSMV; *非正态数据估计
  BOOTSTRAP = 1000;
MODEL:
  Y ON X;
  Y ON M;
  M ON X;
  MODEL INDIRECT:
  Y IND M;
OUTPUT:
  STAND CINT(bcbootstrap);

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-30 16:07