人大经济论坛 › 论坛 › 计量经济学与统计论坛五区 › 计量经济学与统计软件 › LISREL、AMOS等结构方程模型分析软件 › 非正态数据处理

发帖

楼主: wmcheng2006

6102 3

[学习分享] 非正态数据处理 [推广有奖]

2关注
10粉丝

硕士生

33%

还不是VIP/贵宾

威望: 0 级
论坛币: 502 个
通用积分: 6.0613
学术水平: 19 点
热心指数: 13 点
信用等级: 8 点
经验: 3105 点
帖子: 131
精华: 0
在线时间: 139 小时
注册时间: 2007-4-27
最后登录: 2019-3-24

楼主

wmcheng2006 发表于 2012-5-24 17:08:18 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

非正态数据是研究中最常见的情况之一，国内相关研究很少有报告数据分布形态信息的。目前处理非正态的方法有多种，现总结如下：（1）数据转换。可以先将非正态分布数据进行正态化转换再进行估计，但有些估计方法，如非加权最小二乘法(Unweighted least squares ULS)对转换数据比较敏感，有时甚至无效(Kline, 2010)。通过转换数据计算的参数还需要转换成之前的单位，否则结果无法解释。通过数据转换也可能犯错误，如果数据本身就不是正态分布，通过正态化转换只能产生新的错误。
（2）稳健估计法。有些参数估计方法对数据的分布形态不做要求，如渐进自由分布(Asymptotic Distribution Free, ADF)也称作加权最小二乘法(weighted least squares, WLS)。但研究者指出，只有当ADF在大样本中才能得到比较精确的估计结果(e.g., Yuan & Bentler, 1998)。West等(1995)建议的样本量为1000至5000，而在多数实际研究中很难达到如此规模的样本量。另外，ADF在实际应用中常高估卡方统计量 (e.g., Chou & Bentler, 1995; Curran, West, & Finch, 1996; Hu, Bentler, & Kano, 1992)，而低估标准误(DiStefano, 2002)。除此之外还有多种稳健加权最小二乘法（Robust Eeighted Least Squares），如 Mplus提供的WLSMV和WLSM。
WLSMV估计是专门为了处理类别变量设计的(Muthén, 1993)，所以在处理类别数据时表现优于其他估计方法(Beauducel & Herzberg, 2006; Flora & Patrick, 2004; Finney & DiStefano, 2006)。Flora和Patrick(2004)的模拟研究比较了WLSMV和WLS处理非正态类别数据时的表现，结果发现WLS仅在简单模型、大样本时（n > 1000）表现尚可，在其他条件下表现均不理想（不精确的参数估计、检验统计量和标准误），而WLSMV在所有条件下（偏态和小样本n=100）均能获得不错的参数估计结果。Beauducel和Herzberg(2006)比较了WLSMV和ML在处理2-6个类别及4个样本量（250, 500, 750, 1000）情况下的表现，结果发现在2和3个类别时ML会低估因子负荷，特别是样本量较小时，而在所有条件下WLSMV均表现优良。因此在处理类别数据时不管数据分布形态如何选择WLSMV是相对稳妥的做法。
（3）校正统计量。当处理非正态分布或/和类别数据时，ML所估计的卡方和标准误都不够精确，有学者提出了校正卡方和标准误的方法。其中最常用的是由Satorra和Bentler(1994)提出的校正法，所得卡方称为S-Bχ2。在Mplus中通过选用MLM估计法得到此统计量(嵌套模型的比较不能直接使用似然比检验，具体计算见http://www.statmodel.com/chidiff.shtml)。DiStefano(2002)在模拟研究中发现，当处理非正态类别数据时S-B 校正程序是有效的。他在结合先前的相关研究后进一步指出S-B 校正程序可作为处理非正态类别数据的替代方法。然而当样本量小于400时(Boomsma & Hoogland, 2001)，SBχ2检验表现较差，此时可以使用基于残差的Yuan-Bentler检验(Bentler & Yuan, 1999; Yuan & Bentler, 1998b)，在Mplus中通过MLR估计法得到此统计量，或使用基于残差的Yuan-Bentler F检验(Yuan & Bentler, 1998a)。
（4）条目组或打包(Items Parcels or item parceling) 。由于单个指标很容易受极端值或极端反应的影响，特别是条目较多而可选项较少时，研究者常将几个条目相加（或求均值）组成项目包，然后再进行分析。这种做法可以使偏态的单个项目转换成正态（近似正态）分布。当然打包的前提是包内的条目属于同一维度，否则将产生新的问题(Bandalos, 2002; Bandalos & Finney, 2001; West, Finch, & Curran, 1995)。
（5）Bootstrap再抽样法。Bootstrap的原理是当正态分布假设不成立时，经验抽样分布可以作为实际整体分布用于参数估计。Bootstrap以研究样本作为抽样总体，采用放回取样，从研究样本中反复抽取一定数量（例如，抽取500次）的样本，通过平均每次抽样得到的参数作为最后的估计结果(Efron & Tibshirani, 1993; Mooney & Duval, 1993)。Bootstrap对非正态连续变量特别有用(Brown, 2006)，但也有研究发现这种方法并非总是有效，在可靠性方面不如稳健参数估计法(Yung & Bentler, 1996; Yuan & Hayashi, 2003)。模拟研究还发现，在处理小样本时，Bootstrap法优于ML和S-B稳健估计法(Enders 2002; Fouladi 2000; Nevitt & Hancock, 2001)，但在非常小的样本(N < 100)时则会产生不精确的参数估计，当然这也与模型复杂性有关。
获得更多信息可以参见：
http://www.hneap.com/a/EAPanli/kechengxinxi/2012/0516/201.html

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏2 回帖

关键词：非正态数据数据处理非正态 distribution Asymptotic 数据正态分布实际应用 least 数据分析专题数据处理数据分析软件数据分析报告面板数据分析 excel数据分析数据分析方法项目数据分析

[学习分享] 非正态数据处理 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

[学习分享] 非正态数据处理 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

扫码加我拉你入群