楼主: abby8611
33940 22

[问答] 关于数据非正态分布的处理 [推广有奖]

  • 0关注
  • 0粉丝

初中生

19%

还不是VIP/贵宾

-

威望
0
论坛币
25 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
139 点
帖子
12
精华
0
在线时间
1 小时
注册时间
2007-11-10
最后登录
2011-12-14

楼主
abby8611 发表于 2009-3-31 16:54:00 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

我在检验数据是否正态分布的时候发现每一观察变量都非正态,大部分变量的偏度和峰度都没有超过1,但是有几个偏度和峰度比较大,请问我要对数据进行正态化吗?ML可以处理非正态数据,但是如果偏度 峰度比较大 会对结果有影响么?如果处理的话,我是要处理全部数据还是对偏度和峰度超过1的数据进行处理?我的样本有195个。

恳请牛人指教!多谢^^

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:非正态分布 正态分布 非正态 非正态数据 观察变量 数据 正态分布

沙发
爱萌 发表于 2009-3-31 23:57:00

you can use box-cox transform function to make your data be a normal distribution

最恨对我说谎或欺骗我的人

藤椅
chencpj 发表于 2009-4-20 15:50:00

用个体分布标示看看数据服从哪些已知的非正态分布如指数分布等

或者通过个体分布标识查看数据采用哪种转换可以转换成正态。(Box-Cox转换或Johnson变换。)

板凳
zhang9097303 发表于 2010-6-18 10:33:26
如果还有问题只好标准化

报纸
zy3566327 发表于 2010-8-19 15:04:00
minitab 软件中有、个体标识检验、Johnson转换等方法可以试用

地板
赵莎莎 发表于 2010-10-14 19:51:23
结构方程模型的分析数据应该是正态分布的。只有正态的数据分析的结构才有可信度

7
napapijri 发表于 2010-10-16 13:02:23
如果用mplus换个estimator就可以,先将非正态的数据定义为categorical,然后用给予categorical的estimator, 我一般使用WLSMV方法

8
xylina1001 发表于 2011-10-3 15:08:24
若是AMOS 如何操作呢
分享是一种享受;交流是一种进步

9
wmcheng2006 发表于 2012-5-21 21:10:49
非正态数据是研究中最常见的情况之一,国内相关研究很少有报告数据分布形态信息的。目前处理非正态的方法有多种,现总结如下:(1)数据转换。可以先将非正态分布数据进行正态化转换再进行估计,但有些估计方法,如非加权最小二乘法(Unweighted least squares ULS)对转换数据比较敏感,有时甚至无效(Kline, 2010)。通过转换数据计算的参数还需要转换成之前的单位,否则结果无法解释。通过数据转换也可能犯错误,如果数据本身就不是正态分布,通过正态化转换只能产生新的错误。

(2)稳健估计法。有些参数估计方法对数据的分布形态不做要求,如渐进自由分布(Asymptotic Distribution Free, ADF)也称作加权最小二乘法(weighted least squares, WLS)。但研究者指出,只有当ADF在大样本中才能得到比较精确的估计结果(e.g., Yuan & Bentler, 1998)。West等(1995)建议的样本量为1000至5000,而在多数实际研究中很难达到如此规模的样本量。另外,ADF在实际应用中常高估卡方统计量 (e.g., Chou & Bentler, 1995; Curran, West, & Finch, 1996; Hu, Bentler, & Kano, 1992),而低估标准误(DiStefano, 2002)。除此之外还有多种稳健加权最小二乘法(Robust Eeighted Least Squares),如 Mplus提供的WLSMV和WLSM。
WLSMV估计是专门为了处理类别变量设计的(Muthén, 1993),所以在处理类别数据时表现优于其他估计方法(Beauducel & Herzberg, 2006; Flora & Patrick, 2004; Finney & DiStefano, 2006)。Flora和Patrick(2004)的模拟研究比较了WLSMV和WLS处理非正态类别数据时的表现,结果发现WLS仅在简单模型、大样本时(n > 1000)表现尚可,在其他条件下表现均不理想(不精确的参数估计、检验统计量和标准误),而WLSMV在所有条件下(偏态和小样本n=100)均能获得不错的参数估计结果。Beauducel和Herzberg(2006)比较了WLSMV和ML在处理2-6个类别及4个样本量(250, 500, 750, 1000)情况下的表现,结果发现在2和3个类别时ML会低估因子负荷,特别是样本量较小时,而在所有条件下WLSMV均表现优良。因此在处理类别数据时不管数据分布形态如何选择WLSMV是相对稳妥的做法。

(3)校正统计量 。当处理非正态分布或/和类别数据时,ML所估计的卡方和标准误都不够精确,有学者提出了校正卡方和标准误的方法。其中最常用的是由Satorra和Bentler(1994)提出的校正法,所得卡方称为S-Bχ2。在Mplus中通过选用MLM估计法得到此统计量(嵌套模型的比较不能直接使用似然比检验 ,具体计算见http://www.statmodel.com/chidiff.shtml)。DiStefano(2002)在模拟研究中发现,当处理非正态类别数据时S-B 校正程序是有效的。他在结合先前的相关研究后进一步指出S-B 校正程序可作为处理非正态类别数据的替代方法。然而当样本量小于400时(Boomsma & Hoogland, 2001),SBχ2检验表现较差,此时可以使用基于残差的Yuan-Bentler检验(Bentler & Yuan, 1999; Yuan & Bentler, 1998b),在Mplus中通过MLR估计法得到此统计量,或使用基于残差的Yuan-Bentler F检验(Yuan & Bentler, 1998a)。

(4)条目组或打包(Items Parcels or item parceling) 。由于单个指标很容易受极端值或极端反应的影响,特别是条目较多而可选项较少时,研究者常将几个条目相加(或求均值)组成项目包,然后再进行分析。这种做法可以使偏态的单个项目转换成正态(近似正态)分布。当然打包的前提是包内的条目属于同一维度,否则将产生新的问题(Bandalos, 2002; Bandalos & Finney, 2001; West, Finch, & Curran, 1995)。
(5)Bootstrap再抽样法。Bootstrap的原理是当正态分布假设不成立时,经验抽样分布可以作为实际整体分布用于参数估计。Bootstrap以研究样本作为抽样总体,采用放回取样,从研究样本中反复抽取一定数量(例如,抽取500次)的样本,通过平均每次抽样得到的参数作为最后的估计结果(Efron & Tibshirani, 1993; Mooney & Duval, 1993)。Bootstrap对非正态连续变量特别有用(Brown, 2006),但也有研究发现这种方法并非总是有效,在可靠性方面不如稳健参数估计法(Yung & Bentler, 1996; Yuan & Hayashi, 2003)。模拟研究还发现,在处理小样本时,Bootstrap法优于ML和S-B稳健估计法(Enders 2002; Fouladi 2000; Nevitt & Hancock, 2001),但在非常小的样本(N < 100)时则会产生不精确的参数估计,当然这也与模型复杂性有关。
获得更多信息可以参见:
http://www.hneap.com/a/EAPanli/kechengxinxi/2012/0516/201.html
Mplus学习分享http://blog.sina.com.cn/u/2142257021

10
rubins78 发表于 2012-6-8 15:16:19
Skewness. A measure of the asymmetry of a distribution. The normal distribution is symmetric and has a skewness value of 0. A distribution with a significant positive skewness has a long right tail. A distribution with a significant negative skewness has a long left tail. As a guideline, a skewness value more than twice its standard error is taken to indicate a departure from symmetry.

Generally, you need consider only those dependent variables with large skewness (larger than twice S.D.).

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群
GMT+8, 2026-1-1 02:51