本人自学SEM较长时间,针对毕业课题我已经有大致思路,初步数据也到手,但由于对统计知识和软件不够精通,在处理数据的过程中遇到很多难题,虽然在论坛和网上搜索了很多,仍然不得要领,所以发帖请前辈给一些指点,感激不尽!
我课题构建的SEM涉及观察指标都是连续性数值变量(20-30个),诸如:财政补贴,费用,培训次数,人员数,持续时间等。 观察指标中95%都呈非正态分布;样本量280;缺失值非常多(几乎100+样本有不同数量指标的缺失),如果列删会损失大量样本。
核心问题如下:
1. 缺失值如何处理?选择哪种缺失值插入法?
似乎很多人推荐EM,但是EM要求描述数据分布情况,我没有找到关于非正态分布的选项(只有正态分布、混合正态、t 分布等),EM是否不能处理非正态分布数据?
2. SEM是否必须要求数据为正态分布(缺失值处理好后)?
因为数据来源不是量表,是具体的客观数据,所以不满足正态分布。如果SEM要求为正态分布,如何处理数据?在SPSS中处理好再代入LISREL?
3. 数据标准化
由于收集到的数据都是客观数据,数据单位不同,数据分布情况不同。是否需要对数据进行标准化处理?如果需要,选择哪种方法最好?同趋化处理和无量纲处理应该各自怎么具体选择什么方式?
4. 信息流失
由于数据本身缺失值太多,如果处理了缺失值后再进行标准化处理,是否会流失大量原始信息,即使最后得出结果,是否仍然可靠?
由于水平有限,以上问题可能显得比较无知。因为目前搜集到的相关信息多且杂,众说纷纭,学习后虽然有点头绪但具体落实到自己的课题还是不知道接下来要怎么走。 恳请大家给点意见,小女感激不尽!!!