这两天在研究因子分析问题,有点体会,不知道对不对,写出来和大家分享。
按照一般教材的解释,因子分析就是为了数据降维,初始的数据模型里面自变量太多,希望通过因子分析对原有自变量进行浓缩、归纳,提取出少量因子,然后通过旋转等操作,使这些因子尽可能的有意义。提取因子的时候可以采用主成分分析法,PCA。
因子分析的一个用途是用来开发量表。比如我们打算开发一个量表测量A构念,首先通过访谈、文献回顾等确定了n个题目,然后找一些人填问卷,获得初次测试的问卷后,可以进行探索性因子分析,看能提取出几个因子。比如说提取出k个因子(k<n,因为因子分析就是为了降维,因子数比原来的题目还多就变成升维了),运气好的话,n个题目会分成k组,每组中的题目都有一个共同点,就是题目对应的变量在某个因子上的因子载荷很高,但在其他因子上的载荷很小。这样就形成了一份新的量表,n个题目中可能有一些被删减,然后被分成k组,就是我们常说的某个构念包含几个维度,每个提取的因子就对应一个维度。有了新量表后,就可以重新找人再进行测试,这次拿到数据应该做的是验证性因子分析,主要是和之前的探索性因子分析有个对照,看之前对量表的修正有没问题。
我想这应该是因子分析在开发量表时的用途。使用成熟量表进行研究,要先进行信度、效度的检验,应该也是类似的流程。
因子分析的另一个用途是检测有没有同源误差,或者所谓的共同方法偏差。
当整个量表都是由一个人完成时,就有可能会有同源误差。一般用的是harman单因子检测,这种技术的基本假设是如果存在严重的同源偏差,那么进行因子分析时,要么析出单独一个因子,要么一个公因子解释了大部分变量变异。传统的做法是用探索性因子分析,现在一般采用验证性因子分析。
虽然同是因子分析,但用在开发量表和检测同源误差上,还是有区别的。
开发量表,或者检测信度、效度时,是对某个构念下辖的n个问题(一个问题代表一个变量)进行因子分析;
检测同源误差的时候,是对各个构念(一个构念代表一个变量)进行因子分析。如果对这多个构念提取因子的结果是只有一个因子,那就说明这么多构念本质是相同的(换言之,多个构念是“同源”的),那这样的问卷自然就没有意义了。
以上是我自学spss的一点心得,自己统计学基础比较差,周围也很少有人可以请教,百度的结果大多是复制粘贴。。。光因子分析这部分就看了挺长时间,终于有点眉目了。把自己的想法写出来和大家分享,要是有什么地方理解有偏差,还请大家不吝赐教,非常感谢。