(4)统计显著的意义
统计显著,实证研究不得不面对的一个问题,也是许多研究者一直努力想得到的东西。由理论分析提出了一个好的假设,通过辛苦努力得到了足够数量的样本,然而最后检验的结果却是“不显著”,望着SEM图上的红色,我相信许多人都有被人“当头一棒”的感觉,说“日月无光、天地变色”有点儿严重,但是心情低落那是肯定的。
实证研究中的显著性水平一般有三个(0.05、0.01、0.005),当然也有到0.1或者0.001的,但是最常见的也就是前两个,其中尤其以0.05的显著性水平是用得最多的。在SEM的模型检验中,用得最多的是T检验,众所周知,由于T检验对于自由度来说并不太敏感,当自由度在30以上时,t的临界值(双侧)在2左右,当自由度趋向无穷时,t的临界值(双侧)在1.96,也差不多是2。因此实际上我们辛辛苦苦做调研,做统计分析,都是为的这个“2“。所以我的一个爱开玩笑的朋友笑称:“确实我们的努力目标都是2“,呵呵
不开玩笑,我们来看看统计显著的意义。由于T检验是SEM当中最重要的检验,因此我们这里只分析T值,学过统计学的同学都知道,T值是拟合参数与标准差的比值,举个例子: 某载荷系数是1.033 标准差是0.068,T值是15.307。---------我曾经看过不止一篇论文,其中标记的载荷系数、标准差与T值居然没有任何关系,呵呵---------再次提醒,我不是教大家造假,关于如何辨别伪造的数据,我后面会多少讲一些辨别的方法。
那么,如果某条路径没有通过检验,那么是不是就一无是处呢?或者反过来,如果一条路径通过了检验,那么是不是就值得欢呼雀跃呢?
首先,我们来看一看统计显著的定义是什么,讲到统计显著,就不得不提到假设检验,正是有了假设检验,才有了显著性。在假设检验时,我们总会设定一个零假设H0对照,在T检验中,我们通常设计的H0是:两个变量没有关系(类似的表达),然后由此进行计算,结果发现如果按照两个变量没有关系去推,会产生矛盾,由此来否定H0,于是就说明两个变量之间有关系。这实际上是一种反证法的思路。
如果我不是在偷换概念的话,上面的表述是不是可以简化成为:所谓显著性,是跟“完全没有关系”在比较,是显著的。就好象我有1000,钱虽然不多,但是如果跟路边的乞丐去比的话,我还是算一个“显著的”富人。
我想我是讲清楚了。统计意义上的显著,从实证的角度来看,只是一个较低的要求,因为这里的显著,是跟“完全没有关系”的标准在比较。而真正意义上的显著,是要追求“可解释”。这才是我的观点。
举例来说,如果你的路径系数为0.10,如果标准差足够小(例如为0.05),这样你的T值是2,是显著的,但是,这0.1的路径系数,是不是值得你去大书特书?是不是值得你去欢呼雀跃?你有没有能力去解释两个变量之间0.1的路径背后隐藏的理论和实践依据?
一个在相关分析中经常听到的标准可以作为辅助材料来理解我的观点。通常认为0.7以上的相关系数为强相关,0.3-0.7为中等相关,0.3以下为弱相关。事实上,对于0.3以下的相关系数,通常也能够通过检验,但是我们实在难以解释0.3以下的相关系数能有什么意义。(A与B相关系数为0.7,只代表彼此能够解释对方49%的信息,如果为0.3的相关系数,由只能解释对方9%的信息,这样的相关系数要它何用?)
现在再来回答上面问题的另一半:如果路径系数通不过检验,该怎么办?如果你的路径系数足够大,但是t值太低以至于通不过检验,那么显然,路径系数对应的标准差太大了,这时降低标准差通常可以提高t值。如何提高t值?
呵呵,标准差太大,意味着什么?显然是涉及到的潜变量对应的观测变量离散性大,它等价于,不同受访者对同一问题的看法差异明显,它又等价于,受访者身份有可能是一个调节变量,它又等价于,你或许可以做模型分组(当然样本容量要足够大),它又造价于,你可能要有一个全新的发现。好了,一个新的创新点出台了,论文的亮点又多了一个。
以上分析,我来总结一个我的观点:
(1)统计显著只是一个较低的要求,通过了应当考虑如何解释,通不过可能说明其中包含创新点;
(2)无论何时,不要数据造假,因为你可能失去了一个很重要的发现,也许这个发现将会以你的名字命名;
(3)数据是死的,理论和逻辑推理才是鲜活的。
(4)最后一点,我不是学统计的,上面的观点请统计大牛来进行更严密的解释。
谢谢!