卡方检验
卡方统计就是测量实际频数X和期望频数E(X)的拟合程度。其公式如下:
X^2=SUM((X-E(X))^2/E(X)),其中X为实际观察值,E(X)为期望观察值,如果发展过程中变量无影响,则统计量(卡方)的值越小,使用过程可根据自由度和显著水平来选取一个合适的临界值。
Df表示自由度:df=(行个数-1)(列个数-1),这里的行和列的个数列联表中的行和列个数。
X-squared 计算出来的卡方值与之前根据自由度和显著水平选择的卡方临界值进行比较,小于临界值,则说明前后变化对变量无影响,大于临界值则说明有影响。
p-value 进行二维列联表进行卡方独立性检验时,P值大于显著性水平0.05时,可以得出行列变量相互独立,如果小于的话,则说明行列变量相互影响。
> data1<-rbind(c(9800,200),c(8810,190))
> data1
[,1] [,2]
[1,] 9800 200
[2,] 8810 190
> chisq.test(data1,correct=T) #这个函数可以对二维列联表就是上面的列联表进行卡方独立检验,以判断行变量和列表变量是否相互独立。参数为x,和correct,x表示矩阵对象。Correct等于T时,为默认值,表示计算卡方统计量时应有连续性校正。F时为正常计算卡方统计量。
Pearson's Chi-squared test with Yates' continuity correction
data: data1
X-squared = 0.23823, df = 1, p-value = 0.6255
卡方值=0.23823 自由度=1 p值=0.6255
> chisq.test(data1,correct=F)
Pearson's Chi-squared test
data: data1
X-squared = 0.29087, df = 1, p-value = 0.5897
> data.tab<-as.table(data1)
> data.tab
A B
A 9800 200
B 8810 190
> mosaic(data.tab,shade=T,legend=T)
>