数据源:公司内部数据,有Q1~Q10十个变量4000多条调查数据,不公开。
代码部分:
library("rJava")
source("MINE.r")
MINE("p1p6.csv","all.pairs" )
从而可以得出p1p6.csv这个数据集中Q1~Q10个变量之间的相关关系。
这个方法得出的结果发现,最高的MIC数值为0.12584。结果并不理想。
X var | Y var | MIC (strength) | MIC-p^2 (nonlinearity) | MAS (non-monotonicity) | MEV (functionality) | MCN (complexity) | Linear regression (p) |
q4 | q3 | 0.12584 | -0.019400075 | 0.019339994 | 0.12584 | 3.5849626 | 0.38110375 |
q7 | q6 | 0.1198 | 0.003586866 | 0.009350002 | 0.1198 | 4.5849624 | 0.34090048 |
q2 | q1 | 0.11177 | -0.058614813 | 0.013419993 | 0.11174 | 4.169925 | 0.41277695 |
q5 | q2 | 0.10986 | -0.01018548 | 0.02493 | 0.10986 | 4.169925 | 0.3464758 |
q4 | q2 | 0.1087 | 0.017092653 | 0.003200002 | 0.1087 | 4.169925 | 0.30266705 |
q7 | q2 | 0.10201 | -0.003853403 | 0.002759993 | 0.10201 | 4.169925 | 0.32536656 |
q8 | q7 | 0.0955 | -0.007174283 | 0.006820001 | 0.0955 | 7.2094536 | 0.32042828 |
q7 | q5 | 0.09192 | -0.026152901 | 0.021470003 | 0.09192 | 7.2094536 | 0.34361738 |
q7 | q4 | 0.09113 | -1.40E-04 | 0.014250003 | 0.09113 | 4.4594316 | 0.30210853 |
q3 | q1 | 0.08929 | 0.015379466 | 0.020099998 | 0.08929 | 4.5849624 | 0.27186492 |
q8 | q6 | 0.08618 | 0.046687294 | 0.027779996 | 0.08618 | 4.5849624 | 0.19872773 |
q5 | q4 | 0.07966 | -0.03884176 | 0.011100002 | 0.07966 | 4.4594316 | 0.34424084 |
q3 | q2 | 0.07871 | -0.023748316 | 0.01038 | 0.07871 | 4.5849624 | 0.3200911 |
q4 | q1 | 0.0755 | -0.018166006 | 0.005109996 | 0.0755 | 4.70044 | 0.30604902 |
q8 | q2 | 0.07395 | -0.010703079 | 0.008299999 | 0.07395 | 4.169925 | 0.29095203 |
q7 | q3 | 0.07063 | -0.010072008 | 0.01038 | 0.07063 | 4.5849624 | 0.28408098 |
只显示大于0.07的结果。
Spearman相关系数:对不服从正态分布的资料、原始资料等级资料、一侧开口资料、总体分布类型未知的资料不符合使用积矩相关系数来描述关联性。使用SPSS20.0对p1p6.csv这个数据集中Q1~Q10进行spearman相关系数相关系数分析。
可以初步得知,两种方法所的结果是基本一致的,但是数值的差异性很大。Spearman系数数值明显大些,结果更好看些。
变量1 | 变量2 | MIC | Spearman |
q4 | q3 | 0.12584 | 0.426 |
q7 | q6 | 0.1198 | 0.423 |
q2 | q1 | 0.11177 | 0.436 |
q5 | q2 | 0.10986 | 0.385 |
q4 | q2 | 0.1087 | 0.299 |
q7 | q2 | 0.10201 | 0.38 |
q8 | q7 | 0.0955 | 0.319 |
q7 | q5 | 0.09192 | 0.358 |
q7 | q4 | 0.09113 | 0.347 |
q3 | q1 | 0.08929 | 0.282 |
q8 | q6 | 0.08618 | 0.186 |
q5 | q4 | 0.07966 | 0.324 |
q3 | q2 | 0.07871 | 0.308 |
q4 | q1 | 0.0755 | 0.292 |
q8 | q2 | 0.07395 | 0.296 |
q7 | q3 | 0.07063 | 0.299 |
以上是两种方法的相关系数数值,其中Spearman系数P值<0.01。
对其两种相关性结果进行相关性检验,其中Pearson系数为0.715,Spearman系数为0.764,P值均小于0.01。
结论:
初步分析可以得出,MIC数值并不是万能的,在商业领域的应用还是有待进一步挖掘。MIC相关其结果有相当可靠性,但是与其他算法有一定出入。需要进一步研究讨论。
此外分享一下,R微博的抓数研究的相关资料。