[学习分享] MIC与Spearman系数的探讨。 [推广有奖]

2关注
0粉丝

大专生

95%

还不是VIP/贵宾

威望: 0 级
论坛币: 6270 个
通用积分: 7.5559
学术水平: 0 点
热心指数: 0 点
信用等级: 0 点
经验: 470 点
帖子: 40
精华: 0
在线时间: 72 小时
注册时间: 2011-11-26
最后登录: 2020-8-31

楼主

lausuai 发表于 2014-3-24 15:07:37 |只看作者 |坛友微信交流群|倒序 |AI写论文

相似文件

换一批

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

背景：具体地探讨指标之间的关联性，大数据时代到来之际，相关关系的重要性也凸显出来，通过研究相关，可以为优化系统、决策研究做出参考建议。但是目前研究相关关系的方法比较多，需要做出比较研究。
数据源：公司内部数据，有Q1~Q10十个变量4000多条调查数据，不公开。

代码部分：

library("rJava")
source("MINE.r")
MINE("p1p6.csv","all.pairs" )

从而可以得出p1p6.csv这个数据集中Q1~Q10个变量之间的相关关系。

这个方法得出的结果发现，最高的MIC数值为0.12584。结果并不理想。

X var

Y var

MIC (strength)

MIC-p^2 (nonlinearity)

MAS (non-monotonicity)

MEV (functionality)

MCN (complexity)

Linear regression (p)

q4	q3	0.12584	-0.019400075	0.019339994	0.12584	3.5849626	0.38110375
q7	q6	0.1198	0.003586866	0.009350002	0.1198	4.5849624	0.34090048
q2	q1	0.11177	-0.058614813	0.013419993	0.11174	4.169925	0.41277695
q5	q2	0.10986	-0.01018548	0.02493	0.10986	4.169925	0.3464758
q4	q2	0.1087	0.017092653	0.003200002	0.1087	4.169925	0.30266705
q7	q2	0.10201	-0.003853403	0.002759993	0.10201	4.169925	0.32536656
q8	q7	0.0955	-0.007174283	0.006820001	0.0955	7.2094536	0.32042828
q7	q5	0.09192	-0.026152901	0.021470003	0.09192	7.2094536	0.34361738
q7	q4	0.09113	-1.40E-04	0.014250003	0.09113	4.4594316	0.30210853
q3	q1	0.08929	0.015379466	0.020099998	0.08929	4.5849624	0.27186492
q8	q6	0.08618	0.046687294	0.027779996	0.08618	4.5849624	0.19872773
q5	q4	0.07966	-0.03884176	0.011100002	0.07966	4.4594316	0.34424084
q3	q2	0.07871	-0.023748316	0.01038	0.07871	4.5849624	0.3200911
q4	q1	0.0755	-0.018166006	0.005109996	0.0755	4.70044	0.30604902
q8	q2	0.07395	-0.010703079	0.008299999	0.07395	4.169925	0.29095203
q7	q3	0.07063	-0.010072008	0.01038	0.07063	4.5849624	0.28408098

只显示大于0.07的结果。
Spearman相关系数：对不服从正态分布的资料、原始资料等级资料、一侧开口资料、总体分布类型未知的资料不符合使用积矩相关系数来描述关联性。使用SPSS20.0对p1p6.csv这个数据集中Q1~Q10进行spearman相关系数相关系数分析。

可以初步得知，两种方法所的结果是基本一致的，但是数值的差异性很大。Spearman系数数值明显大些，结果更好看些。

变量1	变量2	MIC	Spearman
q4	q3	0.12584	0.426
q7	q6	0.1198	0.423
q2	q1	0.11177	0.436
q5	q2	0.10986	0.385
q4	q2	0.1087	0.299
q7	q2	0.10201	0.38
q8	q7	0.0955	0.319
q7	q5	0.09192	0.358
q7	q4	0.09113	0.347
q3	q1	0.08929	0.282
q8	q6	0.08618	0.186
q5	q4	0.07966	0.324
q3	q2	0.07871	0.308
q4	q1	0.0755	0.292
q8	q2	0.07395	0.296
q7	q3	0.07063	0.299

以上是两种方法的相关系数数值，其中Spearman系数P值<0.01。
对其两种相关性结果进行相关性检验，其中Pearson系数为0.715，Spearman系数为0.764，P值均小于0.01。

结论：
初步分析可以得出，MIC数值并不是万能的，在商业领域的应用还是有待进一步挖掘。MIC相关其结果有相当可靠性，但是与其他算法有一定出入。需要进一步研究讨论。

此外分享一下，R微博的抓数研究的相关资料。