楼主: lausuai
7018 4

[学习分享] MIC与Spearman系数的探讨。 [推广有奖]

  • 2关注
  • 0粉丝

大专生

95%

还不是VIP/贵宾

-

威望
0
论坛币
6270 个
通用积分
7.5559
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
470 点
帖子
40
精华
0
在线时间
72 小时
注册时间
2011-11-26
最后登录
2020-8-31

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
背景:具体地探讨指标之间的关联性,大数据时代到来之际,相关关系的重要性也凸显出来,通过研究相关,可以为优化系统、决策研究做出参考建议。但是目前研究相关关系的方法比较多,需要做出比较研究。
数据源:公司内部数据,有Q1~Q10十个变量4000多条调查数据,不公开。

代码部分:

library("rJava")
source("MINE.r")
MINE("p1p6.csv","all.pairs" )

从而可以得出p1p6.csv这个数据集中Q1~Q10个变量之间的相关关系。



这个方法得出的结果发现,最高的MIC数值为0.12584。结果并不理想。


X varY varMIC (strength)MIC-p^2 (nonlinearity)MAS (non-monotonicity)MEV (functionality)MCN (complexity)Linear regression (p)

q4q3

0.12584

-0.019400075

0.019339994

0.12584

3.5849626

0.38110375

q7q6

0.1198

0.003586866

0.009350002

0.1198

4.5849624

0.34090048

q2q1

0.11177

-0.058614813

0.013419993

0.11174

4.169925

0.41277695

q5q2

0.10986

-0.01018548

0.02493

0.10986

4.169925

0.3464758

q4q2

0.1087

0.017092653

0.003200002

0.1087

4.169925

0.30266705

q7q2

0.10201

-0.003853403

0.002759993

0.10201

4.169925

0.32536656

q8q7

0.0955

-0.007174283

0.006820001

0.0955

7.2094536

0.32042828

q7q5

0.09192

-0.026152901

0.021470003

0.09192

7.2094536

0.34361738

q7q4

0.09113

-1.40E-04

0.014250003

0.09113

4.4594316

0.30210853

q3q1

0.08929

0.015379466

0.020099998

0.08929

4.5849624

0.27186492

q8q6

0.08618

0.046687294

0.027779996

0.08618

4.5849624

0.19872773

q5q4

0.07966

-0.03884176

0.011100002

0.07966

4.4594316

0.34424084

q3q2

0.07871

-0.023748316

0.01038

0.07871

4.5849624

0.3200911

q4q1

0.0755

-0.018166006

0.005109996

0.0755

4.70044

0.30604902

q8q2

0.07395

-0.010703079

0.008299999

0.07395

4.169925

0.29095203

q7q3

0.07063

-0.010072008

0.01038

0.07063

4.5849624

0.28408098


只显示大于0.07的结果。
Spearman相关系数:对不服从正态分布的资料、原始资料等级资料、一侧开口资料、总体分布类型未知的资料不符合使用积矩相关系数来描述关联性。使用SPSS20.0对p1p6.csv这个数据集中Q1~Q10进行spearman相关系数相关系数分析。

可以初步得知,两种方法所的结果是基本一致的,但是数值的差异性很大。Spearman系数数值明显大些,结果更好看些。
变量1变量2MICSpearman
q4q3

0.12584

0.426

q7q6

0.1198

0.423

q2q1

0.11177

0.436

q5q2

0.10986

0.385

q4q2

0.1087

0.299

q7q2

0.10201

0.38

q8q7

0.0955

0.319

q7q5

0.09192

0.358

q7q4

0.09113

0.347

q3q1

0.08929

0.282

q8q6

0.08618

0.186

q5q4

0.07966

0.324

q3q2

0.07871

0.308

q4q1

0.0755

0.292

q8q2

0.07395

0.296

q7q3

0.07063

0.299


以上是两种方法的相关系数数值,其中Spearman系数P值<0.01。
对其两种相关性结果进行相关性检验,其中Pearson系数为0.715,Spearman系数为0.764,P值均小于0.01。

结论:
初步分析可以得出,MIC数值并不是万能的,在商业领域的应用还是有待进一步挖掘。MIC相关其结果有相当可靠性,但是与其他算法有一定出入。需要进一步研究讨论。



此外分享一下,R微博的抓数研究的相关资料。
Rweibo_Vignette_CN.pdf (642.17 KB, 需要: 50 个论坛币)


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:SPEARMAN系数 spearman pearman ARMA ARM strength library source 数据源

沙发
lausuai 发表于 2014-3-24 15:32:08 |只看作者 |坛友微信交流群
希望大家多多探讨啊。

使用道具

藤椅
德华知了 发表于 2015-4-24 10:33:29 |只看作者 |坛友微信交流群
发现此方法的作者David N. Reshef 所运用ApproxMaxMI的方法有一些瑕疵。你可以参考一下A Novel Algorithm for the Precise Calculation of the Maximal Information Coefficient这篇论文。
已有 1 人评分论坛币 收起 理由
admin_kefu + 5 热心帮助其他会员

总评分: 论坛币 + 5   查看全部评分

使用道具

板凳
katymeala 发表于 2015-4-24 19:26:46 |只看作者 |坛友微信交流群
你得到的MI小是因为这是个绝对值 应该算归一化MI 最简单的就是NMI=MI/max(H1,H2)
H1 H2 是研究的两者的信息量(熵) 都小于1,算绝对值自然就小了 这样的话 spearman系数自然就显得大了
已有 1 人评分论坛币 收起 理由
admin_kefu + 5 热心帮助其他会员

总评分: 论坛币 + 5   查看全部评分

使用道具

报纸
sjtuwhw 发表于 2016-2-24 14:27:10 |只看作者 |坛友微信交流群
要是免费就好了

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-14 12:42