楼主: 我的素质低
6463 41

[学习资料] 〖On Spss〗茫茫人海,寻觅“你”、“我”联系——关联规则 [推广有奖]

回帖奖励 28 个论坛币 回复本帖可获得 1 个论坛币奖励! 每人限 1 次(中奖概率 80%)

学术权威

83%

还不是VIP/贵宾

-

TA的文库  其他...

〖素质文库〗

结构方程模型

考研资料库

威望
8
论坛币
23388 个
通用积分
28302.3504
学术水平
2705 点
热心指数
2881 点
信用等级
2398 点
经验
223563 点
帖子
2977
精华
52
在线时间
2175 小时
注册时间
2012-11-24
最后登录
2024-1-13

一级伯乐勋章 初级学术勋章 初级热心勋章 初级信用勋章 中级热心勋章 中级学术勋章 中级信用勋章 高级学术勋章 高级热心勋章 高级信用勋章 特级学术勋章

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

【On Spss】——【关联规则】



→理论+汇总+案例分析←

+

→分析应用:当“双色球”遇上“关联规则”←






〈摘 要〉



    所谓关联,反映的是一个事件和其他事件之间依赖或关联的知识。





〈深理论、简单说〉


      关联算法是数据挖掘中的一类重要算法。1993年,R.Agrawal等人首次提出了挖掘顾客交易数据中项目集间的关联规则问题,其核心是基于两阶段频繁集思想的递推算法。该关联规则在分类上属于单维、单层及布尔关联规则,典型的算法是Aprior算法。


      Aprior算法将发现关联规则的过程分为两个步骤:第一步通过迭代,检索出事务数据库1中的所有频繁项集,即支持度不低于用户设定的阈值的项集;第二步利用频繁项集构造出满足用户最小信任度的规则。其中,挖掘或识别出所有频繁项集是该算法的核心,占整个计算量的大部分。




〈同类系列贴〉


Apriori算法实现

[数据挖掘理论与案例] 数据挖掘系列教学视频--基于Apriori算法的银行信用关联规则挖掘

[数据挖掘理论与案例] 基于聚类和关联规则的挖掘算法【论文参考】

[SAS EM] 用SAS EM做关联规则挖掘与聚类分析


    号外:欢迎“槽客”加我(QQ:407117636)一起吐槽计量啊~





〈对比分析〉


     关联规则Apriori算法是数据挖掘中常用的一种算法。这里会涉及诸如支持度、最小支持阈值、置信度、提升值等概念。


    1.假如有a、b、c、d四个分类,Apriori算法首先计算四个分类的在每个观察记录上的个数,然后两两组合再计算个数,小于某个数的删除,并计算置信度。以此类推。

    2 .设定最小置信度,并与上述置信度比较,小于最小置信度的删除。

    3.最后计算提升值,大于1为正关联;小于1为负关联。






〈案例 分析〉



数据分析应用:当“双色球”遇上“关联规则”


1.jpg


    双色球=500万,说“一夜暴富、治病救人、倾家荡产、鬼迷心窍”也都不为过。人们都说,“沙县小吃、绝味鸭脖、牛肉拉面”是全国最泛的连锁,我看不然,彩票站才是全国最最泛的连锁哈,总之一句话,双色球牵挂着千千万万的国人,他们买的是彩票,投入的是爱心捐助,夜以继日、默默无闻。

    双色球天然是数据,距离我们又非常近,不拿双色球娱乐一下就对不住观众朋友们。早前看到沈浩老师曾写过一篇“挖挖双色球”的文章,非常精彩,既科学了,也娱乐了,今天也效仿下,做篇类似的文章。


【双色球数据采集】


    现在有很多大网站都有双色球专栏,我们可以非常轻松的采集到每一期的开奖结果。最简单的方法就是直接从网页上复制到excel表格中,再先进点的就是每期过后自动采集的小工具、小软件了,谷歌下就能找到。本文选择第 11147-12093共100期双色球开奖数据为例,复制整理后的结果如下图:


2.png



    此表带有国人制作报表的特质,是一张行列交叉的二维表格,对于数据挖掘任务来说,这样的数据集表格是没有办法进行建模的,我们还需要将格式按照分析的要求进行适当的变换。



【建模方法选择】


    双色球能预测么?几乎所有的人都有此一问,从概率统计角度,这是随机过程,每一个数字出现的概率基本一致,答案自然是难以预测,但是,现实中却仍然有很大部分人抱有“可预测”的期望,试想一下,如果真的能预测,你认为国家还会玩这个游戏么?因此,就像沈浩老师说的一样,“我们要有基本的科学素养”!



    我们先假设:数据质量ok,可能含有某种“规律”(从开出的结果来看,似乎某些号码会一起出现)。检验这样的假设,关联规则是不二选择,我们试图通过关联规则来了解一下各个号码的出号规律。是不是有哪些号码会同时出现。因此,确定的建模方法:关联规则。



【关联规则对数据源的要求】



    要求数据源按照“事实表或者事务表格式组织”,前面我们采集的100期数据是二维表格,现在我们首先将此二维表转换为事实表格式。可能的途径:二维表——事务表——事实表。


    1.二维表——事务表的转换(SPSS数据重组功能)


    用spss打开含有100期开奖结果的excel二维表格,选择“数据”——“重组”菜单,选择“将选定变量重组为个案”,一共历经7步骤,按照向导的指示操作即可。


3.jpg


    spss数据重组之后,我们保存该spss数据,命名为:双色球100期。此时是事务表格式(想象一下超市pos单据的格式)。



    2.事务表——事实表的转换(clementine“设为标志”节点)



    先读入spss数据源,过滤掉id、索引两列,只留下期号、红球两列。插入“设为标志”节点,

4.jpg



    clementine的“设为标志”节点,用于根据为一个或多个集合字段定义的分类值导出标志字段。例如,药品演示数据包含一个集合字段 BP(血压),其值为 High、Normal 和 Low。为简化数据操作,可以创建一个代表高血压的标志字段,用于指示患者是否患有高血压。经过“设为标志”节点后,原来具体的红球号码,被转换为“是与否”即“1与0”格式,本例的结果如下图:

5.jpg



【初步图形探索】


    在开始数据挖掘之前,我们首先通过图形工具对假设进行初步的探索,希望能通过图形直观的观察到红球一起出现的可能。clementine的网络图是非常不错的工具,是一种更为生动和直观地展示两个或多个分类变量分布特征的图形,能够显示出变量间相关性的强弱,经常和关联规则模型配合使用。在“设为标志”节点之后插入“网络图”节点,将1-33个红球变量选入分类框内,运行即可。


6.jpg


    较粗的连线表明两端的数字具有较强相关,滑动关联强度,可以省略掉比较弱的链接,便于快速了解关联情况。我们可以读出以下几条可能的规律:19和28;5和24;4和26;9和15;这几组关联强度比较客观,经常在同一期中同时出现。当然,这只是我们从图形上做出的初步判断,心里大概有地啦。其他规则还有待于我们利用clementine的关联规则模型来发掘了。



【clementine关联规则】


    数据流如下所示,插入的是Apriori关联规则模型节点。

7.jpg



    关联规则设置:我们希望看到不同红球一起出现的可能,因此,关联规则的前项和后项全部设置为1-33个红球,考虑到样本量只有100,较少,另外,规则可能不够明显,因此支持度和置信度均设置较低,目的主要是看模型如何运行。

8.jpg



    模型结果格式适当调整后如下图所示,此时可以看到,我们得到的规则和网络图的初步结果有很多相似的地方,比如,19和28号红球,5、24和33号红球,4和26号红球,这些规则置信度相对较高,提升值也相对较好。那么,是不是在双色球投注的时候可以考虑5、24、33投注呢?或许吧,各位看官觉得呢?



9.jpg

    读到此处,经常投资双色球的同学可能还会想都红球和篮球之间是否存在某些规律呢?出现某一篮球时,会不会同时出现某一红球?我们来试一下吧。



    1.网络图,总体来说,红球和蓝球间的关联度较小。不易发觉。

10.jpg



    2.关联规则模型

11.jpg


    支持度很低,大概看一下,蓝8号最可能和红22号出现,蓝12和红2,蓝9和14,11;这只是字面上的,若果我们的样本量巨大的话,这些规则看起来将毫无意义,因为最大的科学是,随机不可预测。



在沈浩老师博客中,采用GRI模型节点,而本文采用的是Apriori节点,有少许不同,但二者的主要目的一致,并不在于双色球投注,当然,关联规则用于双色球投注,也算是一种投注方式的探索吧。至于能否真正的应用于彩票投注,就不是本文的目的所在了(当然,允许各位双色球爱好者保留美好的愿望)。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:关联规则 SPSS PSS clementine clementin 双色球 案例分析 布尔 项目 知识

本帖被以下文库推荐

心晴的时候,雨也是晴;心雨的时候,晴也是雨!
扣扣:407117636,欢迎一块儿吐槽!!
沙发
gaojianwqjk 发表于 2014-10-8 15:01:16 |只看作者 |坛友微信交流群

回帖奖励 +1 个论坛币

使用道具

藤椅
西征骑士团 发表于 2014-10-8 22:15:28 |只看作者 |坛友微信交流群

回帖奖励 +1 个论坛币

{:2_31:}

使用道具

板凳
seven兮 发表于 2014-10-9 07:33:25 |只看作者 |坛友微信交流群
赞的不行

使用道具

报纸
nonewman 发表于 2014-10-9 08:18:32 |只看作者 |坛友微信交流群

回帖奖励 +1 个论坛币

借鉴历史开创未来,分析数据揭秘事实。

使用道具

地板
zlgsx 学生认证  发表于 2014-10-16 08:55:44 |只看作者 |坛友微信交流群
很赞!

使用道具

7
aquarius_g 发表于 2014-10-16 12:55:15 |只看作者 |坛友微信交流群

回帖奖励 +1 个论坛币

关联方法值得借鉴

使用道具

8
dfsq 发表于 2014-10-17 14:50:37 |只看作者 |坛友微信交流群

回帖奖励 +1 个论坛币

kankan

使用道具

9
kcy729 发表于 2014-10-18 23:27:37 |只看作者 |坛友微信交流群

回帖奖励 +1 个论坛币

感谢分享

使用道具

10
linda8866 发表于 2017-4-4 20:54:22 |只看作者 |坛友微信交流群

回帖奖励 +1 个论坛币

感谢楼主分享。

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-20 08:22