〖On Spss〗茫茫人海,寻觅“你”、“我”联系——关联规则-经管之家官网!

人大经济论坛-经管之家 收藏本站
您当前的位置> 认证培训>>

SPSS数据统计分析师认证

>>

〖On Spss〗茫茫人海,寻觅“你”、“我”联系——关联规则

〖On Spss〗茫茫人海,寻觅“你”、“我”联系——关联规则

发布:我的素质低 | 分类:SPSS数据统计分析师认证

关于本站

人大经济论坛-经管之家:分享大学、考研、论文、会计、留学、数据、经济学、金融学、管理学、统计学、博弈论、统计年鉴、行业分析包括等相关资源。
经管之家是国内活跃的在线教育咨询平台!

经管之家新媒体交易平台

提供"微信号、微博、抖音、快手、头条、小红书、百家号、企鹅号、UC号、一点资讯"等虚拟账号交易,真正实现买卖双方的共赢。【请点击这里访问】

提供微信号、微博、抖音、快手、头条、小红书、百家号、企鹅号、UC号、一点资讯等虚拟账号交易,真正实现买卖双方的共赢。【请点击这里访问】

【OnSpss】——【关联规则】→理论+汇总+案例分析←+→分析应用:当“双色球”遇上“关联规则”←〈摘要〉所谓关联,反映的是一个事件和其他事件之间依赖或关联的知识。〈深理论、简单说〉关联算法是数据挖掘中的一类 ...
扫码加入金融交流群


【On Spss】——【关联规则】


→理论+汇总+案例分析←

+

→分析应用:当“双色球”遇上“关联规则”←




〈摘 要〉


所谓关联,反映的是一个事件和其他事件之间依赖或关联的知识。




〈深理论、简单说〉


关联算法是数据挖掘中的一类重要算法。1993年,R.Agrawal等人首次提出了挖掘顾客交易数据中项目集间的关联规则问题,其核心是基于两阶段频繁集思想的递推算法。该关联规则在分类上属于单维、单层及布尔关联规则,典型的算法是Aprior算法。


Aprior算法将发现关联规则的过程分为两个步骤:第一步通过迭代,检索出事务数据库1中的所有频繁项集,即支持度不低于用户设定的阈值的项集;第二步利用频繁项集构造出满足用户最小信任度的规则。其中,挖掘或识别出所有频繁项集是该算法的核心,占整个计算量的大部分。




〈同类系列贴〉


Apriori算法实现

[数据挖掘理论与案例] 数据挖掘系列教学视频--基于Apriori算法的银行信用关联规则挖掘

[数据挖掘理论与案例] 基于聚类和关联规则的挖掘算法【论文参考】

[SAS EM] 用SAS EM做关联规则挖掘与聚类分析


号外:欢迎“槽客”加我(QQ:407117636)一起吐槽计量啊~




〈对比分析〉


关联规则Apriori算法是数据挖掘中常用的一种算法。这里会涉及诸如支持度、最小支持阈值、置信度、提升值等概念。


1.假如有a、b、c、d四个分类,Apriori算法首先计算四个分类的在每个观察记录上的个数,然后两两组合再计算个数,小于某个数的删除,并计算置信度。以此类推。

2 .设定最小置信度,并与上述置信度比较,小于最小置信度的删除。

3.最后计算提升值,大于1为正关联;小于1为负关联。




〈案例 分析〉


数据分析应用:当“双色球”遇上“关联规则”



双色球=500万,说“一夜暴富、治病救人、倾家荡产、鬼迷心窍”也都不为过。人们都说,“沙县小吃、绝味鸭脖、牛肉拉面”是全国最泛的连锁,我看不然,彩票站才是全国最最泛的连锁哈,总之一句话,双色球牵挂着千千万万的国人,他们买的是彩票,投入的是爱心捐助,夜以继日、默默无闻。

双色球天然是数据,距离我们又非常近,不拿双色球娱乐一下就对不住观众朋友们。早前看到沈浩老师曾写过一篇“挖挖双色球”的文章,非常精彩,既科学了,也娱乐了,今天也效仿下,做篇类似的文章。


【双色球数据采集】


现在有很多大网站都有双色球专栏,我们可以非常轻松的采集到每一期的开奖结果。最简单的方法就是直接从网页上复制到excel表格中,再先进点的就是每期过后自动采集的小工具、小软件了,谷歌下就能找到。本文选择第 11147-12093共100期双色球开奖数据为例,复制整理后的结果如下图:



此表带有国人制作报表的特质,是一张行列交叉的二维表格,对于数据挖掘任务来说,这样的数据集表格是没有办法进行建模的,我们还需要将格式按照分析的要求进行适当的变换。


【建模方法选择】


双色球能预测么?几乎所有的人都有此一问,从概率统计角度,这是随机过程,每一个数字出现的概率基本一致,答案自然是难以预测,但是,现实中却仍然有很大部分人抱有“可预测”的期望,试想一下,如果真的能预测,你认为国家还会玩这个游戏么?因此,就像沈浩老师说的一样,“我们要有基本的科学素养”!


我们先假设:数据质量ok,可能含有某种“规律”(从开出的结果来看,似乎某些号码会一起出现)。检验这样的假设,关联规则是不二选择,我们试图通过关联规则来了解一下各个号码的出号规律。是不是有哪些号码会同时出现。因此,确定的建模方法:关联规则。


【关联规则对数据源的要求】


要求数据源按照“事实表或者事务表格式组织”,前面我们采集的100期数据是二维表格,现在我们首先将此二维表转换为事实表格式。可能的途径:二维表——事务表——事实表。


1.二维表——事务表的转换(SPSS数据重组功能)


用spss打开含有100期开奖结果的excel二维表格,选择“数据”——“重组”菜单,选择“将选定变量重组为个案”,一共历经7步骤,按照向导的指示操作即可。



spss数据重组之后,我们保存该spss数据,命名为:双色球100期。此时是事务表格式(想象一下超市pos单据的格式)。


2.事务表——事实表的转换(clementine“设为标志”节点)


先读入spss数据源,过滤掉id、索引两列,只留下期号、红球两列。插入“设为标志”节点,


clementine的“设为标志”节点,用于根据为一个或多个集合字段定义的分类值导出标志字段。例如,药品演示数据包含一个集合字段 BP(血压),其值为 High、Normal 和 Low。为简化数据操作,可以创建一个代表高血压的标志字段,用于指示患者是否患有高血压。经过“设为标志”节点后,原来具体的红球号码,被转换为“是与否”即“1与0”格式,本例的结果如下图:


【初步图形探索】


在开始数据挖掘之前,我们首先通过图形工具对假设进行初步的探索,希望能通过图形直观的观察到红球一起出现的可能。clementine的网络图是非常不错的工具,是一种更为生动和直观地展示两个或多个分类变量分布特征的图形,能够显示出变量间相关性的强弱,经常和关联规则模型配合使用。在“设为标志”节点之后插入“网络图”节点,将1-33个红球变量选入分类框内,运行即可。



较粗的连线表明两端的数字具有较强相关,滑动关联强度,可以省略掉比较弱的链接,便于快速了解关联情况。我们可以读出以下几条可能的规律:19和28;5和24;4和26;9和15;这几组关联强度比较客观,经常在同一期中同时出现。当然,这只是我们从图形上做出的初步判断,心里大概有地啦。其他规则还有待于我们利用clementine的关联规则模型来发掘了。


【clementine关联规则】


数据流如下所示,插入的是Apriori关联规则模型节点。


关联规则设置:我们希望看到不同红球一起出现的可能,因此,关联规则的前项和后项全部设置为1-33个红球,考虑到样本量只有100,较少,另外,规则可能不够明显,因此支持度和置信度均设置较低,目的主要是看模型如何运行。


模型结果格式适当调整后如下图所示,此时可以看到,我们得到的规则和网络图的初步结果有很多相似的地方,比如,19和28号红球,5、24和33号红球,4和26号红球,这些规则置信度相对较高,提升值也相对较好。那么,是不是在双色球投注的时候可以考虑5、24、33投注呢?或许吧,各位看官觉得呢?


读到此处,经常投资双色球的同学可能还会想都红球和篮球之间是否存在某些规律呢?出现某一篮球时,会不会同时出现某一红球?我们来试一下吧。


1.网络图,总体来说,红球和蓝球间的关联度较小。不易发觉。


2.关联规则模型


支持度很低,大概看一下,蓝8号最可能和红22号出现,蓝12和红2,蓝9和14,11;这只是字面上的,若果我们的样本量巨大的话,这些规则看起来将毫无意义,因为最大的科学是,随机不可预测。


在沈浩老师博客中,采用GRI模型节点,而本文采用的是Apriori节点,有少许不同,但二者的主要目的一致,并不在于双色球投注,当然,关联规则用于双色球投注,也算是一种投注方式的探索吧。至于能否真正的应用于彩票投注,就不是本文的目的所在了(当然,允许各位双色球爱好者保留美好的愿望)。

「经管之家」APP:经管人学习、答疑、交友,就上经管之家!
免流量费下载资料----在经管之家app可以下载论坛上的所有资源,并且不额外收取下载高峰期的论坛币。
涵盖所有经管领域的优秀内容----覆盖经济、管理、金融投资、计量统计、数据分析、国贸、财会等专业的学习宝库,各类资料应有尽有。
来自五湖四海的经管达人----已经有上千万的经管人来到这里,你可以找到任何学科方向、有共同话题的朋友。
经管之家(原人大经济论坛),跨越高校的围墙,带你走进经管知识的新世界。
扫描下方二维码下载并注册APP
本文关键词:

本文论坛网址:https://bbs.pinggu.org/thread-3237154-1-1.html

人气文章

1.凡人大经济论坛-经管之家转载的文章,均出自其它媒体或其他官网介绍,目的在于传递更多的信息,并不代表本站赞同其观点和其真实性负责;
2.转载的文章仅代表原创作者观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,本站对该文以及其中全部或者部分内容、文字的真实性、完整性、及时性,不作出任何保证或承若;
3.如本站转载稿涉及版权等问题,请作者及时联系本站,我们会及时处理。
经管之家 人大经济论坛 大学 专业 手机版