RapidMiner GSP 序列模式挖掘-经管之家官网!

人大经济论坛-经管之家 收藏本站
您当前的位置> 会计>>

会计库

>>

RapidMiner GSP 序列模式挖掘

RapidMiner GSP 序列模式挖掘

发布:Nicolle | 分类:会计库

关于本站

人大经济论坛-经管之家:分享大学、考研、论文、会计、留学、数据、经济学、金融学、管理学、统计学、博弈论、统计年鉴、行业分析包括等相关资源。
经管之家是国内活跃的在线教育咨询平台!

经管之家新媒体交易平台

提供"微信号、微博、抖音、快手、头条、小红书、百家号、企鹅号、UC号、一点资讯"等虚拟账号交易,真正实现买卖双方的共赢。【请点击这里访问】

提供微信号、微博、抖音、快手、头条、小红书、百家号、企鹅号、UC号、一点资讯等虚拟账号交易,真正实现买卖双方的共赢。【请点击这里访问】

SequentialPatternMining序列模式挖掘2013-12-06序列模式挖掘的任务是:尝试从数据集中发现时间顺序模式。与关联规则挖掘做个类比。关联规则挖掘发现的是:如果顾客买了尿布,他有较高几率同时会买啤酒。序列模式挖掘 ...
坛友互助群


扫码加入各岗位、行业、专业交流群


Sequential Pattern Mining 序列模式挖掘2013-12-06

序列模式挖掘的任务是:尝试从数据集中发现时间顺序模式。


与关联规则挖掘做个类比。

  • 关联规则挖掘发现的是:如果顾客买了尿布,他有较高几率同时会买啤酒。
  • 序列模式挖掘发现的时:如果顾客今天买了尿布,他有较高几率下次会买啤酒。

序列模式挖掘与关联规则挖掘之间的主要区别在于:

  • 关联规则挖掘中,“如果—则”的关系出现在同一个数据点中。
  • 序列模式挖掘中,“如果—则”的关系可以是不同的数据点,只要这些不同的数据点对应同一个分析对象(如:这学期修的课和下学期选修的课,都针对同一个学生而言)。

序列模式挖掘的方法为:以一定的支持程度作为阀值,在数据集中找出所有满足条件的序列关系。

这里,支持程度的计算方法为:(包含了特定序列关系的组合数量)除以(所有序列组合的数量)


常用算法有:GSP (Generalized Sequential Pattern)

见 Srikant & Agrawal, 1996

http://rakesh.agrawal-family.com/papers/icde95seq.pdf

数据预处理过程:

将数据处理成分析对象的行为序列,如:

Bob:{瞎蒙且无聊5:05:20,休息且无聊5:05:40,解题且无聊5:06:00,瞎蒙且无聊5:06:20,瞎蒙且崩溃5:06:40,解题且无聊5:07:00}

GPS算法:

  • 选取所有长度为1的序列集合,以特定的阀值进行筛选。
  • 根据筛选过的长度为1的序列集合,构造长度为2的序列集合,以特定的阀值进行筛选。
  • 根据筛选过的长度为1的序列集合和长度为2的序列集合,构造长度为3的序列集合,以特定的阀值进行筛选。
  • 如此直至无法构建、筛选出任何新的序列。
  • 对于所有筛选出的长度大于1的序列,构建序列关系。

例:

设定阀值为0.2

数据:

  • Chuck: a, abc, ac, de, cef
  • Darlene: af, ab, acd, dabc, ef
  • Egoberto: aef, ab, aceh, d, ae
  • Francine: a, bc, acf, d, abeg

首先是支持程度的计算,以长度为2的序列为例。

对于Chunk而言,其数据中所有可能的长度为2序列为:

  • (a,abc),(a,ac), (a,de), (a,cef),(abc,ac),(abc,de),(abc,cef),(ac,de),(ac,cef),(de,cef)

共10个。

以Chunk数据中的序列ac为例:

  • (a,abc),(a,ac),(a,cef),(abc,ac),(abc,cef),(ac,cef)

满足该序列,共6个。

(abc,de)不满足序列ac的原因是:abc中的ac是同时间出现的,在同一个数据点中。

因此仅对Chunk而言,序列ac的支持程度为6/10=0.6>0.2。

算法:

长度为1的序列:

选取所有长度为1的序列集合,以阀值0.2进行筛选,所有长度为1的序列总数为20,每人5个。

序列有a,b,c,d,e,f,其支持程度分别为:

  • a: 14/20=0.7>0.2
  • b: 6/20=0.2>0.2
  • c: 8/20=0.4>0.2
  • d: 5/20=0.25>0.2
  • e: 7/20=0.35>0.2
  • f: 5/20=0.4>0.2
  • g:1/20=0.05<0.2
  • h:1/20=0.05<0.2

a,b,c,d,e,f超过阀值0.2,可组合成长度为2的序列有:ab,ac,ad,ae,af,bc,bd,be,bf,cd,ce,cf,de,df,ef共15种。

长度为2的序列:

数据中,所有长度为2的序列总数为40,每人(4+3+2+1)=10种。对上一步最后构建的15种长度为2的序列进行检验:

  • 计算ab的支持程度为:9/40 = 0.225 > 0.2
  • 计算ac的支持程度为:15/40 = 0.375 >0.2
  • 计算ad的支持程度为:13/40 = 0.325 >0.2
  • 计算ae的支持程度为:17/40 = 0.425 >0.2
  • 计算af的支持程度为:8/40 = 0.2
  • 如此类推

算出超过阀值的长度为2的序列有:ac,ad,ae等

利用第1步筛选出的中长度为1的序列和刚筛选出长度为2的序列,构造长度为3的序列,如aac,aad,等。

长度为3的序列:

数据中,所有长度为3的序列总数为40,每人(4+3+2+1)=10种,对上一步最后构建的长度为3的序列进行检验

  • 计算aac的支持程度为:7/40 = 0.175<0.2
  • 计算aad的支持程度为:8/40 = 0.2
  • 计算aae的支持程度为:17/40 = 0.425>0.2

类似地,计算出超过阀值的长度为3的序列有:aad,aae,ade, etc. 如此直至再也无法筛选出更长的序列.

最后

筛选出的所有长度超过2的序列有:ac,ad,ae,aad,aae,ade,etc等

构造的序列关系有:a->c,a->d,a->e,a->ad,a->ae,a->de等

通过领域知识对这些序列关系进行最后筛选。

其他序列挖掘算法还有:

  • Free-Span
  • Prefix-Span

[hide][/hide]
扫码或添加微信号:坛友素质互助


「经管之家」APP:经管人学习、答疑、交友,就上经管之家!
免流量费下载资料----在经管之家app可以下载论坛上的所有资源,并且不额外收取下载高峰期的论坛币。
涵盖所有经管领域的优秀内容----覆盖经济、管理、金融投资、计量统计、数据分析、国贸、财会等专业的学习宝库,各类资料应有尽有。
来自五湖四海的经管达人----已经有上千万的经管人来到这里,你可以找到任何学科方向、有共同话题的朋友。
经管之家(原人大经济论坛),跨越高校的围墙,带你走进经管知识的新世界。
扫描下方二维码下载并注册APP
本文关键词:

本文论坛网址:https://bbs.pinggu.org/thread-3547246-1-1.html

人气文章

1.凡人大经济论坛-经管之家转载的文章,均出自其它媒体或其他官网介绍,目的在于传递更多的信息,并不代表本站赞同其观点和其真实性负责;
2.转载的文章仅代表原创作者观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,本站对该文以及其中全部或者部分内容、文字的真实性、完整性、及时性,不作出任何保证或承若;
3.如本站转载稿涉及版权等问题,请作者及时联系本站,我们会及时处理。