序列模式

CDA老师1

Python
序列模式 在购物篮分析数据中,常常会包含顾客购买商品的时间信息,基于时间的顺序可以形成某种序列关系,而Apriori算法只强调商品同时出现,并不关系数据中的序列信息,但是序列信息却对于预测特定事件未来的发生起着重要作用。 首先从处理的数据对象上区分Apriori算法和序列模式。Apriori算法和序列模式处理的数据对象如下: ![image.png](/z_anli/upload/pgc/202212/7091d0cfd73e20adbf87edf6dc294de8.png) Apriori算法处理的数据对象 ![image.png](/z_anli/upload/pgc/202212/b5d41f7f990f45399df1f1c3c5f1e1a8.png) 序列模式处理的数据对象 Apriori算法只考虑商品同时出现,没有考虑顾客在不同时间点的购买情况,而序列模式则分析的是顾客在不同时间点的购买情况。序列模式中的基本概念如下: 事件:某一时间点下的购买记录,如{牛奶,面包机,面包} 项目:当前购买记录中涉及的所有商品,比如,以上序列模式处理的数据对象的项目是{牛奶,面包机,面包,橙汁,啤酒,豆奶} 序列:序列是事件的有序列表,比如,<{啤酒,面包机,豆奶},{面包,橙汁}> ![image.png](/z_anli/upload/pgc/202212/ead568ebbc1989af8215c03809281d69.png) K频繁序列:满足最小支持度的序列叫做频繁序列,如果该频繁序列包含的事件数为K,则称为K频繁序列。 Apriori算法的目的是挖掘频繁项集,找到关联规则,比如,有一个频繁项集为面包机->面包,则该关联规则的含义是在一次交易中买了面包机,也很可能买面包;另外,假如现有频繁序列<面包机,面包>,表示顾客在一次交易中购买了面包机,则其后期很可能回来购买面包。对于以上描述,Apriori算法告诉我们,在销售过程中,可以将面包机和面包摆放在一起,而序列模式告诉我们,如果在一段时间内面包机的销量比较好,则可以考虑加大面包的进货量。 下面介绍序列模式挖掘的GSP算法。 GSP算法也是Apriori算法类的一种,是在Apriori算法的基础上进行了细节的调整。首先是加入了时间约束min_gap和max_gap,要求原来的连续变为只要满足在规定的min_gap到max_gap之间即可;其次是加入了time_windows_size,只要在windows_size内的事件,都可以被认为是同一序列。 算法原理如下: (1)扫描序列数据库,根据最小支持度阈值,找出1频繁序列 (2)基于1频繁序列进行连接运算,通过最小支持度阈值来产生2频繁序列 (3)根据2频繁序列,连接产生3频繁序列,基于最小支持度阈值判断所有子集是否全是频繁序列,一次进行剪枝 (4)重复上述过程,直到没有新的序列模式或者没有新的候选序列模式产生为止 参考内容: https://blog.csdn.net/qq_31852001/article/details/78944050 https://blog.csdn.net/m0_37786726/article/details/79884396
0.0319 6 0 关注作者 收藏 2022-12-20   阅读量: 314

评论(0)


暂无数据

博客推荐