所在主题:
文件名: emlib.rar
资料下载链接地址: https://bbs.pinggu.org/a-1341537.html
附件大小:
CUSTOMER TIME PRODUCT
0 0 hering
0 1 corned_b
0 2 olives
0 3 ham
0 4 turkey
0 5 bourbon
0 6 ice_crea
1 0 baguette
1 1 soda
1 2 hering
1 3 cracker 复制代码 数据结构如上,共有三个字段:CUSTOMER TIME PRODUCT
libname emlib 'C:\Users\Administrator\Desktop\emlib';
proc dmdb batch data=emlib.assocs out=dmassoc dmdbcat=catassoc;
id customer time;
class product(desc);
run;
proc assoc data=emlib.assocs dmdbcat=catassoc
out=datassoc(label='Output from Proc Assoc')
items=5 support=20;
cust customer;
target product;
run;
proc rulegen in=datassoc
out=datrule(label='Output from Proc Rulegen')
minconf=75;
run;
proc print data=datrule;
run; 复制代码
关联分析代码如上,非常简单,主要用到两个过程PROC ASSOC和PROC RULEGEN 1. PROC ASSOC 主要的作用为生成所有的K-项集,并统计其频率。格式如下: PROC ASSOC <option(s)>;
CUSTOMER variable-list;
TARGET variable; 复制代码 option中最重要的两个分别为items=5 和support=20分别代表K项集的最大项目数阈值和支持度(support)
CUST statement 与TARGET statement分别代表你的标志变量和目标变量。
使用该过程的时候需要注意一点,引用SAS官方原文: Processing an extremely large number of sets could cause your system to run out of disk and/or memory resources. However, by using a higher support level, you can reduce the item sets to a more manageable number. 复制代码 如果你处理的是大数据,运行这个程序的时候可能会磁盘满或者内存溢出。为了避免这种情况的发生,在第一次运行的时候应该设置一个比较高的置信度。逐次递减。
2. PROC RULEGEN 主要的作用是生成关联规则,格式也非常的简单,如下: PROC RULEGEN <option(s)>; 复制代码 option主要是设置minconf:最小置信度(confidence)
3.运行后生成结果(部分)为:主要有:support(支持度)、confidence(置信度)、lift(梯度),rule(规则)
[hide][/hide]
补充内容 (2013-11-3 17:13):
原文参考:
http://support.sas.com/documenta ... iner/em43/assoc.pdf
点击下载
熟悉论坛请点击新手指南
下载说明
1、论坛支持迅雷和网际快车等p2p多线程软件下载,请在上面选择下载通道单击右健下载即可。
2、论坛会定期自动批量更新下载地址,所以请不要浪费时间盗链论坛资源,盗链地址会很快失效。
3、本站为非盈利性质的学术交流网站,鼓励和保护原创作品,拒绝未经版权人许可的上传行为。本站如接到版权人发出的合格侵权通知,将积极的采取必要措施;同时,本站也将在技术手段和能力范围内,履行版权保护的注意义务。
(如有侵权,欢迎举报 )