楼主: zhou.wen
8238 30

[原创博文] 如何编程调用EM4.3中的关联分析与时序关联过程 [推广有奖]

教授

9%

还不是VIP/贵宾

-

TA的文库  其他...

SAS Technology

威望
0
论坛币
31987 个
通用积分
6.2141
学术水平
283 点
热心指数
262 点
信用等级
257 点
经验
55167 点
帖子
399
精华
4
在线时间
1328 小时
注册时间
2010-10-12
最后登录
2018-3-9

初级学术勋章 初级热心勋章 中级学术勋章 中级热心勋章

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
  1. CUSTOMER        TIME        PRODUCT
  2. 0        0        hering
  3. 0        1        corned_b
  4. 0        2        olives
  5. 0        3        ham
  6. 0        4        turkey
  7. 0        5        bourbon
  8. 0        6        ice_crea
  9. 1        0        baguette
  10. 1        1        soda
  11. 1        2        hering
  12. 1        3        cracker
复制代码
数据结构如上,共有三个字段:CUSTOMER TIME PRODUCT
  1. libname emlib 'C:\Users\Administrator\Desktop\emlib';
  2. proc dmdb batch data=emlib.assocs out=dmassoc dmdbcat=catassoc;
  3. id customer time;
  4. class product(desc);
  5. run;
  6. proc assoc data=emlib.assocs dmdbcat=catassoc
  7. out=datassoc(label='Output from Proc Assoc')
  8. items=5 support=20;
  9. cust customer;
  10. target product;
  11. run;
  12. proc rulegen in=datassoc
  13. out=datrule(label='Output from Proc Rulegen')
  14. minconf=75;
  15. run;
  16. proc print data=datrule;
  17. run;
复制代码

关联分析代码如上,非常简单,主要用到两个过程PROC ASSOC和PROC RULEGEN1. PROC ASSOC 主要的作用为生成所有的K-项集,并统计其频率。格式如下:
  1. PROC ASSOC <option(s)>;
  2. CUSTOMER variable-list;
  3. TARGET variable;
复制代码
option中最重要的两个分别为items=5 和support=20分别代表K项集的最大项目数阈值和支持度(support)
CUST statement 与TARGET statement分别代表你的标志变量和目标变量。
使用该过程的时候需要注意一点,引用SAS官方原文:
  1. Processing an extremely large number of sets could cause your system to run out of disk and/or memory resources. However, by using a higher support level, you can reduce the item sets to a more manageable number.
复制代码
如果你处理的是大数据,运行这个程序的时候可能会磁盘满或者内存溢出。为了避免这种情况的发生,在第一次运行的时候应该设置一个比较高的置信度。逐次递减。
2.PROC RULEGEN 主要的作用是生成关联规则,格式也非常的简单,如下:
  1. PROC RULEGEN <option(s)>;
复制代码
option主要是设置minconf:最小置信度(confidence)
3.运行后生成结果(部分)为:主要有:support(支持度)、confidence(置信度)、lift(梯度),rule(规则)

result.png

本帖隐藏的内容

emlib.rar (18.17 KB)










补充内容 (2013-11-3 17:13):
原文参考:http://support.sas.com/documenta ... iner/em43/assoc.pdf
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:关联分析 confidence Processing statement Resources 编程 如何

已有 2 人评分经验 论坛币 学术水平 热心指数 信用等级 收起 理由
zll_zh + 1 精彩帖子
webgu + 100 + 100 + 5 + 5 + 5 精彩帖子

总评分: 经验 + 100  论坛币 + 100  学术水平 + 5  热心指数 + 6  信用等级 + 5   查看全部评分

本帖被以下文库推荐

Practice Is The Best Teacher!
沙发
zhou.wen 发表于 2013-5-30 11:30:55 |只看作者 |坛友微信交流群
  1. proc dmdb batch data=emlib.assocs out=dmassoc dmdbcat=catassoc;
  2. id customer time;
  3. class product(desc);
  4. run;
  5. proc sort data=datrule;
  6. by descending lift;
  7. run;
  8. proc print data=datrule(obs=5) label;
  9. var set_size exp_conf conf support lift count
  10. rule _lhand _rhand;
  11. title 'Top Ten Rules based on Lift';run;
  12. proc sequence data=dmassoc dmdbcat=catassoc
  13. assoc=datassoc out=sout(label='output from proc sequence')
  14. nitems=4;
  15. cust customer;
  16. target product;
  17. visit time/same=2;
  18. run;
复制代码


时序关联唯一的区别是PROC DMDB(ps:这个过程在SAS/EM非常重要,基本所有数据挖掘过程运行前都必须运行这个过程。主要作用是为建模创建数据仓库)过程中加入标识变量为custom time。时间也加入标识变量之一。关键过程为PROC SEQUENCE
格式如下:
  1. PROC SEQUENCE <option(s)>;
  2. CUSTOMER variable(s);
  3. TARGET variable;
  4. VISIT variable /<visit-option(s)>;
复制代码




已有 1 人评分热心指数 收起 理由
zll_zh + 1 good

总评分: 热心指数 + 1   查看全部评分

Practice Is The Best Teacher!

使用道具

藤椅
wellsuer 发表于 2013-5-30 11:36:25 |只看作者 |坛友微信交流群
好东西,看看

使用道具

板凳
zll_zh 发表于 2013-5-30 14:47:02 |只看作者 |坛友微信交流群
一直用图形化工具,看来编程更灵活

使用道具

报纸
kaya_33 发表于 2013-5-31 17:40:06 |只看作者 |坛友微信交流群
支持啊

使用道具

地板
lintorny 发表于 2013-5-31 23:56:56 |只看作者 |坛友微信交流群
ben大神学习了

使用道具

7
advil 发表于 2013-6-2 16:22:30 |只看作者 |坛友微信交流群
编程很灵活啊。

使用道具

8
mmfallin 发表于 2013-6-16 16:47:26 |只看作者 |坛友微信交流群
学习了

使用道具

9
lookslike 发表于 2013-6-17 09:41:44 |只看作者 |坛友微信交流群
进来看看

使用道具

10
playmore 发表于 2013-6-17 14:33:04 |只看作者 |坛友微信交流群
学习下
playmore邀请您访问ChinaTeX论坛!!!进入ChinaTeX论坛

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-28 06:07