顶LZ,全面系统的介绍了SEMMA方法论和SAS/EM。也分享一下跟SPSS MODELER的比较:
我觉得,在用户友好方面,SPSS始终领先一步;可是真要干活的话,还是要用SAS。
比如前阵子做关联规则挖掘,上千万条的时候,MODELER根本不行了,跑一晚上然后给我报错。被逼无奈改用SAS,虽然也得几个小时,但是真出货呀。关联规则挖掘这类项目,你不太可能先做sampling,这不是统计分析,这数据挖掘,就是要遍历全部数据才能找到规律的。
最后一点建议,对初学者想要快速上手,或者处理的不是真的大数据,推荐modeler。但是要玩深了,做到真正的大数据级别时,早晚还得学SAS。我自己就是这么过来的