大家好,近几天我在研究GRI算法的过程中遇到一些疑问,向各位请教。
源数据取自clementine自带数据BASKETS1n共1000条记录,为简化考虑只选择了'FRUITVEG','BEER','DAIRY'三个字段进行手工验证(见附件“原始数据”页);
对上述数据,我通过手工计算其所有的排列组合方式如下表所示:
ID | 后项 | 前项 | Instances | 后项支持数 | 前项后项同时支持数 | SUPPORT | CONFIDENCE |
1 | FRUITVEG | BEER | 293 | 299 | 89 | 29.3% | 30.38% |
2 | DAIRY | BEER | 293 | 177 | 45 | 29.3% | 15.36% |
3 | FRUITVEG | DAIRY | 177 | 299 | 62 | 17.7% | 35.03% |
4 | BEER | DAIRY | 177 | 293 | 45 | 17.7% | 25.42% |
5 | BEER | FRUITVEG | 299 | 293 | 89 | 29.9% | 29.77% |
6 | DAIRY | FRUITVEG | 299 | 177 | 62 | 29.9% | 20.74% |
7 | FRUITVEG | BEER,DAIRY | 45 | 299 | 13 | 4.5% | 28.89% |
8 | DAIRY | FRUITVEG,BEER | 89 | 177 | 13 | 8.9% | 14.61% |
9 | BEER | FRUITVEG,DAIRY | 62 | 293 | 13 | 6.2% | 20.97% |
clementine的GRI节点设置最小前项support为8%,最小confidence为25%,即对应于上表最后两列,
clementine执行的结果是上表绿色部分的三条记录,但上表红色部分记录同样满足设置要求,为什么clementine不识别?
上述数据详见附件,请各位解答困惑,多谢。