最近在转风控的研究,由于之前不是做这一块的,也接触R很少,啃的比较吃力,故而请教各位老师指点。在看到要导入数据时,需要进行分箱,在一篇文章中看到“监督离散化(supervised discretizaion),使用递归划分(Recursive Partitioning)将连续变量分为分段,背后是一种基于条件推断查找最佳分组的算法(Conditional Inference Tree)”用的是smbinning进行分组。而在另外一篇文章中看到,“smbinning其理论基础是构造条件推断树ctree(conditional inference trees),并把ctree树节点当成bin的分割点。此函数对于连续变量的分bin效果比较好,而对于离散变量分bin就不尽人意了,往往会出现“No Bins”或者只分两三bin的情况。”所以先用0-1背包对数据进行了分bin,效果比smbinning要好,不知R中是否有对应程序包?
另外,在其他文章中,也看到了用mdlp的方法,不知smbinning和discretization的mdlp有什么区别吗?感谢!