遇到一个分类问题,需要用到集成学习,多数样本和少数样本的比例大概是3000:80,不平衡,特征大概70个。整个思路是:一方面先将特征集聚类,然后从每个类中选出有代表性的类构成特征空间,再随机从特征空间中抽取特征子空间;另一方面,为了解决数据不平衡问题,用Bootstrap从多数样本中抽取子集,子集数目和少数样本一样多,这样和少数样本组成平衡的集合。最后用特征子空间和平衡的样本组成的集合通过SVM训练基分类器,最终通过多数投票策略整合结果。这个过程想用R语言实现,发现用的包主要是caret,函数是train(),trainControl(),还有bag()函数,但是一直没有搞懂bag()函数是用来做什么的,这几个函数的关系是怎么样的,非常困扰,市面上参考的书虽然有,但集成学习这一块都讲的特别简单,不知道大家有没有可以通过掉包调参实现这个过程的方法,或者要自己编程,过程该怎么实现?感激不尽!祝好!


雷达卡




京公网安备 11010802022788号







