如题,请教各位高手:
跑决策树时,是否对输入变量的值范围、分布啥的有所要求?
例如,现在评价一个网上牛奶促销活动的好坏,观测购买牛奶的用户特征,
输出变量为:IsMilk 变量值:T(购买),F(未购买)
输入变量为:年龄、性别、用户级别、所在城市、用户注册年限等等
假设现在用户全部来自一线城市(比较极端的情况),或者注册年限80﹪都在一年以内...
像这种情况是否这两个不可以作为输入变量?
简单说就是:决策树模型对输入变量值的分布均匀性是否有要求?
是否有个约定俗成的比例在这,当存在取某一值比例大于?﹪时,此变量不适合作为输入变量?