以前开了个帖子,全英文的决策树和GLM对比,从不同的笔记和考试里整理出来的,结果被学道会收走了,在论坛看不了。 手机没装学道会app 也打不开。 没有备份。 但是我还记得大概内容,这个大约是最容易记忆的预测模型间的优劣势对比。
就用中文打一遍吧,除了在论坛里,我也不常用中文的:
大体意思如下: 记住不论优劣势要紧扣模型对比的关联性,不要单列优劣势。 你列出以下优劣势中的任意三条就足够满分了。
和GLM对比,决策树有四点优势:
1. 决策树可以很简单的把结果解释给我们的客户听因为它特有的如果否则规则,但是GLM 得跑模型还得手动看哪个自变量有意义才能知道最终重要变量。
2. 决策树能很容易找出数据中的非线性关系但是GLM 不能。
3. 决策树可以很快的剔除没有意义的自变量,不像GLM那样跑逐步逐层的跑线性回归过程,才能选出最终变量。 这样省时省力。
4. 决策树可以自动找出关联变量,GLM也可以找出关联变量但得画图看了后再放到模型里跑出来看是否有意义。
决策树也有四点劣势:
1. 当新数据加到原始数据中的时候, 决策树会产生不确定的结果,比如树的解构和变量选择发生变化。 但是GLM加些新数据,一般不会受很大影响。
2. 决策树比GLM 更容易遇到 overfitting 过度适合的问题,意思是说train 的数据表现太好,但是test 的数据表现太差。
3. 决策树不能像GLM那样给找出来的重要变量指出 对目标变量的变化的数值大小。
4. 决策树的最终剪修出来的树会很依赖于train 数据的变化,和第一点劣势差不多,这会导致不必要的大方差。
就这些了。别的看我其他帖子的英文整理吧。


雷达卡




京公网安备 11010802022788号







