课程表里说今年考试都是按找Hospital Readmission 的格式出题, 大约9-10 个任务再加一个总体概括的Executive Summary。
Hospital Admission 的基调是探索变量关系后,加cluster analysis, 具体看这里: https://bbs.pinggu.org/thread-7513589-1-1.html
k-means cluster 比 h-cluster 要简单一些运行,对于限时考试又要阐释结果的 h-cluster 有些不合适。
然后就是从变量探索中选取几个看能否有interaction effect。 接着就是GLM 唱主调, 因为目标变量是 0 or 1 所以只能用binomial family。接着就是挑选适合的link 函数,一般都得考虑简单阐释结果的。人家雇咨询师就是分析和解释的,所以阐释结果很重要。 那这样很奇怪或复杂或不容易分解的函数一般就不考虑了。
选完之后就是stepwise regression AIC, BIC 之类的或者regularized regression Lasso, Ridge 对比之类的。
这和六月的考试是一个套路。 不同的是六月考试是以 GLM 为基准但需要自己挑选 family 和 link 然后和上边差不多,要加的新变量是从PCA 里弄出来的, 就是一个几个最大loadings 组成的直线函数。 具体看这里:https://bbs.pinggu.org/thread-7513589-1-1.html
但是都没有考虑用决策树,随机森林区建模,只是写写优劣对比而已。
这次会不会建立几个模型呢? 比如剔除PCA 和 K-means clustering 而还是得以GLM 为基准建立模型但是用决策树或者简单的随机森林来选择新的变量加到 GLM 里呢?
还是像全年12月那样用Poisson 分布来建立 GLM 然后和决策树对比呢? 去年12月的格式和今年的大不同但是理念还是以 GLM 为基础的。 去年用了offset 今年会不会改成weights 出来呢?
这也是六月猜想的有可能出现的主题。