今天考的,不是特别精通,92%过。主要资料大家可以搜索到,我就不重复了。主要想分享一下那些点一定要知道(根据今天的考试):(1)算R squared. 连考我两题。
(2) 知道pearson correlation,和spearman correlation,以及他们的区别。
(3)算accurancy, error rate, sensitivity, specificity。
(4)会读和解释ROC curve, gains chart, lift chart。
(5)知道什么是Hierarchy principle (hierarchy=single),怎样使用。
(6)知道training data, validation data, test data的作用。
(7)不论predictor有没有用,只要加进model,R squared 就增加,反之则减小。Eliminating or including redundant predictor 的作用。
(8)知道forward, backward selection(在程序里怎样使用).
(9)记住AIC, SBC越小越好。
(10)程序一定要知道:proc reg, proc glm, varclus, proc score(以及它和score statement的区别)。
(11)correction for oversampling的方法(考了两题,没做好,因为看书时没仔细看)。
(12)给ANOVA table 或者 REG output,要知道那些predictors 是significant的。
如果时间紧,那些大段大段的程序大可不必看,考的程序没有超过5行的。