楼主觉得这个数据处理问题对北美精算考试Predictive Analytics 来说是比较重要的, 因为老外有句俗话说 “Garbage In Garbage Out", 说的就是 数据处理不妥当会导致模型跑出的结果都是废品或者无意义。
那么哪些问题值得注意呢,就从2018 年考试开始分析,里面有多个数据问题。
1. Collinearity 既有两个变量的也有多个变量的。 如果一个变量是proportion 0-1取值之类的那么相关的变量加起来等于1 这就是perfect collinearity。 这时候可以随便删除其中一个变量来解决这个问题,但这不完美。要想得满分得需要妥当的原因说明。 这得需要根据实际的商业问题来判断哪个变量如果删除后基本不会损失predictive information,那就把它删除了。如果随便删除一个带有潜在predictive information 的相关变量再没有合理的解释下,那就很容易丢分的。
2. Singularity 这个指的是两个factor 变量有一个或者多个重叠的level 这时候你可能又想删除其中一个变量的level 来解决问题,但是这也会损失潜在的predictive information。 通用解决办法是合并这两个变量的相关level 这样重叠的level 也不对导致collinearity 问题。 这个Hospital Readmission里的DRG Med 和 Surg 合并也是同样的道理。
3. High Correlation 这个只适用于numeric 变量。如果两个和多个numeric 变量有很强的correlation 那会建议做个interaction feature 这时候就能避免这个high correlation 的影响了。 这个不会有大问题,只要不是像collinearity 那样一个变量和另一个变量成线性关系就没问题。
4. Unsupervised Learning: PCA, Clustering 这些都会推荐新的变量用来减少数据中的high dimension 问题。 记得建完新的变量后把原始变量从model 中删除。数据中可以删除也可以不删除。但是留着也没什么用,要不建新的变量干吗? model 里不删除就会导致misleading outcome 和 error。
5. Factor Level Combination: 这个一般都是找那些有五个和以上level的factor 变量。 需要考虑减少level 这样可以降低data dimension 和 model complexity 又不损失必要的predictive information。 这个可以和目标变量 target variable 合起来看每个level 的target mean/median 是否类似。如果很类似且符合商业意义,那就合并起来。 特别是那种又很少数据的level 一定要找和它 target mean/median 类似的level 合并。要不然就会扣分。
还有如果target variable 是binary 且不是numeric 需要把它换成 0 or 1 的形式才能方便计算target mean 或者proportion 不换也可以用count 计算但不怎么方便。 那个level 1 应该设置成题目里客户关心的目标level。
6. 变量转换: 这个得具体问题具体分析。最好也是拿来和target variable 一起做bivariate analysis。 这个每次考试里都有的。 比如continuous variable 就需要看是否有skewness 如果有就log 下。 discrete variable with many levels 也要考虑log 下。 Many 每个人定义不同啊,但是30以上肯定不少。
还有factor variable 也可以分几种的比如某些看似是factor 的也可以换成numeric 淘宝产品评级 1-5 星就是个例子。 你可以用target mean/median 做对比看看是不是评级越高越大等。 还有的没有什么实际区分意义的level 比如不同的颜色,就保持在factor variable 就好了。 这些变量转换如果没弄好,后面会导致模型结果有错误,那解释起来就不那么容易了。
就说这么多吧。至于建模之类的笔记坛子里有一大堆,就不在这里细说了。 欢迎下边评论补充啊!