楼主: reduce_fat
1001 3

[CFA] 北美精算考试 Predictive Analytics 数据处理问题 [推广有奖]

荣誉版主

海外论坛首席管理员

泰斗

25%

还不是VIP/贵宾

-

TA的文库  其他...

海外原创经济论文和写作技巧

威望
11
论坛币
3567509 个
通用积分
33978.7033
学术水平
6811 点
热心指数
7170 点
信用等级
6642 点
经验
1322 点
帖子
11989
精华
78
在线时间
1842 小时
注册时间
2011-6-13
最后登录
2024-4-20

一级伯乐勋章 初级热心勋章 初级学术勋章 中级热心勋章 中级学术勋章 高级学术勋章 初级信用勋章 特级学术勋章 高级热心勋章 中级信用勋章 特级热心勋章 高级信用勋章 特级信用勋章

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
楼主觉得这个数据处理问题对北美精算考试Predictive Analytics 来说是比较重要的, 因为老外有句俗话说 “Garbage In Garbage Out", 说的就是 数据处理不妥当会导致模型跑出的结果都是废品或者无意义。

那么哪些问题值得注意呢,就从2018 年考试开始分析,里面有多个数据问题。

1. Collinearity 既有两个变量的也有多个变量的。 如果一个变量是proportion 0-1取值之类的那么相关的变量加起来等于1 这就是perfect collinearity。 这时候可以随便删除其中一个变量来解决这个问题,但这不完美。要想得满分得需要妥当的原因说明。 这得需要根据实际的商业问题来判断哪个变量如果删除后基本不会损失predictive information,那就把它删除了。如果随便删除一个带有潜在predictive information 的相关变量再没有合理的解释下,那就很容易丢分的。

2. Singularity 这个指的是两个factor 变量有一个或者多个重叠的level 这时候你可能又想删除其中一个变量的level 来解决问题,但是这也会损失潜在的predictive information。 通用解决办法是合并这两个变量的相关level 这样重叠的level 也不对导致collinearity 问题。 这个Hospital Readmission里的DRG Med 和 Surg 合并也是同样的道理。

3. High Correlation 这个只适用于numeric 变量。如果两个和多个numeric 变量有很强的correlation 那会建议做个interaction feature 这时候就能避免这个high correlation 的影响了。 这个不会有大问题,只要不是像collinearity 那样一个变量和另一个变量成线性关系就没问题。

4. Unsupervised Learning: PCA, Clustering 这些都会推荐新的变量用来减少数据中的high dimension 问题。 记得建完新的变量后把原始变量从model 中删除。数据中可以删除也可以不删除。但是留着也没什么用,要不建新的变量干吗? model 里不删除就会导致misleading outcome 和 error。

5. Factor Level Combination: 这个一般都是找那些有五个和以上level的factor 变量。 需要考虑减少level 这样可以降低data dimension 和 model complexity 又不损失必要的predictive information。 这个可以和目标变量 target variable 合起来看每个level 的target mean/median 是否类似。如果很类似且符合商业意义,那就合并起来。 特别是那种又很少数据的level 一定要找和它 target mean/median 类似的level 合并。要不然就会扣分。

还有如果target variable 是binary 且不是numeric 需要把它换成 0 or 1 的形式才能方便计算target mean 或者proportion 不换也可以用count 计算但不怎么方便。 那个level 1 应该设置成题目里客户关心的目标level。

6. 变量转换: 这个得具体问题具体分析。最好也是拿来和target variable 一起做bivariate analysis。 这个每次考试里都有的。 比如continuous variable 就需要看是否有skewness 如果有就log 下。 discrete variable with many levels 也要考虑log 下。 Many 每个人定义不同啊,但是30以上肯定不少。

还有factor variable 也可以分几种的比如某些看似是factor 的也可以换成numeric 淘宝产品评级 1-5 星就是个例子。 你可以用target mean/median 做对比看看是不是评级越高越大等。 还有的没有什么实际区分意义的level 比如不同的颜色,就保持在factor variable 就好了。 这些变量转换如果没弄好,后面会导致模型结果有错误,那解释起来就不那么容易了。


就说这么多吧。至于建模之类的笔记坛子里有一大堆,就不在这里细说了。 欢迎下边评论补充啊!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Predictive Analytics Analytic predict 数据处理问题

已有 1 人评分论坛币 学术水平 热心指数 信用等级 收起 理由
封神榜! + 5 + 2 + 2 + 2 精彩帖子

总评分: 论坛币 + 5  学术水平 + 2  热心指数 + 2  信用等级 + 2   查看全部评分

复制粘贴积分链接 https://bbs.pinggu.org/ext8_airdrop.php?airdropfrom^^uid=2669999
沙发
HappyAndy_Lo 发表于 2020-5-27 13:17:04 |只看作者 |坛友微信交流群

使用道具

藤椅
reduce_fat 发表于 2022-2-8 01:24:51 |只看作者 |坛友微信交流群
多方面支持
复制粘贴积分链接 https://bbs.pinggu.org/ext8_airdrop.php?airdropfrom^^uid=2669999

使用道具

板凳
reduce_fat 发表于 2023-4-27 13:01:55 |只看作者 |坛友微信交流群
十分感谢
复制粘贴积分链接 https://bbs.pinggu.org/ext8_airdrop.php?airdropfrom^^uid=2669999

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-28 01:08