楼主: gz0422lulu
4246 13

[CFA] 大牛求助,问个classification modeling的问题 [推广有奖]

  • 3关注
  • 30粉丝

讲师

63%

还不是VIP/贵宾

-

威望
0
论坛币
1814 个
通用积分
338.8796
学术水平
102 点
热心指数
113 点
信用等级
99 点
经验
13826 点
帖子
398
精华
2
在线时间
494 小时
注册时间
2011-4-30
最后登录
2025-1-28

楼主
gz0422lulu 在职认证  发表于 2014-3-28 10:36:06 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
请教各位有没什么想法

要对一个categorical variaible做模型, 100个level左右, 50万个obs,为了抓outlier,挑最有可能的分类错误的records

之前在同样的data对另一个variable做过一个4个level的用multinomial做效果还不错,但现在level太多了 估计不行。

有什么想法欢迎推荐~已经想了几周了~谢谢大家啊
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Modeling cation ATION model CATI 模型 左右

沙发
tracymicky 发表于 2014-3-28 16:30:49
我做GLM的经验,不知道对你有没有用:
1. 通过plots或者其他检验去掉明显unreasonable的数据;  
2. 检查100个level的分布,是不是有些level的obs很少;
3. 如果有一部分(比如50个level)的数据占据了整个数据量的大部分(比如90%以上),可以将其他level的数据合并成一组,降低level数目,但是对结果的影响会比较小;
希望这个思路对你有帮助
已有 1 人评分经验 学术水平 热心指数 收起 理由
Jeffrey_Cai + 80 + 4 + 3 热心帮助其他会员

总评分: 经验 + 80  学术水平 + 4  热心指数 + 3   查看全部评分

藤椅
gz0422lulu 在职认证  发表于 2014-3-28 19:26:54
tracymicky 发表于 2014-3-28 16:30
我做GLM的经验,不知道对你有没有用:
1. 通过plots或者其他检验去掉明显unreasonable的数据;  
2. 检查 ...
谢谢援手~
我对别的连续型变量是用GLM再比较预测值和真实值
主要是这个是要做production所以画图目测什么的不好弄,最好要有像GLM output这么清楚的
想过用clustering 但是没想到怎么定义距离

板凳
tracymicky 发表于 2014-3-29 13:47:08
gz0422lulu 发表于 2014-3-28 19:26
谢谢援手~
我对别的连续型变量是用GLM再比较预测值和真实值
主要是这个是要做production所以画图目测什 ...
找outlier的话 可以试试别的工具 比如R之类的 可能功能会略强大  当然了 如果你知道变量的确切定义或者计算公式或者range的话, 是可以直接来检验的 不过代码可能会比较麻烦一些;
clustering 我的经验是这样的 先从internal的定义来看有机会分组吗  如果没有的话 先细分 然后建模中会发现not significant的组 然后合并 像我给你的上个回复说的 减少分组必然会影响准确性 但是从practical的角度来讲 只要找到这个平衡就好。

报纸
詹姆斯 发表于 2014-3-29 13:57:27
还是财险用到数学多点。。

地板
yang1986ycj 发表于 2014-3-29 21:54:35
我遇到过相似的问题。
而且我迄今也没有弄明白,那些离群值究竟是坏点,还是在上万数据中正常出现的小概率事件。除非根据ID一一去检查。
换做我的话可能会考虑尝试SVM,不过根据lz的描述,至少要对这50万数据跑99次才够分,不知R有没有这个能力。
另一个非标准的办法是把这100个level转化成99个示性变量,然后在每一类中按输出变量由小到大的顺序排序,用神经网络计算(分位数+类别)对应的期望值,再把实际数据中每个category里面高出期望值x%置信区间的值筛出来。
不管哪种,面对50万的量,大概都得上SAS或者R Revolution了。

7
tracymicky 发表于 2014-3-30 13:37:19
yang1986ycj 发表于 2014-3-29 21:54
我遇到过相似的问题。
而且我迄今也没有弄明白,那些离群值究竟是坏点,还是在上万数据中正常出现的小概率 ...
大神说的SVM方法 我只是听说过但是没有在保险数据中尝试过 不过你说的50万数据跑99次对于SAS来说应该问题不大 因为SAS的存储主要是在硬盘 并不是内存 R的话可能就比较有挑战性了

另外你说的第二种方法 在保险数据的处理中感觉很少使用 求实例或者更深入的讲解

8
yang1986ycj 发表于 2014-3-30 16:13:15
tracymicky 发表于 2014-3-30 13:37
大神说的SVM方法 我只是听说过但是没有在保险数据中尝试过 不过你说的50万数据跑99次对于SAS来说应该问 ...
第二个方法是从人工智能那边借用过来的,在定价里已经有了一些应用,但是用于分类的确实很稀少。我曾经用来给5000条左右数据做分类(只有三类),效果挺好。
这方面的文献请看
Neural networks for actuarial science
Neural Networks ν.s. GLMs in pricing general insurance两篇,好像CAS的网站上就有下
祝好运~!{:2_27:}

9
maomaochongz 发表于 2014-3-30 23:55:15
yang1986ycj 发表于 2014-3-30 16:13
第二个方法是从人工智能那边借用过来的,在定价里已经有了一些应用,但是用于分类的确实很稀少。我曾经用 ...
请问这些文献你是通过什么渠道找到的?很有意思

10
zhmm1983 发表于 2014-3-31 01:18:16
我觉得首先可以考虑降维,可以选用PCA方法;
第二,可以用SVM或adaboost做分类器;
第三,可以考虑K-fold-validation进行验证。
这基本是我硕士论文的思路,见笑了。
还有,我觉得如果只是找异常值的话,没有必要用太复杂的分类器。
以上仅是个人观点,仅供参考

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-8 05:52