| 所在主题: | |
| 文件名: 模型数据 2015.xls | |
| 资料下载链接地址: https://bbs.pinggu.org/a-1881156.html | |
| 附件大小: | |
|
重金200论坛金币悬赏解答以下问题:
数据在这里,可以下载后保存成csv 格式: 我们的Excel 版本不一样,csv通用。 前边部分我已经用SQL 弄好了,剩下的要具体分析。没有SAS只能 用R来做。有一年多没碰R了,很多code 忘了。 检验能用后,最全最好的回答将获得额外奖励,谢谢。 这个模型数据只是数十万数据的九牛一毛,但是足以说明问题: Var0 这个没有在模型数据中显示,因为这个是名字。 一个人可以在多个月有金额,也可以连续几个月没有。 这个变量要考虑进去。 Var1 代表的是2014年1月-2015年8月的数据,模型数据可能不全,但是实际数据绝对够用。 201401 就是2014年1月的格式,以后画图时要把它在图里转换成 Jan 14的样子。 Var2 代表的是金额,有大有小,随便遍的,可能结果很怪,我想看的是过程。 Var3 代表的是五种不同的产品。 Var6 就是一个Indicator Var4 和 Var5 和 Var3有关联。我要看 当Var4= good, Var5 是high or low都可以的时候,单独列出 Var3 = A, B, C, 或者是D 的从2014到2015年每个月的金额总和 (Var2)。 并且把图画出来,横向label 是Jan 14, Feb 14, 依次类推,纵向label要分50, 100, 150, 200等。 要先画成柱形图比较直观,而且要把每个月金额总和标在图上。 和上边要求一样, 当Var4=bad, Var5=high 的时候,再单独列出 Var3 = A, B, C, 或者是D 的从2014到2015年每个月的金额总和。 注意当Var4=bad, Var5=low的时候,才列出Var3 = E 的从2014到2015年每个月的金额总和。其实这个 E 包含A, B, C,D的混合险产品但是由于现实数据太少,所以整合在一起。 所以每个Var 3的 A, B, C, D只有四类, 1. var4=good, var5不用编因为high or low都行,var6 = pass 2. var4=good, var5不用编因为high or low都行,var6 = fail 3. var4=bad, var5=high, var6 = pass 4. var4=bad, var5=high, var6 = fail Var3 = E 的时候只有两种情况: 1. var4=bad, var5=low, var6 = pass 2. var4=bad, var5=low, var6 = fail 然后再把var0的人名考虑进去,画每人每月金额变化的scatter plot, 把每个A, B, C, D, E中的每一种情况都要单独画出来以便分析。 然后在图中标出 outlier。举一个人的例子就可以。 这个我忘了,但觉得R 应该可以做到。 这个outlier 的标准就定在Var2 = 300 以上,以后可以随时修改。 |
|
熟悉论坛请点击新手指南
|
|
| 下载说明 | |
|
1、论坛支持迅雷和网际快车等p2p多线程软件下载,请在上面选择下载通道单击右健下载即可。 2、论坛会定期自动批量更新下载地址,所以请不要浪费时间盗链论坛资源,盗链地址会很快失效。 3、本站为非盈利性质的学术交流网站,鼓励和保护原创作品,拒绝未经版权人许可的上传行为。本站如接到版权人发出的合格侵权通知,将积极的采取必要措施;同时,本站也将在技术手段和能力范围内,履行版权保护的注意义务。 (如有侵权,欢迎举报) |
|
京ICP备16021002号-2 京B2-20170662号
京公网安备 11010802022788号
论坛法律顾问:王进律师
知识产权保护声明
免责及隐私声明