机器学习竞赛实战专题
蚂蚁金服ATEC 风险大脑-支付风险识别
在快速发展的数据时代,大量公司开始招揽数据领域人才,数据理论人才尚可,但数据实战人才越来越短缺,如何在经验不足且时间不足的情况下快速成为社会上所需求的数据人才这个问题长久以来困扰着培训领域无法得到完美的解决方案。
CDA数据分析师联合吊车尾推出机器学习竞赛实战专题系列课程,志在培养数据科学领域工程性最优人才,通过竞赛中的真实数据,从拿到数据,到数据探索,样本调整,到特征选择,特征工程,到模型选择,模型生成,模型融合,再到二次探索,优化模型。将工程当中处理数据所需要的流程和我们总结的套路经验一步一步地展示出来,以供学员们更清晰的了解数据分析的整个流程,以及做出最优模型的方案策略。
课程目标:
最大化提升实战能力,取得数据科学竞赛TOP名次,获得比赛丰厚奖金,斩获名企offer!
课程简介
本期第一期课程将对蚂蚁金服竞赛业务背景做简单介绍,讲述数据分析在拿到数据之后应该如何开始数据探索,如何跑出模型baseline,如何通过可视化及模型输出进行特征选择,如何理解自定义的评价函数,如何用合理的方式记录上分情况而不发生混乱,如何充分利用传统模型和竞赛杀器,如何根据模型原理进行调参,如何寻找准而不同的模型并做出最优的机器学习模型融合,以及最终如何将每一步串联到一起拿到最优模型结果
讲师简介
爱冒泡的大笨鱼
四川大学硕士;天池数据科学竞赛平台排行榜TOP20
2018/11-2019/01 百度“Retention Rate of Baidu Hao Kan APP Users” 冠军
2018/10-2018/11阿里天池“雪浪制造AI挑战赛—视觉计算辅助良品检测” 冠军
2018/10-2018/11 2018中国气象“神气大数据算法与应用大赛-算法赛” 亚军
2018/09-2018/10 阿里天池“广东工业智造大数据创新大赛 - 智能算法赛” 亚军
2018/07-2019/09蚂蚁金服“ATEC风险大脑——支付风险识别” 亚军
2018/04-2018/05阿里天池“数创未来大数据竞赛 - 乘用车零售量预测” 季军
2018/04-2018/05阿里天池“数创未来大数据竞赛 - 盐城汽车上牌量预测” 季军
OdingdongO
西安交通大学硕士;天池数据科学竞赛平台三联冠
2018/04-2018/07 阿里天池“FashionAI全球挑战赛—服饰属性标签识别” 冠军
2018/09-2018/10 阿里天池“雪浪制造AI挑战赛—视觉计算辅助良品检测” 冠军
2018/10-2018/11 阿里天池“广东工业智造大数据创新大赛 - 智能算法赛” 冠军
2017/06-2017/08 第二届百度*西交大大数据竞赛--宠物狗识别 冠军
2018/04-2018/07 阿里天池“FashionAI全球挑战赛—服饰关键点定位极客奖“TOP5
2018/09-2018/12 AI Challenger 2018全球AI挑战赛–无人驾驶感 TOP5
2017/09-2017/11 数愿大数据竞赛--病理切片识别与分割AI挑战赛 极客奖
000wangbo
西安电子科技大学硕士 天池数据科学竞赛平台排行榜TOP40
2018/11-2018/12 百度Retention Rate of Baidu Hao Kan APP Users 亚军
2018/09-2018/10 阿里天池“雪浪制造AI挑战赛—视觉计算辅助良品检测” 冠军
2018/09-2018/10 2018中国气象“神气”大数据算法与应用大赛-算法赛 亚军
2018/10-2018/11 阿里天池“广东工业智造大数据创新大赛 - 智能算法赛” 亚军
2018/10-2018/11 “探寻地球密码” 天池数据科学竞赛平台TOP4
2018/01-2018/02 阿里天池 “天文数据挖掘大赛”TOP7
课程大纲
第一阶段 新手上路
01-01 说在前面
01-02 初识数据科学竞赛
01-03 支付宝欺诈风险识别项目导学
01-04 机器学习环境:jupyter使用
01-05 机器学习常用库(pandas,scikit-learn)
01-06 从业务场景认识比赛数据
01-07 数据初探索
01-08 快速搭建baseline版本
01-09 如何制作线下科学验证体系
01-10 比赛常用回归任务评价指标
01-11 比赛常用分类任务评价指标
01-12 支付宝反欺诈自定义评价函数
01-13 数据内存优化技巧
01-14 数据交叉验证
01-15 使用内置cross_validate接口交叉验证
01-16 使用logsitic分类模型
01-17 使用KNN分类模型
01-18 使用Adaboost分类模型
01-19 使用Bagging分类模型
01-20 使用RandomRorest分类模型
01-21 使用GBDT分类模型
01-22 scikit-learn各分类模型对比分析
第二阶段 玩转机器学习竞赛两大杀器
02-01 LightGBM采用scikit-learn方式调用
02-02 LightGBM经典方式调用
02-03 LightGBM交叉验证
02-04 LightGBM参数解析
02-05 LightGBM输出特征重要性
02-06 LightGBM高级用法
02-07 XGBoost使用
02-08 XGBoost参数解析
02-09 LightGBM和Xgboost自定义目标函数
02-10 XGBoost与LightGBM对比分析
02-11 LightGBM原理深度解析
第三阶段 数据处理与特征工程中的骚操作
03-01 数据探索与处理
03-02 数据缺失值分析
03-03 缺失值高级处理
03-04 特征分析
03-05 通过Adversarial训练方式试探训练集和测试集分布
03-06 特征的IV和WOE编码
03-07 基于模型的特征选择
03-08 基于scikit-learn中RFECV的特征选择
03-09 使用热力图分析特征相关性
03-10 使用核密度图分析特征相关性
03-11 类别不平衡分析
03-12 基于模型的类别不平衡处理
03-13 基于数据采样的类别不平衡处理
03-14 灰样本拒绝推断方案
03-15 多种方式特征选择
03-16 特征分布不均匀的处理策略
03-17 困难样本分析
第四阶段 模型花式融合调参
04-01 网格搜索优化模型参数
04-02 贝叶斯方法优化模型参数
04-03 机器学习比赛中随机种子的作用
04-04 模型的偏差与方差分析
04-05 准而不同模型选择策略
04-06 简单加权模型融合
04-07 stacking的模型融合策略
04-08 模型之间的相关性分析
04-09 蚂蚁金服项目方案整合
课程特色
手把手代码实践,HomeWork,QA答疑
竞赛模式授课,排名TOP学员将获得减免学费等奖励
助教一对一服务,指导老师不定期答疑
课程试听:http://edu.cda.cn/my/course/1465
扫码添加微信,了解更多课程信息