对于了解机器学习的人来说,数据挖掘无疑是一个范围更大且钱力无限的方向。但随着这两年越来越多的有IT编程经验的职场老鸟转行到数据分析大赛道,企业对人才的要求也越来越高了。前一阵,广大码农们被官方划成了“新生代农民工”,引起了咱圈里或多或少的不服不忿。咱作为技术人才,怎么就成了工具人了?
算法岗的你也别不服气,问个问题:虽然手上掌握大几套算法理论,但换个应用场景或业务需求,你还那么底气十足吗?
01技术侧的数据挖掘,你缺了啥?
我在互联网公司工作多年,看过大量的类似案例,给我最深的感觉就是:同样一个算法大多用在同样的业务场景。我们在做精准营销的时候,大家往往会用逻辑回归做一个,神经网络再做一个,然后对比两者之间的结果,再从中选择最优者,其实这样的研究很多时候只能说是在浪费资源。
因为大家都知道神经网络是非线性模型,效果肯定好。但是做研究的目的并不是为了创造一个神经网络算法,所以类似的研究结果没有任何实质意义。
长此以往下,精于算法理论的你会产生一种挫败感:费了这么大功夫,产生的价值只是测试了这套算法的可行性。至于当被质问如何能用算法更好解决复杂多变的实际业务问题时,可能在一脸沧桑的淡定面孔下是慌乱一批的心。
所以,如果你才刚踏入这个行业或者还有心力把能力和薪资都往上提一提,那么你一定要看看更值钱的那批顶尖的人,除了技术比你强在哪里。
我们分析了BOSS上的3000个算法岗位发现,想要拿到年薪百万,把算法应用摸透了或者说将算法用到该用到的地方是你一定要具备的能力。
02企业对数据的需求点
在企业当中,数据主要是为了支持我们做决策,一般也就是在四个层级产生价值:战略、管理、运营和操作。
战略层级,毋庸置疑,C-Level的这群企业高管一般要定的是1年周期计划或是3-5年的战略方向。哪个赛道有机会?企业增长点在哪里?这时候,主要用到的是PEST分析,通过研究报告、行业分析、宏观经济等维度,对数据进行直接的采集和应用。
第二层级就是我们企业的中坚力量——重要部门的管理者,这一Part考验的是咱数据人商业策略的优化能力。再往下每个分支机构的管理者,就是咱最基层的广大执行部门小领导了。数据在这个层面主要就是以报表的形式帮助管理者进行业务决策。
最下面一个层级的执行操作层环境复杂,工作繁复,拿着民工的钱操着老板的心。这一层级绝对是数据和算法岗相爱相杀的好战友,既依赖你给策略又埋怨你不落地。如果你不懂应用场景,怎么能搞定这帮眼冒绿光的狼人呢?
比如做节点大促,需要通过你的算法支持进行用户运营和市场触达。如果你不清楚用户画像、没搞明白前后端的部门协同关系、SOP流转关键结点和流量的转化路径,再牛的算法理论都只能是纸上谈兵。
不管哪个行业,都需要这样一个能给操作层级进行AI赋能,让业务效果肉眼可见的蹭蹭涨起来的数据大神。
03掌握解决你99%业务问题的算法绝对不靠耗命
看了上面这些,你一定想问:算法在我们实际工作中到底能应用于哪些领域?
在波特的价值链模型中,真正产生价值的是哪些呢?主要集中在最下端的基本活动。
比如说我们是卖手机的,从进料、后勤生产、后勤销售、售后服务,这个就是我们真正的价值链。
我们说工业革命,其实是实现了制造业的自动化,使得我们的物质极为丰富了。那么这次数字化,其实是在非生产领域产生颠覆性的价值体现。
有些学者会认为,生产领域也是数字化转型很重要的一个部分,这点不可否认。但是我们说在数字化概念提出之前,像德国这种制造业的老牌国家,它的生产领域已经非常智能,基本上实现了机器人的完全自动化。
那么问题来了,人家在数字化概念提出之前,就已经实现了完全智能化,那么我们的数字化特点体现在哪里?就像我上文所说的,非生产领域是我们数字化转型的重点方向。比如说库存管理阶段的进料、后勤、发货,销售营销,数字化运营,售后服务,还有研究与开发等等。
此外,如人力资源管理和一些其他的企业基础设施,比如说财务,在这次的数字化革命当中,体现的也非常多。
价值链上环节那么多,如果你还是不懂变通的花费大量精力去啃那些只适用于固定场景的算法理论,那么我劝你不如看看我们总结的能解决你99%业务需求的“三大分析范式,九大算法模板”。
04三大分析范式,九大算法模板
学术研究讲求标新立异,而数据挖掘商业应用实践讲求的是标准化和模型质量稳定。因此CDA.F认证委员会提出数据挖掘建模框架的三个原则,即以成本-收益分析为单一分析框架、区分分析主体和客体两个视角、全模型生命周期工作模板。并且将纷繁多样的数据挖掘应用主题归纳为以下“三大分析范式和九大算法模板”。
想要用好这些范式和模板,首先要明确的是要以“成本-收益分析”为单一分析框架。
世界万事万物都具有矛盾的两面性,数据挖掘建模力图通过数据反应行为背后的规律,紧抓主要矛盾就是找寻规律的捷径。大家都知道,挖掘有效的入模特征是数据挖掘建模的难点,一旦我们了解了分析课题的主要矛盾,这个难点就迎刃而解了。“天下熙熙皆为利来,天下攘攘皆为利往”,因此行为分析建模以成本-收益为主要矛盾便是不二的选择。下面讲解如何使用这个框架进行分析。
以金融行业为例,举三个常见应用:
01信用评分模型中,是否逾期是被预测变量,而解释变量中经常出现的收入稳定性、职业稳定性、家庭稳定性、个人社会资本都是在度量其违约成本。信用历史既是被解释变量的滞后项,而且也反应了违约成本,这就是所谓“破罐子破摔”的人违约程度低。收益会用贷存比、贷收比、首付占比等指标来衡量。
02申请欺诈模型,其标签往往是客观存在的。入模的特征构建以反应异常为主,比如异常高的收入、异常高的学历、异常密集的关系人网络等。这背后有其统一的成本-收益分析框架。之所以会显示出异常,是因为造假是有成本的,信用卡申请欺诈者知道收入证明造假可以获得更高的信用额度,但是由于其居住地、职业和学历没有造假,因此按照这三个维度对其收入进行标准化之后很容易发现其收入会异常的高。这个可以说是公开的秘密,因为信用卡公司会根据造假成本对非可靠申请者进行授信,使得欺诈者无利可图。
03运营优化模型比如资产组合的持仓问题,其收益是资产的收益率,而成本是其带来的风险,即波动率。建模人员需要选择收益-成本最优的组合。
其次是要区分分析主体和客体两个视角。
在数据挖掘建模中,定义标签是主体视角。比如营销预测模型中客户是否响应,是建模人员自己定的规则,这个规则有可能是收到营销短信后三天内注册账号并产生订单。在构建入模的特征集时需要采用客体视角,比如手机银行的营销响应模型中,入模的特征应该反应客体的成本-收益的变量,比如年龄反应的是使用手机银行和去实体渠道的成本。当建模人员意识到标签是自己主观臆断的时候,便会对该标签的选择更用心,当意识到入模的特征来自于客体时,才会从客体的视角出发更高效的构建特征集。
最后讨论全模型生命周期工作模板。
在CRIP-DM和SEMMA的基础上提出 “高质量数据挖掘模型开发的七步法”。在以上七步中,前三步是蓄势阶段,更多的是从业务人员、数据中吸收经验、形成感知。制作特征、变量处理和建立模型阶段是丰富特征、寻找有效模型的阶段,几十个变量和一两个模型显然是没什么选择必要性的,因此需要通过各种手段探查到最有效的特征和精度最高的模型。最后,模型输出阶段,选出的模型不但精度高,还要稳定性强,在业务人员使用时要有清晰的业务表述。
cda课程试听链接:
https://edu.cda.cn/goods/show/2586?targetId=3680&preview=0
课程简介
引领数智赋能,精通模型应用:在数字经济时代,利用数字化知识可以使企业摆脱单一供给,并深度挖掘用户需求,探索多元的业务场景。本课程将会从企业的角度出发讲解不同阶段数据应用的建设思路,培养学员掌握企业需要的敏捷算法建模能力,并规划未来发展的路线图。 同时,从找出问题→确定问题→数据清洗→数据建模→数据验证到挖掘出有价值的数据分析思路,并确认适合企业的解决方案。让学员掌握可落地、易操作的数据科学思维和技术模板构建出优秀模型。
涵盖常用工具,完善技术精进:课程中涵盖了Sklearn、LightGBM、NLP、PyTorch、Transformer等常用工具的应用实现,并根据输出的结果分析业务需求,为进行合理、有效的策略优化提供数据支撑。 在课程学习中以问题为导向,加强知识点的理解和应用,提高学员面对复杂问题的思考能力。聚焦策略分析技术及企业常用的分类、NLP、深度学习、特征工程等数据算法,只教实用干货,以专精技术能力提升业务效果与效率。
玩转案例实战,直通企业就业:课程涉及大量企业项目案例:精准营销预测、营销策略优化、客户行为分析、风险管理、客户管理、智能推荐、情感分析、反欺诈等,加持实战经验,为学员进入名企提供项目背书。 对数据科学岗位认知程度比较浅的学员,可在职业规划团队老师的帮助下选择适合学员的职业发展路线。进一步从职场综合能力要求出发,通过经验赋能快速提升岗位匹配度。
目标人群
在职提升人群
- 算法建模少 想获得最优策略算法的人员
- 工作经验少 想提升数据挖掘技能的人员
- 业余时间多 想提高数据思维能力的人员
转行数据分析人群
- 自学难度大 想零基础快速入门的人员
- 升职加薪难 想要跳槽大幅涨薪的人员
- 行业不景气 想进新兴数据行业的人员
在职提升和转岗人群
- 工作任务重 想提高工作效率的财务、市场等人员
- 竞争压力大 想突破职业瓶颈的产品、运营等人员
- 行业挑战多 想提升战略思维的决策、管理等人员
CDA报考人群
- 报名参加 CDA Level I 等级考试的考生
- 报名参加 CDA Level ll 等级考试的考生
- 报名参加 CDA Level llI 等级考试的考生
【课程大纲】
章节名称 | 主要内容 | 核心能力 |
第一章:课前基础-数据库 SQL | 1、数据库基本概念 2、DDL 3、DML 4、单表查询 5、多表查询 6、常用函数 6、SQL 大厂面试题 | 1、掌握 MySQL 数据库基本概念,常用函数、DDL 数据定义语言及 DML 数据操作语言 2、掌握单表查询、多表查询查询方法,查询结果排序、限制查询等方法 |
第二章:课前基础-Python | 1、Numpy 数组 2、Pandas 数表 3、Pandas 数据清洗与可视化 4、控制流 5、类与对象 6、自定义函数 | 掌握使用 Python 进行海量数据清洗以及可视化探索数据的能力。 |
第三章:课前基础-数学统计基础 | 1、线性代数 2、微积分 3、描述性统计 4、参数估计 5、假设检验 6、相关分析 7、一元线性回归 | 1、掌握数学基础知识(线性代数、微积分等) 2、掌握统计学基础知识(描述性统计、参数估计、相关分析、卡方分析、一元线性回归等) |
第四章:SQL | 1、MySQL 语句 2、Python 连接 SQL 数据库 3、SQL 4、实操案例:零售电商多表分析 | 1、掌握数据库 MySQL 语句与实战 2、Python 连接 SQL 数据库 3、掌握案例:零售电商多表分析 |
第五章:指标体系+统计分析 | 1、分析基础 2、指标体系的意义与构建 3、常用指标体系 4、统计分析可视化 5、指标体系 | 1、掌握数据分析基础:数据分析的概念、过程、能力 2、掌握常用指标体系的意义与构建 3、掌握统计分析可视化 4、掌握指标体系案例:企业经营分析 |
第六章:Pandas | 1、Python 基础 2、Python 数据清洗可视化 3、Python 实操 4、案例:教育行业分析-学校学科教育可视化 数据分析师岗位需求-lagou 数据处理及分析 | 1、掌握 Python 基础与数据清洗可视化 2、掌握 Python 实操案例:教育行业分析-学校学科教育可视化 3、掌握 Python 实操案例: 数据分析师岗位需求-lagou数据处理及分析 |
第七章:方差分析与线性回归 | 1、统计分析 2、相关分析 3、方差分析 4、线性回归 5、模型建立 6、模型估计 7、模型检验 8、实操案例:识别分析-用户支出影响因素分析 | 1、掌握统计分析,包含相关分析,方差分析等 2、掌握线性回归,包含模型的建立与估计等 3、掌握统计模型的检验 4、掌握案例:识别分析-用户支出影响因素分析 |
第八章:逻辑回归与主成分分析 | 1、逻辑回归 2、模型评估 3、分类与回归的结合 4、数据降维 5、主成分分析 6、因子分析 7、实操案例:用户流失分析-员工流失预警 因子分析-城市发展水平综合分析 | 1、掌握逻辑回归,包含模型的建立与估计 2、掌握模型评估、分类与回归的结合 3、掌握信息压缩-主成分分析与因子分析(数据降维) 4、掌握案例:用户流失分析-员工流失预警 5、掌握案例:因子分析-城市发展水平综合分析 |
第九章:标签体系与用户画像 | 1、标签体系的设计原理 2、用户标签的制作方法 3、客群分析-标签体系与用户画像 4、AB test 5、实操案例: 应用用户画像-美国某企业用户画像实战案例 | 1、掌握标签体系的设计原理 2、掌握用户标签的制作方法 3、掌握客群分析-标签体系与用户画像 4、掌握 AB test 应用最广泛的对比分析方法 5、掌握案例:应用用户画像-美国某企业用户画像实战案例 |
第十章:时间序列 | 1、时间序列分析 2、ARIMA算法 3、Box-Jenkins 建模 4、时间序列回归 5、实操案例: 销售额预测-线上平台销售额预测实战案例 | 1、掌握时间序列分析(ARIMA 算法) 2、掌握 Box-Jenkins 建模流程 3、掌握时间序列回归 4、掌握案例:销售额预测-线上平台销售额预测实战案例 |
第十一章:数据处理与特征工程 | 1、数据采集 2、数据录入 3、数据清洗 4、特征工程基础 5、特征预处理 6、特征的选择转换 7、数据管理 8、数据分类 9、数据建模 10、实操案例: 产品目标人群分析-市场数据的应用案例 | 1、掌握数据采集处理方法,包含数据采集、数据录入、数据清洗 2、掌握特征工程基础,包含特征预处理、特征的选择与转换 3、掌握数据管理,包含数据分类、数据建模 4、掌握案例:产品目标人群分析-市场数据的应用案例 |
第十二章:聚类分析与决策树 | 1、层次聚类 2、Kmeans 聚类 3、决策树应用 4、聚类分析评价方法 5、实操案例: 用户分群-零售行业运营案例 | 1、掌握层次聚类知识 2、掌握 Kmeans 聚类知识 3、掌握聚类分析评价方法-决策树应用 4、掌握案例:用户分群-零售行业运营案例 |
第十三章:数字化工作方法 | 1、数字化工作方法 2、运筹优化方法 3、线性规划与二次优化 4、基于业务流程的优化 5、实操案例: 数字化运营综合案例-某机构营销响应概率预测与风险预测案例 | 1、掌握数字化工作方法 2、掌握运筹优化方法,包含线性规划与二次优化、基于业务流程的优化 3、掌握数字化运营综合案例-某机构营销响应概率预测与风险预测案例 |
第十四章:ETL 与数仓 | 1、ETL 基本概念与常用工具 2、Kettle 核心概念与配置 3、数据接入策略与调度 4、Kettle 转换 5、Kettle 作业 6、Kettle 连接数仓 7、ETL 实战项目 | 1、掌握 ETL 基本概念与常用工具 2、掌握 Kettle 核心概念、转换 3、掌握 ETL 连接数仓,实操 ETL 实战项目 |
第十五章:数据接入与大数据 | 1、分布式存储 2、PySpark 分布式计算 3、Spark 与 Flink 工作原理 4、Spark 基本语法 | 1、掌握分布式存储与计算 2、掌握 Spark 与 Flink 工作原理 3、掌握 Spark 基本语法 4、掌握使用 PySpark 实现分布式计算 |
第十六章:决策树 | 1、决策树 2、信息熵 3、ID3决策树 4、C4.5决策树 5、CART树 6、模型调参 7、实操案例:病马死亡归类与识别案例 用户分类-保险行业用户分类分析 | 1、掌握决策树与信息熵 2、掌握 ID3, C4.5, CART 树 3、掌握 模型调参:网格搜索 4、掌握案例:病马死亡归类与识别案例 5、掌握案例:用户分类-保险行业用户分类分析 |
第十七章:数据挖掘与 Pipeline | 1、数据挖掘导论 2、KNN 3、朴素贝叶斯 4、Pipeline 工作流 5、使用 Pipeline 提交算法模型 | 1、掌握数据挖掘导论 2、掌握 KNN 邻近算法 3、掌握朴素贝叶斯法 4、掌握 Pipeline 工作流 5、使用 Pipeline 提交算法模型 |
第十八章:正则回归、SVM | 1、带正则项的回归分析 2、SVM 3、MLOps 基本概念 4、MLFlow 实战 MLOps 5、大数据环境下的回归分析实现 | 1、掌握带正则项的回归分析 2、掌握大数据环境下的回归分析实现(用 Spark 实现) 3、掌握 SVM 支持向量机 4、掌握 MLOps 基本概念 5、掌握 MLFlow 实战 MLOps |
第十九章:关联规则与协同过滤 | 1、关联规则 2、评估指标 3、Apriori 算法 4、协同过滤 5、大数据环境下的协同过滤实现 6、实操案例:产品组合策略-电信公司产品捆绑销售策略分析案例 | 1、掌握关联规则,包含关联规则的概念、评估指标、Apriori 算法等 2、掌握协同过滤 3、掌握大数据环境下的协同过滤实现 4、掌握产品组合策略案例-电信公司产品捆绑销售策略分析案例 |
第二十章:集成与提升方法 | 1、集成学习理论基础 2、AdaBoost 3、随机森林及其 Spark 实现 4、GBDT 5、XGBoost 6、LightGBM 7、CatBoost 8、NGBoost | 1、掌握集成学习的理论基础 2、掌握 AdaBoost 3、掌握随机森林及其 Spark 实现 4、掌握 GBDT, XGBoost 5、掌握 LightGBM, CatBoost, NGBoost |
第二十一章:特征工程进阶 | 1、数据不平衡问题 2、特征的构造与学习 3、模型可解释性专题(SHAP 和 LIME) 4、感知器 5、多层感知器 | 1、掌握掌握数据不平衡问题相关知识 2、掌握特征工程进阶:特征的构造与学习 3、掌握模型可解释性专题(SHAP 和 LIME) 4、掌握感知器及多层感知器 |
第二十二章:深度学习基础 | 1、深度神经网络基础 2、BP 神经网络架构 3、反向传播算法 4、梯度与学习率专题 5、图像分析-手写数字自动识别 | 1、掌握深度神经网络基础 2、掌握 BP 神经网络架构 3、掌握反向传播算法 4、掌握梯度与学习率专题 5、掌握图像分析-手写数字自动识别 |
【试听链接】
CDA数据分析就业班试听课——CDA数据分析师职业发展服务:https://edu.cda.cn/goods/show/621
CDA数据分析就业班试听课——CDA数据分析师教研服务:https://edu.cda.cn/goods/show/620
CDA数据分析就业班试听课——机器学习算法与应用案例:https://edu.cda.cn/goods/show/616
CDA数据分析就业班试听课——Python统计分析:https://edu.cda.cn/goods/show/615
CDA数据分析就业班试听课——Python编程基础与数据清洗:https://edu.cda.cn/goods/show/614
CDA数据分析就业班体验课——数据分析中的数学、统计学:https://edu.cda.cn/goods/show/613
CDA数据分析就业班试听课——数据科学行业及岗位介绍:https://edu.cda.cn/goods/show/612
CDA数据分析就业班试听课——CDA数据分析师简介:https://edu.cda.cn/goods/show/611
CDA数据分析就业班试听课——Power BI商业智能分析:https://edu.cda.cn/goods/show/610
CDA数据分析就业班试听课——MySQL数据库应用:https://edu.cda.cn/goods/show/609
CDA数据分析就业班试听课——Excel业务数据分析:https://edu.cda.cn/goods/show/608
CDA数据分析就业班试听课——零基础入门商业数据分析:https://edu.cda.cn/goods/show/507
CDA数据分析就业班试听课——就业班毕业答辩行业案例集锦:https://edu.cda.cn/goods/show/412