楼主: CDA网校
5450 39

[每天一个数据分析师] 数据分析师应该了解的6个预测模型 [推广有奖]

回帖奖励 85 个论坛币 回复本帖可获得 5 个论坛币奖励! 每人限 1 次

管理员

大师

84%

还不是VIP/贵宾

-

威望
3
论坛币
76009 个
通用积分
3736.0769
学术水平
261 点
热心指数
269 点
信用等级
237 点
经验
206808 点
帖子
5854
精华
19
在线时间
3966 小时
注册时间
2019-9-13
最后登录
2024-11-22

初级热心勋章

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
作者:Ivo Bernardo  编译:Mika

数据分析模型有不同的特点和技术,值得注意的是,大多数高级的模型都基于几个基本原理。

当你想开启数据科学家的职业生涯时,应该学习哪些模型呢?本文中我们介绍了6个在业界广泛使用的模型。

目前很多舆论对机器学习和人工智过度追捧,当你想建立预测模型时,这会让给你不禁思考,是不是只有很高阶的技术才能解决问题。

但当你自己试着编程后才会发现,事实实际并非如此。作为一名数据工作者,你面临的很多问题都需要将几个模型组合起来解决,而且其中大部分模型已经出现了很长时间。

而且,即使你要使用先进的模型来解决问题,学习基本原理会让你在大多数情况中占得先机。与此同时,了解这些基础模型的优缺点将帮助你在数据分析项目取得成功。

下面我们就来具体看看6个数据分析师都应该掌握的预测模型吧。

01 线性回归

线性回归比较经典的模型之一,英国科学家Francis Galton在19世纪就使用了 "回归 "一词,并且仍然是使用数据表示线性关系最有效的模型之一。

线性回归是世界范围内,许多计量经济学课程的主要内容。学习该线性模型将让你在解决回归问题有方向,并了解如何用数学知识来预测现象。

学习线性回归还有其他好处,尤其是当你学习了两种可以获得最佳性能的方法时:

· 闭式解 一个神奇的公式,能通过一个简单的代数方程给出变量的权重。
· 梯度下降法 面向最佳权重值的优化方法,用于优化其他类型的算法。

此外,我们可以用简单的二维图在实践中直观地看到线性回归,这也使该模型成为理解算法的良好开始。

02 逻辑回归

虽然名为回归,但逻辑回归是掌握分类问题的最佳模型。

学习逻辑回归有以下几点优势:

初步了解分类和多分类问题,这是机器学习任务的重要部分

理解函数转换,如Sigmoid函数的转换

了解梯度下降的其他函数的用法,以及如何对函数进行优化。

初步了解Log-Loss函数

学习完逻辑回归后,有什么用?你将能够理解分类问题背后的机制,以及你如何使用机器学习来分离类别。

属于这方面的问题如下:

  • 了解交易是否欺诈
  • 了解客户是否会流失
  • 根据违约概率对贷款进行分类


就像线性回归一样,逻辑回归也是一种线性算法。在研究了这两种算法之后,你将了解线性算法背后的主要局限性,同时认识到它们无法代表许多现实世界的复杂性。

03 决策树

首先要研究的非线性算法应该是决策树。决策树是一种基于if-else规则的,相对简单且可解释的算法,它将让你很好地掌握非线性算法及其优缺点。

决策树是所有基于树模型的基础,通过学习决策树,你还将准备学习其他技术,如XGBoost或LightGBM。

而且,决策树同时适用于回归和分类问题,两者之间的差异最小,选择影响结果的最佳变量的基本原理大致相同,你只是换了一个标准来做。

虽然你了解了回归中超参数的概念,如正则化参数,但在决策树中这是极其重要的,能够帮你明确区分模型的好坏。

同时,超参数在学习机器学习的过程中也至关重要,决策树能很好地对其进行测试。

04 随机森林

由于决策树对超参数和简单假设的敏感性,决策树的结果相当有限。当你深入了解后,你会明白决策树很容易过度拟合,从而得出的模型对未来缺乏概括性

随机森林的概念非常简单。有助于在不同的决策树之间实现多样化,从而提高算法的稳健性。

就像决策树一样,你可以配置大量的超参数,以增强这种集成模型的性能。集成(bagging)是在机器学习中一个非常重要的概念,能为不同的模型带来了稳定性,即用平均数或投票机制将不同模型的结果转化为一个单一的方法。

在实践中,随机森林训练了固定数量的决策树,并对之前所有这些模型的结果进行平均。就像决策树一样,我们有分类和回归随机森林。如果你听说过 “群体智慧 "这个概念,那么集成模型就相当于将这个概念应用于机器模型训练。

05 XGBoost/LightGBM

其他基于决策树的算法,并能带来稳定性的模型有XGBoost或LightGBM。不仅能提升算法,还能提供更稳健和概括性的模式。

在Michael Kearns发表了关于弱学习者和假设检验的论文后,关于机器学习模型的思潮得到了关注。当中表明,增强模型是解决模型受到整体权衡偏差与方差的绝佳方案。此外,这些模型是Kaggle竞赛中最受欢迎的选择。

06 人工神经网络

最后,是当前预测模型中的王者——人工神经网络(ANNs)。

人工神经网络是目前最好的模型之一,可以在数据中找到非线性模式,并在自变量和因变量之间建立真正复杂的关系。通过学习人工神经网络,你将接触到激活函数、反向传播和神经网络层的概念,这些概念应该为你研究深度学习模型打下良好的基础。

此外,神经网络在结构上有很多不同的特点,学习最基本的神经网络将为转到其他类型的模型打下基础,如主要用于自然语言处理和递归神经网络和主要用于计算机视觉的卷积神经网络。

结语:

以上就是今天的全部内容。掌握这些模型应该会让你在数据分析和机器学习方面有一个不错的开始。

如果你也想快速成为一名数据分析师,欢迎咨询我们。顺便给大家提供了一份数据分析学习资料,欢迎点击下方地址学习。

https://edu.cd a.cn/course/explore/audition_class


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据分析师 预测模型 数据分析 分析师 Bernardo

已有 2 人评分经验 收起 理由
kongqingbao280 + 100 精彩帖子
wwqqer + 100 精彩帖子

总评分: 经验 + 200   查看全部评分

沙发
Studio-R 在职认证  发表于 2022-2-9 18:24:58 |只看作者 |坛友微信交流群

回帖奖励 +5 个论坛币

学习基本原理

使用道具

藤椅
Studio-R 在职认证  发表于 2022-2-9 18:25:19 |只看作者 |坛友微信交流群
掌握这些模型应该会让你在数据分析和机器学习方面有一个不错的开始。

使用道具

板凳
Studio-R 在职认证  发表于 2022-2-9 18:25:36 |只看作者 |坛友微信交流群

使用道具

报纸
myazure 发表于 2022-2-9 18:27:53 |只看作者 |坛友微信交流群

回帖奖励 +5 个论坛币

使用道具

地板
1jian.fun 企业认证  学生认证  发表于 2022-2-9 18:43:14 |只看作者 |坛友微信交流群

回帖奖励 +5 个论坛币

使用道具

7
redflame 发表于 2022-2-10 08:09:21 |只看作者 |坛友微信交流群

回帖奖励 +5 个论坛币

支持支持

使用道具

8
512661101 发表于 2022-2-10 08:53:19 |只看作者 |坛友微信交流群

回帖奖励 +5 个论坛币

使用道具

9
lina2006 发表于 2022-2-10 09:00:39 |只看作者 |坛友微信交流群

回帖奖励 +5 个论坛币

谢谢分享

使用道具

10
chengganglee 发表于 2022-2-10 09:03:53 |只看作者 |坛友微信交流群

回帖奖励 +5 个论坛币

支持一下了

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-11-23 04:21