也许大多数组织已经知道如何处理收集到的数据。数据用于在工作中做出更好的决策,对吗?但是,您是否具备解析向您抛出的大量数据所需的所有技能?
好吧,您可能不需要自己进行全部挖掘,但您确实需要知道如何正确解释数据科学团队创建的分析。因此,最好的数据分析类型是回归分析。为了完成这种分析,数据科学专家需要具备回归技术。
我们将进一步分析所有数据科学家必不可少的顶级回归技术。
当我们确定两个变量(因变量和自变量)之间发生的关系时,会使用回归技术。这进一步有助于将最近的对应线拟合到自变量,然后相应地预测因变量。因此,我们可以根据现在和过去的信息轻松预测公司的未来成果。
现在让我们谈谈不同类型的回归技术:
1. 线性回归
线性回归技术通过在自变量和因变量之间建立联系来帮助确定大变量。通过确保实际观察值与每个点的形状之间的距离总和应该很小,可以实现最佳拟合。
这是线性回归的表示方式:
因变量 = 截距 + 斜率 * 自变量 + 误差 ()
此外,有两种类型的线性回归:
1. 简单线性回归——使用单个自变量通过确保拟合最佳线性关系来预测因变量。
2. 多元线性回归——通过确保拟合最佳线性关系,使用多个自变量来预测因变量。
2. 逻辑回归
逻辑回归主要用于分类问题。此外,称为数据挖掘技术,逻辑回归技术将类别分配给一组数据,用于提供准确的分析和预测。
一种简单的解释方法,例如,当因变量在线性回归中变得离散时,变为逻辑回归。例如,
赔率 = p/ (1-p) = 事件发生的概率 / 不发生事件的概率
ln(赔率) = ln(p/(1-p))
因此 p 是事件发生的概率 (0)。
这种技术有助于在模型之间建立联系,并且这些指标进一步用于检查结果是“是”还是“否”的可能性。
线性回归和逻辑回归技术是数据科学专家可以利用的两种主要技术。
3.逐步回归
在处理多个自变量时使用逐步回归技术。这些变量是使用自动过程选择的,无需任何人工干预。这很容易通过观察统计值(例如 R 平方、AIC 指标和 t-stats)来识别重要变量来实现。
这种回归技术遵循三个过程:
I. 前向确定包括确定改进最终停止的附加因素,如果在一定程度上没有看到任何发展。
二、向后消除包括取消因子,直到无法消除更多因子。
三、双向端是前两种方法的结合。
4. 岭回归
在检查从多个回归中收集的数据时使用此技术。当多重共线性发生时,它发生的点检测到公正的最小二乘法。如果将一定程度的倾斜度添加到已经复发的量表中,则岭回归有助于减少标准误差。
定期地,复发问题会使模型变得不可预测并变得过拟合。当这种情况发生时,减少模型的变化并防止它过度拟合是克服这些问题的一种方法。
5. 套索回归
在 Lasso 回归中,输入的数据不正常。假设被称为最小二乘,其中不同之处在于在这种情况下不能假设正态性。这种回归技术将系数缩小到零,这有助于特征选择。
拥有回归技术方面的专业知识表明数据科学专家的技能实力以及他们使用这些技术解决现实问题的能力。
6. 多项式回归
当因变量和自变量之间的关系是非线性的时,使用多项式回归。在这种技术中,最小二乘法被用于独立方程的力量不止一个的地方。
这种类型的技术在曲线数据中是理想的。
等式如下所示:
y=a+b*x^2 ()
加起来
知道应用哪种回归技术以及应用在哪里是每个数据科学家都需要具备的一项技能。例如,如果您希望避免过度拟合,您需要知道哪种技术效果最好。好吧,您可以使用交叉验证方法,甚至可以使用 lasso 或岭回归技术。回归技术是当今每个数据科学家都可以利用的强大工具。
编辑推荐
1、2022年300个以上最佳免费数据科学课程
2、大厂数据分析面试指南!来自亚马逊、谷歌、微软、头条、美团的面试问题!
3、机器学习模型方法总结
4、历史最全机器学习/深度学习/人工智能专业术语表中英对照表
5、机器学习如何应用于商业场景?三个真实的商业项目
6、数据工作者的自我修养 | 哪些技能是必不可少的?
7、《汗牛充栋:数据分析书籍分享》CDA网校新课上线
8、文本挖掘常用的107个语料库
9、一图读懂“东数西算”工程
10、零基础转行数据分析,看这篇文章就够了
DA内容精选


雷达卡



京公网安备 11010802022788号







