但是不要被长度吓到了,我们已经将其分为四个部分(机器学习、统计信息、SQL、其他),以便你可以逐步了解它。
你可以使用这些问题来磨练知识并找出差距,然后填补这些空白。
我们希望你会发现这很有帮助,并祝你在数据科学的努力中好运!
机器学习基础
问1:在应用机器学习算法之前,数据争论和数据清理有哪些步骤?
当数据争论和数据清理时可以采取许多步骤。下面列出了一些最常见的步骤:
数据剖析:几乎每个人都从理解他们的数据集开始。更具体地说,你可以使用 .shape查看数据集的形状,并使用.describe查看数字变量的描述。
语法错误:这包括确保没有空格,确保字母大小写一致以及检查拼写错误。你可以使用 .unique或条形图检查拼写错误。
标准化或规范化:根据你使用的数据集和决定使用的机器学习方法,对数据进行标准化或标准化可能会很有用,这样不同比例的不同变量不会对模型的性能产生负面影响。
处理空值:有多种处理空值的方法,包括完全删除带有空值的行,将空值替换为均值/中位数/众数,将空值替换为新的类别(例如未知)、预测值,或使用可以处理空值的机器学习模型。在这里阅读更多。
其他事情包括:删除不相关的数据,删除重复项和类型转换。
问2:如何处理不平衡的二元分类?
首先,你想重新考虑用于评估模型的指标。模型的准确性可能不是最好的指标,因为我将用一个例子来说明原因。假设有99次银行提款不是欺诈行为,而1次提款是欺诈行为。如果你的模型仅将每个实例归类为“非欺诈性”,则其准确性为99%!因此,你可能要考虑使用精确度和召回率等指标。
改善不平衡二元分类的另一种方法是增加对少数群体分类错误的成本。通过增加这种惩罚,模型应该更准确地对少数群体进行分类。
最后,你可以通过对少数类进行过度采样或对多数类进行欠采样来改善类的平衡。你可以在这里读更多关于它的内容。
问3:箱线图和直方图有什么区别?
箱线图和直方图是用于显示数据分布的可视化效果,但它们以不同的方式传达信息。
直方图是显示数值变量的频率的条形图,并用于估计给定变量的概率分布。它使你可以快速了解分布的形状、变化和潜在的离群值。
箱线图传达数据分布的不同方面。虽然你无法通过箱形图看到分布的形状,但可以收集其他信息,例如四分位数、范围和离群值。当你想同时比较多个图表时,箱线图特别有用,因为它们比直方图占用更少的空间。
问4:请描述不同的正则化方法,例如L1和L2正则化?
L1和L2正则化都是用于减少训练数据过拟合的方法。最小二乘法可最小化残差平方和,这可能会导致低偏差但高方差。
L2正则化(也称为岭回归)可最小化残差平方和加上λ乘以斜率平方。这个附加术语称为“岭回归惩罚”。这会增加模型的偏差,使训练数据的拟合度变差,但也会降低方差。
如果采用岭回归惩罚并将其替换为斜率的绝对值,则将获得套索回归或L1正则化。
L2没有那么强大,但具有稳定的解决方案,并且始终是一个解决方案。L1更强大,但解决方案不稳定,可能有多个解决方案。
StatQuest在这里有关于套索和岭回归的精彩视频。
问5:神经网络基础知识
神经网络是受人脑启发的多层模型。像我们大脑中的神经元一样,上方的圆圈代表一个节点。蓝色圆圈代表输入层,黑色圆圈代表隐藏层,绿色圆圈代表输出层。隐藏层中的每个节点代表输入所经历的函数,最终导致绿色圆圈中的输出。这些函数的正式术语称为sigmoid激活函数。
问6:什么是交叉验证?
交叉验证本质上是一种用于评估模型在新的独立数据集上的性能的技术。交叉验证的最简单示例是将数据分为两组:训练数据和测试数据,其中使用训练数据构建模型,使用测试数据测试模型。
问7:如何定义/选择指标?
没有一种“放之四海而皆准”的指标。选择用于评估机器学习模型的度量标准取决于多种因素:
- 它是回归还是分类任务?
- 业务目标是什么?例如:精确度与召回率
- 目标变量的分布是什么?
可以使用许多指标,包括调整后的r平方、MAE、MSE、精确度、召回率、准确度、f1得分等等。
问8:请解释什么是精确度和召回率
问9:请解释什么是假阳性和假阴性。为什么彼此之间很重要?举例说明假阳性比假阴性更重要,假阴性比假阳性更重要,以及当这两种类型的错误同等重要时
筛查癌症是假阴性比假阳性更重要的一个例子。更糟糕的是,当一个人患了癌症时却说他没有患癌症,而不是说某人患有癌症,后来又意识到他没有癌症。
这是一个主观论点,但从心理学的角度来看,假阳性可能比假阴性更糟。例如,由于人们通常不期望中奖,因此,赢得彩票的假阳性可能比假阴性结果更糟。
问10:监督学习和无监督学习有什么区别?给出具体的例子
监督学习涉及学习基于示例输入输出对[1]将输入映射到输出的函数men。
例如,如果我们有一个包含年龄(输入)和身高(输出)两个变量的数据集,我们可以实现一个监督学习模型,以根据一个人的年龄预测其身高。
与监督学习不同,无监督学习用于得出推论并从输入数据中找到模式,而无需参考标记的结果。无监督学习的常见用法是通过购买行为来对客户进行分组以找到目标市场。
问11:假设你需要使用多元回归来生成一个预测模型。解释你打算如何验证此模型
有两种主要方法可以做到这一点:
A)调整后的R平方
R平方是一种度量,它告诉你因变量的方差比例在多大程度上由自变量的方差解释。用简单的话来说,当系数估计趋势时,R平方代表最佳拟合线周围的散布。
但是,每增加一个独立变量到一个模型中总是会增加R平方值,因此,具有多个自变量的模型似乎更适合,即使并非如此。这是调整后的R2出现的作用。调整后的R2补偿每个额外的自变量,并且该值仅当每个给定变量使模型的改善超出概率范围时才增加。这很重要,因为我们正在创建一个多元回归模型。
B)交叉验证
对大多数人来说,一种通用的方法是交叉验证,即将数据分为两组:训练和测试数据。有关更多信息,请参见第一个问题的答案。
问12:NLP代表什么?
NLP代表自然语言处理。它是人工智能的一个分支,赋予机器阅读和理解人类语言的能力。
问13:什么时候使用随机森林Vs支持向量机( SVM),为什么?
与支持向量机相比,随机森林是更好的模型选择有以下几个原因:
- 随机森林允许你可以确定特征的重要性。SVM无法做到这一点。
- 随机森林比支持向量机更快,更容易构建。
- 对于多类别分类问题,支持向量机需要“一对多”的方法,这种方法的可扩展性较低,并且占用的内存更多。
问14:为什么降维很重要?
降维是减少数据集中特征数量的过程。
这一点很重要,主要是在你要减少模型中的方差(过度拟合)的情况下。
降维的四个优点:
1.减少所需时间和存储空间
2.消除多重共线性改善了机器学习模型参数的解释
3.当数据缩小到非常低的维度(例如2D或3D)时,可视化数据更容易
4.避免了维度的诅咒
问15:什么是主成分分析(PCA)?解释使用PCA来解决的问题。
从最简单的意义上讲,PCA涉及将更高维度的数据(例如3维)投影到更小的空间(例如2维)。这样会导致数据维度较低(2维而不是3维),同时将所有原始变量保留在模型中。
PCA通常用于压缩目的,以减少所需的内存并加快算法的速度,还用于可视化目的,从而使汇总数据更加容易。
问16:为什么朴素贝叶斯这么糟糕?将如何改进使用朴素贝叶斯的垃圾邮件检测算法?
朴素贝叶斯的一个主要缺点是它有一个很强的假设,即特征被假设为彼此不相关,而通常情况并非如此。
改进使用朴素贝叶斯算法的一种方法是对特征进行去相关以使假设成立。
问17:线性模型有哪些缺点?
线性模型有几个缺点:
- 线性模型具有一些在应用中可能不正确的强假设,它假设为线性关系、多元正态性、无或少有多重共线性、无自相关和均方差
- 线性模型不能用于离散或二进制结果。
- 你不能改变线性模型的模型灵活性。
问18:你认为50颗小型决策树比一颗大型决策树好吗?为什么?
提出此问题的另一种方式是:“随机森林比决策树更好的模型吗?”答案是肯定的,因为随机森林是一种集成方法,它需要许多弱决策树才能培养出强大的学习者。随机森林更准确、更健壮,并且更不太容易过度拟合。
问19:为什么均方误差是衡量模型性能的一个不好的指标?你会建议什么呢?
均方误差(MSE)对较大的误差具有较高的权重,因此,MSE往往过分强调较大的偏差。一个更强大的替代方法是MAE(平均绝对偏差)。
问20:线性回归需要哪些假设?如果其中一些假设被违反怎么办?
假设如下:
1、用于拟合模型的样本数据可 代表总体
2、X与Y的平均值之间的关系是 线性的
3、对于任何X值( 均方差),残差的方差都相同
4、观察彼此 独立
5、对于任何X值,Y均是 正态分布。
极端违反这些假设将使结果变得多余。略微违反这些假设将导致估计值更大的偏差或方差。
问21:什么是共线性?如何处理?如何消除多重共线性?
在多元回归方程中,当一个自变量与另一个自变量高度相关时,存在多重共线性。这可能是有问题的,因为它破坏了自变量的统计意义。
你可以使用方差膨胀因子(VIF)来确定自变量之间是否存在多重共线性——一个标准基准是,如果VIF大于5,则存在多重共线性。
问22:如何检查回归模型是否与数据吻合?
你可以使用几个指标:
R平方/调整后的R平方:相对拟合度。先前的答案对此进行了解释
F1分数:评估所有假设回归系数均等于零的原假设和至少一个不等于零的替代假设。
RMSE:绝对拟合度。
问23:什么是决策树?
决策树是一种流行的模型,用于运筹学、战略规划和机器学习。上方的每个正方形称为一个 节点,并且你拥有的节点越多,(通常)决策树越准确。做出决策的决策树的最后节点称为树的叶子。决策树直观且易于构建,但在准确性方面却有所欠缺。
问24:什么是随机森林?为什么好呢?
随机森林是一种基于决策树集成学习技术。随机森林涉及使用原始数据的自举数据集创建多个决策树,并在决策树的每个步骤中随机选择一个变量子集。然后,模型选择每个决策树的所有预测的模式。通过依赖“多数获胜”模型,它降低了单颗树出错的风险。
例如,如果我们创建一个决策树,第三个决策树,它将预测0。但是,如果我们依赖所有4个决策树的模式,则预测值为1。这就是随机森林的力量。
随机森林还提供了其他一些好处,包括强大的性能,可以对非线性边界进行建模,不需要交叉验证以及赋予特征重要性。
问25:什么是内核?解释内核技巧
核(kernel)是一种在某些(可能是非常高维的)特征空间中计算两个向量𝐱x和𝐲y的点积的方法,这就是为什么内核函数有时被称为“广义点积”的原因[2]
内核技巧是一种使用线性分类器通过将线性不可分离的数据转换为较高维度的线性可分离数据来解决非线性问题的方法。
问26:在拟合SVM之前进行降维是否有好处?为什么或者为什么不?
当特征数量大于观测值的数量时,执行降维通常会改善SVM。
问27:什么是过度拟合?
过度拟合是一种模型与数据拟合得太好的误差,导致模型具有高方差和低偏差。因此,即使过拟合模型在训练数据上具有很高的精确性,也将不准确地预测新的数据点。
问28:什么叫boosting?
Boosting是一种通过减少模型的偏差和方差来改进模型的集成方法,最终将弱学习者转化为强学习者。总体思路是训练一个弱学习者,并通过从先前的学习者那里学习来依次迭代和改进模型。你可以在此处了解更多信息。
统计、概率和数学
问1: 物品 在位置A处的概率为0.6,在位置B处的概率为0.8。在亚马逊网站上找到该物品的概率是多少?
我们需要对此问题做出一些假设,然后才能回答它。 假设在亚马逊上有两个可能购买特定商品的地方,并且在位置A找到它的概率为0.6,而在位置B找到它的概率为0.8。在亚马逊上找到物品的概率可以解释为:
我们可以把上面的改写为P(A)= 0.6和P(B)= 0.8。此外,我们假设这些事件是独立的事件,这意味着一个事件的概率不受另一个事件的影响。然后,我们可以使用公式...
P(A或B)= P(A)+ P(B)-P(A和B)
P(A或B)= 0.6 + 0.8-(0.6 * 0.8)
P(A或B)= 0.92
问2:你从100枚硬币中随机抽取一枚硬币——1枚不公平硬币(正面对正面),99枚公平硬币(正面对反面)并将其滚动10次。如果结果是10个正面,那么硬币不公平的概率是多少?
这可以使用贝叶斯定理来回答。贝叶斯定理的扩展方程如下:
假设捡到不公平硬币的概率表示为P(A),而连续翻转10个正面的概率表示为P(B)。那么P(B | A)等于1,P(B |¬ A)等于0.510,而P(¬A)等于0.99。
如果填写方程,则P(A | B)= 0.9118或91.18%
问3:凸成本函数和非凸成本函数之间的区别?当成本函数是非凸时,它意味着什么
凸函数是指在图形上任意两点之间绘制的线位于图上或图形上方的函数。它有一个最小值
非凸函数是指在在图形上任意两点之间绘制的线可能与图形上其他点相交的函数。它的特征是“波浪形”
当成本函数为非凸函数时,这意味着该函数可能会找到局部极小值而不是全局极小值,这从优化的角度来看,这在机器学习模型中通常是不希望的
问4:理解概率基本原理
为此,我们将研究此处列出的八种概率规则以及四种不同的计数方法:
概率八法则
- 规则1:对于任何事件A, 0≤P(A)≤1 ; 换句话说,事件发生的概率范围可以从0到1
- 规则2:所有可能结果的概率总和始终等于1
- 规则3: P(非A)= 1-P(A) ; 该规则解释了事件的概率及其补余事件之间的关系。补 余事件是指所有不包含在A中的可能结果
- 规则4:如果A和B是不相交的事件(互斥),则 P(A或B)= P(A)+ P(B) ; 这被称 为不相交事件的加法规则
- 规则5: P(A或B)= P(A)+ P(B)-P(A和B) ; 这被称为一般加法规则
- 规则6:如果A和B是两个独立的事件,则 P(A和B)= P(A)* P(B) ; 这被称为独立事件的乘法规则
- 规则7:事件B在给定事件A下的条件概率为 P(B | A)= P(A和B)/ P(A)
- 规则8:对于任意两个事件A和B, P(A和B)= P(A)* P(B | A) ; 这被称为一般乘法规则
计数方法
阶乘公式:n!= n x(n -1)x(n_2)x…x 2 x 1
当项目数等于可用位置数时使用
例如:找到5个人可以坐在5个空座位上的方式总数
= 5 x 4 x 3 x 2 x 1 = 120
基本计数原理(乘法)
当允许重复且填充空位的方法的数量不受先前填充影响时,应使用此方法
例如:有3种早餐、4种午餐和5种甜点。组合总数= 5 x 4 x 3 = 60
排列:P(n,r)= n!/(nr)!
当不允许替换且项目等级的顺序很重要时,使用此方法
例如:一个代码按特定顺序有4位数字,且数字范围为0到9。如果一位数字只能使用一次,则有多少种排列方式
P(n,r)= 10!/(10–4)!=(10x9x8x7x6x5x4x3x2x1)/(6x5x4x3x2x1)= 5040
组合公式:C(n,r)=(n!)/ [(nr)!r!]
当不允许替换并且项目的排序顺序无关紧要时,使用此方法
例如:要赢得彩票,你必须以1至52的任意顺序选择5个正确的数字。可能的组合数量是多少
C(n,r)= 52!/(52–5)!5!= 2,598,960
问5:请描述马尔可夫链
极好地提供了马尔可夫链的一个很好的定义(在这里):
“马尔可夫链是一个数学系统,根据一定的概率规则,会经历从一种状态到另一种状态的转变。马尔可夫链的定义特征是,无论过程如何到达其当前状态,可能的未来状态都是固定的。换句话说,转换为任何特定状态的概率仅取决于当前状态和所经过的时间。”
马尔可夫链背后的实际数学需要线性代数和矩阵的知识
问6:一个盒子有12张红牌和12张黑牌。另一个盒子有24张红牌和24张黑牌。你想从两个盒子中随机抽取两张牌,一次一张。哪个盒子更有可能获得相同颜色的牌?为什么
具有24张红牌和24张黑牌的盒子更有可能获得两张相同颜色的牌。让我们逐步完成每个步骤
假设你从每副牌中抽出的第一张牌是红色A
这意味着在有12张红色和12张黑色的这副牌中,现在有11张红色和12张黑色。因此,你再抽到红色的几率等于11 /(11 + 12)或11/23
在有24张红色和24张黑色的这副牌中,将会有23张红色和24张黑色
因此,你再抽到红色的几率等于23 /(23 + 24)或23/47
由于23/47> 11/23,所以第二副牌拥有更多张牌时,获得相同两张牌的概率更高
问7:你在赌场里,有两个骰子可以玩。每次掷出5,你将赢得10美元。如果你一直玩到赢才停止,你的预期支出是多少
- 假设你每次玩游戏的费用为5美元。
- 有两个骰子的36种可能组合。
- 在这36种组合中,有4种组合导致掷出5(请参见蓝色)。这意味着掷出5的概率是4/36或1/9。
- 1/9的胜算意味着你将输掉8次,从理论上讲,一次获胜。
问8:如何判断给定硬币是否有偏差
这不是一个恶作剧问题。答案很简单,就是进行假设检验:
1、原假设是硬币没有偏差,翻转的概率应该等于50%(p = 0.5)。另一种假设是硬币有偏差,p!= 0.5。
2、掷硬币500次。
3、计算Z分数(如果样本小于30,则将计算t统计量)。
4、与alpha比较(双尾检验,所以0.05 / 2 = 0.025)。
5、如果p值> alpha,则不会拒绝原假设,并且硬币不会有偏见。
如果p值<alpha,则拒绝原假设,并且对硬币有偏差。
问9:让不公平的硬币公平
由于抛硬币是二元结果,因此可以通过两次抛硬币来使不公平的硬币公平。如果将其翻转两次,则可以押注两个结果:正面跟着反面或反面跟着正面。
P(正面)* P(反面)= P(反面)* P(正面)
这是有道理的,因为每次掷硬币都是 独立事件。这意味着,如果你得到正面→正面或反面→反面,则需要重新投掷硬币。