但是不要被长度吓到了,我们已经将其分为四个部分(机器学习、统计信息、SQL、其他),以便你可以逐步了解它。
你可以使用这些问题来磨练知识并找出差距,然后填补这些空白。
我们希望你会发现这很有帮助,并祝你在数据科学的努力中好运!
机器学习基础
问1:在应用机器学习算法之前,数据争论和数据清理有哪些步骤?
当数据争论和数据清理时可以采取许多步骤。下面列出了一些最常见的步骤:
数据剖析:几乎每个人都从理解他们的数据集开始。更具体地说,你可以使用 .shape查看数据集的形状,并使用.describe查看数字变量的描述。
语法错误:这包括确保没有空格,确保字母大小写一致以及检查拼写错误。你可以使用 .unique或条形图检查拼写错误。
标准化或规范化:根据你使用的数据集和决定使用的机器学习方法,对数据进行标准化或标准化可能会很有用,这样不同比例的不同变量不会对模型的性能产生负面影响。
处理空值:有多种处理空值的方法,包括完全删除带有空值的行,将空值替换为均值/中位数/众数,将空值替换为新的类别(例如未知)、预测值,或使用可以处理空值的机器学习模型。在这里阅读更多。
其他事情包括:删除不相关的数据,删除重复项和类型转换。
问2:如何处理不平衡的二元分类?
首先,你想重新考虑用于评估模型的指标。模型的准确性可能不是最好的指标,因为我将用一个例子来说明原因。假设有99次银行提款不是欺诈行为,而1次提款是欺诈行为。如果你的模型仅将每个实例归类为“非欺诈性”,则其准确性为99%!因此,你可能要考虑使用精确度和召回率等指标。
改善不平衡二元分类的另一种方法是增加对少数群体分类错误的成本。通过增加这种惩罚,模型应该更准确地对少数群体进行分类。
最后,你可以通过对少数类进行过度采样或对多数类进行欠采样来改善类的平衡。你可以在这里读更多关于它的内容。
问3:箱线图和直方图有什么区别?
