楼主: 时光永痕
896 0

[数据挖掘新闻] 探索性数据分析–探索数据的入门技术! [推广有奖]

  • 0关注
  • 14粉丝

svip3

学术权威

12%

(VIP/贵宾)六级

47%

威望
0
论坛币
26 个
通用积分
57.2086
学术水平
4 点
热心指数
4 点
信用等级
4 点
经验
34190 点
帖子
2733
精华
0
在线时间
321 小时
注册时间
2020-7-21
最后登录
2024-8-1

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
探索性数据分析–探索数据的入门技术!
介绍
探索性数据分析(EDA)是任何数据科学项目中最被低估且未充分利用的方法之一。EDA是数据科学家在研究数据,提取有价值的信息和从数据中获得非显而易见的见解的第一步,这最终将在模型构建过程中提供帮助。
在对数据建模和测试之前,需要与数据建立关系。您可以通过探索数据,针对目标变量绘制数据并观察数据的行为来建立这种关系。建模之前的这一分析过程称为探索性数据分析。
在本文中,我们将对来自Kaggle(Advanced House Prediction)的复杂数据集执行动手EDA。数据集的链接如下:
https://www.kaggle.com/c/house-prices-advanced-regression-techniques/data
数据科学项目的生命周期
1)探索性数据分析
2)特征工程
3)功能选择
4)超参数调整
5)模型建立与部署
让我们在这个复杂的数据集上执行,该数据集具有约81个独立特征和1个目标变量(销售价格)。这是一个回归问题陈述。
EDA将包含一些基本步骤,例如分析缺失值,数值和分类特征的分布,离群值,多重共线性等。我们将逐一看到每个步骤。
缺失值
大多数时候,我们获取的数据包含缺失值,我们需要查找缺失数据与销售价格(目标变量)之间是否存在任何关系。根据这一点,我们用该列的中位数等值替换缺失值。
这是python代码,用于捕获列表中大型数据集的缺失值,在该列表中,我们将缺失值替换为1,将非缺失值替换为0,并针对中位数售价绘制图,以查看是否存在关系b / w是否为空值和目标变量。
LotFrontage 0.1774%缺失值
小巷0.9377%缺失值
MasVnrType遗漏值0.0055%
MasVnrArea 0.0055%缺失值
BsmtQual 0.0253%缺失值
BsmtCond 0.0253%缺失值
BsmtExposure 0.026%缺失值
BsmtFinType1 0.0253%缺失值
BsmtFinType2 0.026%缺失值
FireplaceQu 0.4726%缺失值
GarageType 0.0555%缺失值
GarageYrBlt 0.0555%缺失值
GarageFinish 0.0555%缺失值
GarageQual 0.0555%缺失值
GarageCond 0.0555%缺失值
PoolQC 0.9952%缺失值
围栏0.8075%缺失值
杂项特征0.963%缺失值
由于缺少许多值,我们需要找到空值和目标变量(销售价格)之间的关系
这是其中一张图,显示地段正面特征的空值会随着销售价格的增加而对目标变量产生影响。因此,是的,两者之间存在b / w关系,我们需要将空值替换为诸如该特定特征的中位数之类的实质值。
数值特征
由于这是一个庞大的数据集,因此我们需要可视化不同类型的变量,例如日期时间(年),离散和连续数值特征,分类特征及其与目标变量的行为。
该数据集中有39个数字特征。字符串或字符串与数字的混合的数据类型作为对象提供,我们可以使用types属性来检查。
日期时间变量(年份特征或时间变量)
这是用于查找年份特征并查看这四个特征相对于目标变量的行为的python代码。
我们在这里可以看到,随着年销售量的增加,成本下降。现在,这必须是一个异常,因为不可能,因此我们需要做更多的分析并得出更好的结论。这仅显示了EDA的重要性以及它如何影响我们的结论。
与其将销售价格与年销售功能进行比较,不如让我们比较销售价格和全年功能的差异。
现在,我们可以将销售价格(中位数)与建成年份和改造年份进行比较,并得出各种结论,例如X轴上的值增加,价格下降。
离散数值特征
离散变量是指其值在特定范围内或可在有限时间内计数的变量。
我在功能中将唯一变量的阈值保留为25,而在年份功能中不应保留。现在让我们看看是否存在黑白离散特征与目标变量之间的关系。
我们可以看到,诸如TotalQuality之类的功能之一与目标变量具有直接关系。
连续数值特征
这些是要素类型,其值基本上可以是无穷大。通过使用直方图,我们分析了它们在整个数据集中的分布。
探索性数据分析
我们可以看到,我们获得的分布是倾斜的。在回归问题陈述中,有必要将偏态分布转换为正态分布,因为这会增加模型的准确性。
对数转换是将偏态分布转换为正态分布的技术之一,在该技术中,我们获取该特定特征的所有值的对数并将其转换为一个全新的对数特征本身。
探索性数据分析
探索性数据分析
离群值
离群值是数据集分布之外的任何数据点。
数据集中存在异常值可能会影响模型的准确性。线性回归之类的算法对异常值非常敏感,因此需要谨慎处理。
标准偏差方法是一种常见的方法,用于识别和替换离群值,其中任何位于第三标准差之外的数据点都被视为离群值。尽管该阈值标准偏差可以根据数据集的大小而变化。
在EDA中,让我们使用boxplot分析数据集中的异常值。
探索性数据分析
探索性数据分析
黑点表示存在的离群值。矩形框的下线是25%ile,上线是75%ile。
因此,那些黑点是需要删除或替换的值,我们将在要素工程中看到这些值。
分类特征
探索性数据分析
类别特征的数据类型是一个对象,我们可以使用pandas的types属性进行检查。
探索性数据分析
通常,我们将特征的分类值转换为伪变量,以便我们的算法能够理解。这称为“一次热编码”。如果特定类别的基数很高,则我们不使用单热编码,因为它可能会导致维数的诅咒。
功能是MSZoning,类别数是5
该功能为街道,类别数为2
特征是胡同,类别数是3
该功能是LotShape,类别数是4
该功能是LandContour,类别数是4
功能是实用程序,类别数是2
功能是LotConfig,类别数是5
特征为LandSlope,类别数为3
该功能是“邻居”,类别数是25
功能为Condition1,类别数为9
功能为Condition2,类别数为8
功能为BldgType,类别数为5
该功能是HouseStyle,类别数是8
功能为RoofStyle,类别数为6
该功能是RoofMatl,类别数是8
该功能为Exterior1st,类别数为15
该功能为Exterior2nd,类别数为16
功能为MasVnrType,类别数为5
该功能是ExterCond,类别数是5
该功能是Foundation,类别数是6
该功能是BsmtQual,类别数是5
该功能是BsmtCond,类别数是5
该功能是BsmtExposure,类别数是5
该功能是BsmtFinType1,类别数是7
该功能是BsmtFinType2,类别数是7
功能为加热,类别数为6
功能为HeatingQC,类别数为5
该功能是CentralAir,类别数是2
该功能是“电气”,类别数是6
功能为KitchenQual,类别数为4
功能为功能,类别数为7
该功能是FireplaceQu,类别数是6
功能是GarageType,类别数是7
功能是GarageFinish,类别数是4
该功能是GarageQual,类别数是6
功能是GarageCond,类别数是6
该功能是PavedDrive,类别数是3
该功能是PoolQC,类别数是4
功能是围栏,类别数是5
特征为SaleType,类别数为9
该功能是SaleCondition,类别数是6
我为这种情况选择的一种编码类型的阈值是10。
现在让我们检查分类特征和目标变量的中位数(销售价格)之间是否存在任何关系。
探索性数据分析
多重共线性
在任何数据集中,每当独立要素相互内部关联时,都会因为无法获得要素的单独贡献而影响模型的准确性。这称为多重共线性。
当涉及线性和逻辑回归等算法时,这是一个巨大的问题。
如何解决?
我们使用带有热图的相关矩阵,通过它们的相关系数值来可视化所有独立特征之间的关系。
通常,将0.7作为阈值,这意味着如果任意两个特征的相关性高于0.7,则可以删除两个特征之一。
探索性数据分析
结论
这些是在探索性数据分析中要执行的一些重要步骤,它还显示了EDA在实际项目中的重要性。我希望每个人在解决他们的项目时都使用这种技术。
题库
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:探索性数据分析 数据分析 探索性 Techniques regression

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-11-22 14:48