楼主: study874
442 0

[经管数据集] Python数据预处理教程(重复值;缺失值;异常值;离散化) [推广有奖]

  • 0关注
  • 11粉丝

已卖:686份资源

讲师

82%

还不是VIP/贵宾

-

威望
0
论坛币
130 个
通用积分
23.3585
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
8638 点
帖子
226
精华
0
在线时间
424 小时
注册时间
2022-10-2
最后登录
2026-1-5

楼主
study874 在职认证  发表于 2023-2-8 22:19:09 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
1. 重复值处理数据清洗一般先从重复值和缺失值开始处理。重复值一般采取删除法来处理但有些重复值不能删除,它们在一些时候是具有实际意义的点。例如订单明细数据或交易明细数据等。

图1.png


图2.png


2.缺失值处理

首先需要根据实际情况定义,填充缺失值的5种方法:

1.人工填写缺失值

2.使用一个全局常量填充缺失值

3.使用属性的中心度量(均值或中文数)填补缺失值

4.忽略元组。当单个属性缺失值百分比较多,影响预测结果的话,可删除

5.使用最可能的值填充缺失值。该值可由回归,贝叶斯或决策树归纳决定。

本教程使用替换法、插值法方法(均值替换、前向、后向替换和常数替换

)为例,图片如下:

图3.png

3.异常值处理异常值也叫离群点,是指不符合数据一般行为或模型的对象。异常值出现频率较低,但又会对实际项目分析造成偏差异常值一般用过箱线图法(分位差法)或者分布图(标准差法)来判断。
图4.png 图5.png 4.数据离散化数据离散化就指数值属性的初始值可以用区间标签或概念标签来替代。这样可以将连续的之变替换成离散的指标,这在数据挖掘中也称为概念分层。可以根据是否使用类信息,可以分为有监督的离散化(决策树、ChiMerge)和无监督的离散化(分箱、直方图、聚类)。
图6.png
下载链接 Python数据预处理教程(重复值;缺失值;异常值;离散化) (76 Bytes, 需要: RMB 19 元)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:python 数据预处理 预处理 异常值 缺失值

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-7 07:02