首先需要根据实际情况定义,填充缺失值的5种方法:
1.人工填写缺失值
2.使用一个全局常量填充缺失值
3.使用属性的中心度量(均值或中文数)填补缺失值
4.忽略元组。当单个属性缺失值百分比较多,影响预测结果的话,可删除
5.使用最可能的值填充缺失值。该值可由回归,贝叶斯或决策树归纳决定。
本教程使用替换法、插值法方法(均值替换、前向、后向替换和常数替换
)为例,图片如下:
3.异常值处理异常值也叫离群点,是指不符合数据一般行为或模型的对象。异常值出现频率较低,但又会对实际项目分析造成偏差异常值一般用过箱线图法(分位差法)或者分布图(标准差法)来判断。
下载链接:
Python数据预处理教程(重复值;缺失值;异常值;离散化)
(76 Bytes, 需要: RMB 19 元)


雷达卡



京公网安备 11010802022788号







