发帖

楼主: ZHZHzhang

248 0

[学科前沿] 数据挖掘的基本技术 [推广有奖]

0关注
0粉丝

等待验证会员

学前班

0%

还不是VIP/贵宾

-

0%

威望: 0 级
论坛币: 0 个
通用积分: 0
学术水平: 0 点
热心指数: 0 点
信用等级: 0 点
经验: 10 点
帖子: 0
精华: 0
在线时间: 0 小时
注册时间: 2018-12-17
最后登录: 2018-12-17

楼主

ZHZHzhang 发表于 2025-11-14 17:18:21 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
# 1. 数据加载
df = pd.read_csv('customer_data.csv')
# 2. 数据探索
print(df.head()) # 检查前几行
print(df.info()) # 查看数据详情和缺失值情况
print(df.describe()) # 获取数值型变量的统计描述
# 3. 数据清洗
# 处理缺失值：用中位数填充年龄
df['Age'].fillna(df['Age'].median(), inplace=True)
# 移除重复行
df.drop_duplicates(inplace=True)
# 4. 数据可视化
# 查看年龄分布情况
sns.histplot(df['Age'], kde=True)
plt.title('年龄分布')
plt.show()
# 查看收入与年龄的散点图
sns.scatterplot(data=df, x='Age', y='Income', hue='Purchased') # 根据是否购买进行着色
plt.title('收入与年龄的关系')
plt.show()
# 5. 数据转换
# 标准化年龄和收入（适用于基于距离的算法）
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
df[['Age_scaled', 'Income_scaled']] = scaler.fit_transform(df[['Age', 'Income']])
# 编码分类变量，如“城市”
df = pd.get_dummies(df, columns=['City'], prefix='City')

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：数据挖掘 scatterplot duplicates Processing Matplotlib

[学科前沿] 数据挖掘的基本技术 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

[学科前沿] 数据挖掘的基本技术 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

扫码加我拉你入群