楼主: ZHZHzhang
248 0

[学科前沿] 数据挖掘的基本技术 [推广有奖]

  • 0关注
  • 0粉丝

等待验证会员

学前班

0%

还不是VIP/贵宾

-

威望
0
论坛币
0 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
10 点
帖子
0
精华
0
在线时间
0 小时
注册时间
2018-12-17
最后登录
2018-12-17

楼主
ZHZHzhang 发表于 2025-11-14 17:18:21 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
# 1. 数据加载
df = pd.read_csv('customer_data.csv')
# 2. 数据探索
print(df.head()) # 检查前几行
print(df.info()) # 查看数据详情和缺失值情况
print(df.describe()) # 获取数值型变量的统计描述
# 3. 数据清洗
# 处理缺失值:用中位数填充年龄
df['Age'].fillna(df['Age'].median(), inplace=True)
# 移除重复行
df.drop_duplicates(inplace=True)
# 4. 数据可视化
# 查看年龄分布情况
sns.histplot(df['Age'], kde=True)
plt.title('年龄分布')
plt.show()
# 查看收入与年龄的散点图
sns.scatterplot(data=df, x='Age', y='Income', hue='Purchased') # 根据是否购买进行着色
plt.title('收入与年龄的关系')
plt.show()
# 5. 数据转换
# 标准化年龄和收入(适用于基于距离的算法)
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
df[['Age_scaled', 'Income_scaled']] = scaler.fit_transform(df[['Age', 'Income']])
# 编码分类变量,如“城市”
df = pd.get_dummies(df, columns=['City'], prefix='City')
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据挖掘 scatterplot duplicates Processing Matplotlib

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-4-19 07:48