人大经济论坛 › 论坛 › 数据科学与人工智能 › 数据分析与数据科学 › 数据分析师（CDA）专版 › 当Pandas遇上超大规模的数据集该如何处理呢？

发帖

楼主: CDA网校

845 0

[每天一个数据分析师] 当Pandas遇上超大规模的数据集该如何处理呢？ [推广有奖]

4关注
124
粉丝

管理员

已卖：189份资源

泰斗

还不是VIP/贵宾

威望: 3 级
论坛币: 128372 个
通用积分: 12785.5113
学术水平: 278 点
热心指数: 286 点
信用等级: 253 点
经验: 231891 点
帖子: 7126
精华: 19
在线时间: 4417 小时
注册时间: 2019-9-13
最后登录: 2026-3-5

楼主

CDA网校

发表于 2022-5-6 14:23:32 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

作者：俊欣

来源：关于数据分析与可视化

大家好，又是新的一周。大家一般会用Pandas模块来对数据集进行进一步的分析与挖掘关键信息，但是当我们遇到数据集特别特别大的时候，内存就会爆掉，今天小编就来分享几个技巧，来帮助你避免遇到上述提到的这个情况。

read_csv()方法当中的chunksize参数
read_csv()方法当中的chunksize参数顾名思义就是对于超大csv文件，我们可以分块来进行读取，例如文件当中有7000万行的数据，我们将chunksize参数设置为100万，每次分100万来分批读取，代码如下

# read the large csv file with specified chunksize  
df_chunk = pd.read_csv(r'data.csv', chunksize=1000000)

这时我们得到的df_chunk并非是一个Datafr ame对象，而是一个可迭代的对象。接下来我们使用for循环并且将自己创立数据预处理的函数方法作用于每块的Datafr ame数据集上面，代码如下

chunk_list = []  
# 创建一个列表chunk_list   
# for循环遍历df_chunk当中的每一个Datafr ame对象 
for chunk in df_chunk:   
# 将自己创建的数据预处理的方法作用于每个Datafr ame对象上 
chunk_filter = chunk_preprocessing(chunk)  
# 将处理过后的结果append到上面建立的空列表当中 
chunk_list.append(chunk_filter)  
# 然后将列表concat到一块儿 
df_concat = pd.concat(chunk_list)

将不重要的列都去除掉
当然我们还可以进一步将不重要的列都给去除掉，例如某一列当中存在较大比例的空值，那么我们就可以将该列去除掉，代码如下

# Filter out unimportant columns 
df = df[['col_1','col_2', 'col_3', 'col_4', 'col_5', 'col_6','col_7', 'col_8', 'col_9', 'col_10']]

当然我们要去除掉空值可以调用df.dropna()方法，一般也可以提高数据的准确性以及减少内存的消耗

转变数据格式
最后我们可以通过改变数据类型来压缩内存空间，一般情况下，Pandas模块会给数据列自动设置默认的数据类型，很多数据类型里面还有子类型，而这些子类型可以用更加少的字节数来表示，下表给出了各子类型所占的字节数

2000字详解，当Pandas遇上超大规模的数据集该如何处理呢？
对于内存当中的数据，我们可以这么来理解，内存相当于是仓库，而数据则相当于是货物，货物在入仓库之前呢需要将其装入箱子当中，现在有着大、中、小三种箱子，

2000字详解，当Pandas遇上超大规模的数据集该如何处理呢？
现在Pandas在读取数据的时候是将这些数据无论其类型，都是装到大箱子当中去，因此会在很快的时间里仓库也就是内存就满了。

因此我们优化的思路就在于是遍历每一列，然后找出该列的最大值与最小值，我们将这些最大最小值与子类型当中的最大最小值去做比较，挑选字节数最小的子类型。

我们举个例子，Pandas默认是int64类型的某一列最大值与最小值分别是0和100，而int8类型是可以存储数值在-128~127之间的，因此我们可以将该列从int64类型转换成int8类型，也就同时节省了不少内存的空间。

我们将上面的思路整理成代码，就是如下所示

def reduce_mem_usage(df): """ 遍历Datafr ame数据集中的每列数据集
    并且更改它们的数据类型        
    """ start_memory = df.memory_usage().sum() / 1024**2 print('Datafr ame所占用的数据集有: {:.2f} MB'.format(start_memory)) for col in df.columns:
        col_type = df[col].dtype if col_type != ob ject:
            col_min = df[col].min()
            col_max = df[col].max() if str(col_type)[:3] == 'int': if col_min > np.iinfo(np.int8).min and col_max < np.iinfo(np.int8).max:
                    df[col] = df[col].astype(np.int8) elif col_min > np.iinfo(np.int16).min and col_max < np.iinfo(np.int16).max:
                    df[col] = df[col].astype(np.int16) elif col_min > np.iinfo(np.int32).min and col_max < np.iinfo(np.int32).max:
                    df[col] = df[col].astype(np.int32) elif col_min > np.iinfo(np.int64).min and col_max < np.iinfo(np.int64).max:
                    df[col] = df[col].astype(np.int64) else: if col_min > np.finfo(np.float16).min and col_max < np.finfo(np.float16).max:
                    df[col] = df[col].astype(np.float16) elif col_min > np.finfo(np.float32).min and col_max < np.finfo(np.float32).max:
                    df[col] = df[col].astype(np.float32) else:
                    df[col] = df[col].astype(np.float64)

    end_memory = df.memory_usage().sum() / 1024**2 print('优化过之后数据集的内存占有: {:.2f} MB'.format(end_memory))
    print('减少了大约有: {:.1f}%'.format(100 * (start_memory - end_memory) / start_memory)) 
    return df

相关帖子DA内容精选