楼主: 我是小趴菜
498 0

[数据挖掘工具] pandas.read_csv仍会出现内存错误 [推广有奖]

  • 0关注
  • 4粉丝

教授

35%

还不是VIP/贵宾

-

威望
0
论坛币
29650 个
通用积分
380.5350
学术水平
1 点
热心指数
1 点
信用等级
0 点
经验
7150 点
帖子
670
精华
0
在线时间
37 小时
注册时间
2022-8-30
最后登录
2023-4-4

楼主
我是小趴菜 发表于 2022-10-12 14:12:03 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

我正在尝试将此 CSV文件加载到pandas数据框中


import pandas as pd

filename = '2016-2018_wave-IV.csv'


df = pd.read_csv(filename)

然而,尽管我的PC不是超级慢(8GB RAM,64位python)并且文件有点但不是特别大(<33 MB),加载文件需要10分钟以上。我的理解是,这不应该花费那么长时间,我想弄清楚这背后是什么。(正如在类似问题中所建议的那样,我尝试过使用chunksize和usecol参数(EDIT等low_memory),但没有成功;所以我认为这不是重复,而是与文件或设置有关。)

解决办法:我正在测试你共享的文件,问题是这个csv文件在每一行都有前导和结尾双引号(所以Panda认为整行是一列)。它必须在处理之前删除,例如在linux中使用sed或只是在python中处理和重新保存文件或者只是替换文本编辑器中的所有双引号。


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:pandas panda READ Das EAD

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2026-1-5 14:30