楼主: 时光永痕
839 0

[数据挖掘新闻] 写入/读取大型R数据帧/数据表。 [推广有奖]

  • 0关注
  • 14粉丝

svip3

学术权威

12%

(VIP/贵宾)八级

3%

威望
0
论坛币
26 个
通用积分
57.2238
学术水平
4 点
热心指数
4 点
信用等级
4 点
经验
34180 点
帖子
2732
精华
0
在线时间
321 小时
注册时间
2020-7-21
最后登录
2024-8-1

楼主
时光永痕 学生认证  发表于 2020-11-13 20:03:41 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
写入/读取大型R数据帧/数据表。
我最近从最新发布的美国社区调查(ACS)人口普查数据中下载了一个为期5年的公共用途微型样本(PUMS)。数据包含有关美国家庭和个人(人口)的大量人口统计信息。最终的住户和人口数据存储区对于台式机计算而言是相当大的:住户由近750万条记录组成,并具有233个属性,而人口则不到1 580万个案例和286个变量。  
除了进行大量的人口统计分析外,这些人口普查数据还非常适合性能测试功能来提取,修改和提供分析数据。也就是说,如果您的计算机具有足够的火力:R和Python-Pandas都通过内存大小来约束数据结构。幸运的是,我的Wintel笔记本电脑具有64 GB的RAM和2 TB的磁盘/固态存储,在这里可以完成硬件任务。
我在此博客上的重点是确定R的dataframe / data.table读写功能如何测量多达15 GB以上的原始输入。与重复和汇总的较小测试相比,使用这种大小的数据通常可以提供更清晰的基准。确实,通常,就像本笔记本中的情况一样,分析师可能会遇到各种方法之间不同数量级的性能差异。
在下面的分析中,我对比了使用三种不同的csv函数,R的带压缩和不带压缩功能的saveRDS函数,可互操作的羽毛库以及nonesuch fst库将18 GB总体数据帧写入OS文件所花费的时间。然后,我依次将这些刚生成的OS文件读回到数据帧/数据表中,并比较时序结果。七种读/写方法中的每一种都产生可在不同R平台之间移植的文件。另外,feather软件包可在R和Python-Pandas之间互操作-这是一个主要好处。
在性能测试结束时,我概述了一种通用方法,该方法可以使用fst和feather软件包的组合功能,从R有效地向R和Python-Pandas平台中采购数据。我在R中演示了该方法,并使用了漂亮的网状包在Python-Pandas中进行了演示。
题库
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据表 数据帧 Dataframe Feather python

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-20 07:23