楼主: Imasasor
11526 9

数据集太大,如何压缩? [推广有奖]

  • 1关注
  • 64粉丝

VIP

已卖:215份资源

学科带头人

33%

还不是VIP/贵宾

-

TA的文库  其他...

超哥喜欢的文章

威望
1
论坛币
47033 个
通用积分
3.1376
学术水平
238 点
热心指数
246 点
信用等级
231 点
经验
37132 点
帖子
849
精华
3
在线时间
2235 小时
注册时间
2012-7-4
最后登录
2024-10-10

初级学术勋章 初级热心勋章 初级信用勋章 中级热心勋章 中级学术勋章

楼主
Imasasor 发表于 2012-7-10 15:11:55 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
我有一个数据集,大小2G,800多变量,200000观测,其中的字符型变量全部定义的是输入,输出格式$55.,这样感觉数据集太大,做什么分析处理都影响速度,有没有办法对数据集进行压缩,主要是字符变量,把数据集大小变小一点。
第一,有没有特有的sas程序实现对数据集的压缩
第二,怎么使用输出输入格式对数据集的全部字符变量进行统一重新定义?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据集 字符型变量 sas程序 字符变量 输出格式 数据 如何

回帖推荐

hongxx 发表于7楼  查看完整内容

SAS对字符变量以固定长度存储,意味行的物理长度是一样的,即使各字符变量没填满,后面会以空格补齐,可以用数据集选项 compress=yes,将记录物理长度改为可变长的,这样可以节省很多空间。 另外,你分析,用keep=,只分析你要的变量,不要整个行都读入PDV。

sabrinaxin 发表于6楼  查看完整内容

前面option中加 compress=yes
欢迎加入亚太地区第一R&Python数据挖掘群: 251548215;

沙发
huntdreamer 发表于 2012-7-10 15:45:17
分箱处理

藤椅
huntdreamer 发表于 2012-7-10 15:46:30
SAS本身的数据库不适应BIG  DATA

板凳
chendonghui1987 发表于 2012-7-10 16:28:27
写个宏语句,把每个字段的最大字符数length算出来,之后根据每个字段的最大length,重新设置字段大小看看,是不是能减小数据库大小

报纸
zhentao 发表于 2012-7-11 10:03:32
huntdreamer 发表于 2012-7-10 15:46
SAS本身的数据库不适应BIG  DATA
你不是开玩笑吧?

地板
sabrinaxin 发表于 2012-7-11 10:59:47
前面option中加 compress=yes

7
hongxx 发表于 2012-7-16 00:00:12
SAS对字符变量以固定长度存储,意味行的物理长度是一样的,即使各字符变量没填满,后面会以空格补齐,可以用数据集选项 compress=yes,将记录物理长度改为可变长的,这样可以节省很多空间。
另外,你分析,用keep=,只分析你要的变量,不要整个行都读入PDV。

8
appleqiuqiu 发表于 2014-1-9 15:39:37
sabrinaxin 发表于 2012-7-11 10:59
前面option中加 compress=yes
请问我要压缩一个数据集,是这样写吗?
  1. option compress=yes;
  2. data test1;
  3. set test;
  4. run;
复制代码

9
tracymicky 发表于 2014-1-10 08:41:54
option compress=yes; 加这个选项 压缩率会提升很多

10
soporaeternus 发表于 2014-1-10 11:14:40
都说了是影响速度,不是缺少存储
添加了压缩岂不是更加影响速度?

在数据相对固定的情况下,如楼上某位说的,适当修改下char的长度,如果仅作建模使用,优化代码,根据变量的不同算法要求,好可以考虑将字符串代码化做成format......
Let them be hard, but never unjust

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-27 07:54