人大经济论坛 › 论坛 › 数据科学与人工智能 › 数据分析与数据科学 › SAS专版 › 关于proc freq的问题

CDA数据分析研究院

商业数据分析与大数据领航教育品牌



经管云课堂

经管/金融/财会/社科/名师公开课



学术培训

Stata 空间计量 SSCI Python

贵宾：通行论坛特权+数据库权限
+案例库+下载特权 VIP：论坛特权+更多下载次数
+ccerdata数据库+更高阅读权限+……

12 下一页

发帖

楼主: burnpark

15789 10

[问答] 关于proc freq的问题 [推广有奖]

1关注
2粉丝

讲师

21%

还不是VIP/贵宾

威望: 0 级
论坛币: 2979 个
通用积分: 6.6000
学术水平: 0 点
热心指数: 0 点
信用等级: 0 点
经验: 4270 点
帖子: 128
精华: 0
在线时间: 591 小时
注册时间: 2009-3-17
最后登录: 2024-10-13

楼主

burnpark 发表于 2014-1-21 13:08:52 |只看作者 |坛友微信交流群|倒序 |AI写论文

100论坛币

我想按组统计多个变量的频数。
比如我有数据test。内容如下：
ID a b c d ...
1 10 30 10 20
1 10 10 10 15
2 15 20 10 10
3 10 15 15 15
3 20 15 20 10
3 10 15 20 10
4 15 20 15 15
4 10 10 15 15
5 20 10 30 10
...
一般来说
proc freq data=test;
table a;
run;
这样的话 ID1的 10这个值是两个，
可是我想要的结果是如果同样ID的变量值相同的话只算一个。
就是说proc freq后变量a的结果是
10这个值会出现3次而不是5，
而变量b的15这个值会出现1次而不是3。
变量有很多从a~z，在data步一个变量一个变量去除重复很麻烦，而且花时间。
ods也试过数据太大，机器带不动。请问有没有更有效率的方法？

最佳答案

huntdreamer 查看完整内容

data test; input ID a b c d@@; cards; 1 10 30 10 20 1 10 10 10 15 2 15 20 10 10 3 10 15 15 15 3 20 15 20 10 3 10 15 20 10 4 15 20 15 15 4 10 10 15 15 5 20 10 30 10 ; run; proc sql; select b, count(b) as count from (select distinct ID,b from test) group by b ; quit;

分享0 收藏1 回帖

关键词：freq Fre REQ ROC Table 统计

使用道具举报

沙发

huntdreamer 发表于 2014-1-21 13:08:53 |只看作者 |坛友微信交流群

data test;
input ID a b c d@@;
cards;
1 10 30 10 20
1 10 10 10 15
2 15 20 10 10
3 10 15 15 15
3 20 15 20 10
3 10 15 20 10
4 15 20 15 15
4 10 10 15 15
5 20 10 30 10
;
run;
proc sql;
select b, count(b) as count
from
(select distinct ID,b
from test)
group by b
;
quit;

使用道具举报

藤椅

huntdreamer 发表于 2014-1-21 13:34:44 |只看作者 |坛友微信交流群

按照你上面表达,ID 相同情况下只计算一次的话,10只出现了3次!

使用道具举报

板凳

burnpark 发表于 2014-1-21 13:38:28 |只看作者 |坛友微信交流群

不好意思，是3次

使用道具举报

报纸

huntdreamer 发表于 2014-1-21 13:53:27 |只看作者 |坛友微信交流群

a,b,c,d....你替换下就行了

使用道具举报

地板

tracymicky 发表于 2014-1-21 14:06:36 |只看作者 |坛友微信交流群

我的理解是这样的：如果ID和a一样的不管其他变量是否相同，楼主只想保留第一次出现的observation，然后统计？如果我的理解是对的，可以使用proc sort的nodupkey选项，之后再用proc freq：
data test;
input ID a b c d@@;
cards;
1 10 30 10 20
1 10 10 10 15
2 15 20 10 10
3 10 15 15 15
3 20 15 20 10
3 10 15 20 10
4 15 20 15 15
4 10 10 15 15
5 20 10 30 10
;
run;

proc sort data=test nodupkey out=test1;
by ID a;
run;

proc freq data=test1;
table a;
run;

使用道具举报

7楼

weitingkoala 发表于 2014-1-21 14:08:12 |只看作者 |坛友微信交流群

在上面哥们基础上假如宏，就可以做完a-z了
首先：建立外部宏文本 aaa.txt,文本内容为 %solution(a); ...... %solution(z);
其次，建立宏：
data test;
input ID a b c d@@;
cards;
1 10 30 10 20
1 10 10 10 15
2 15 20 10 10
3 10 15 15 15
3 20 15 20 10
3 10 15 20 10
4 15 20 15 15
4 10 10 15 15
5 20 10 30 10
;
run;
%macro solution(letter);
proc sql;
select &letter., count(&letter.) as count
from
(select distinct ID,&letter.
from test)
group by &letter.
;
quit;
%mend solution;
最后，调用宏文本：
%include "C:\Documents and Settings\Administrator\桌面\aaa.txt"
没运行过仅提供思路

使用道具举报

8楼

mycpcw 发表于 2014-1-21 18:29:56 |只看作者 |坛友微信交流群

使用道具举报

9楼

yongyitian 发表于 2014-1-22 09:26:53 |只看作者 |坛友微信交流群

data test;
input ID a b c d;
cards;
1 10 30 10 20
1 10 10 10 15
2 15 20 10 10
3 10 15 15 15
3 20 15 20 10
3 10 15 20 10
4 15 20 15 15
4 10 10 15 15
5 20 10 30 10
; run;
proc sql;
select name into :varname separated by ' '
from dictionary.columns
where libname = 'WORK' and memname='TEST' and name ^='ID';
select count(name) into : n_var
from dictionary.columns
where libname = 'WORK' and memname='TEST' and name ^='ID';
quit;
%macro mymacro;
%do i = 1 %to &n_var;
%let var=%scan(&varname, &i); %put &var;
proc sql;
create table &var as
select distinct ID, &var as num, "&var" as variable, count(*) as count
from test
group by id, &var;
quit;
proc append base=want data=&var;
run;
%end;
%mend;
%mymacro;
/* use proc freq */
proc freq data=test;
table ID*a / nopercent norow nocol out=freq_a (drop=percent rename=(count=count_a));
table ID*b / nopercent norow nocol out=freq_b (drop=percent rename=(count=count_b));
table ID*c / nopercent norow nocol out=freq_c (drop=percent rename=(count=count_c));
table ID*d / nopercent norow nocol out=freq_d (drop=percent rename=(count=count_d));
run;