楼主: alwayssummer
2604 7

数据清理和统计的问题 [推广有奖]

  • 0关注
  • 0粉丝

大专生

63%

还不是VIP/贵宾

-

威望
0
论坛币
2967 个
通用积分
0
学术水平
0 点
热心指数
2 点
信用等级
0 点
经验
507 点
帖子
46
精华
0
在线时间
56 小时
注册时间
2010-1-22
最后登录
2023-5-6

楼主
alwayssummer 发表于 2010-4-12 08:29:32 |AI写论文
20论坛币
海量数据,发现其中有很多需要清理的,比如两行数据,其中有一些字段的值相等,这时取其中一行就行了。现在有上千对这样的数据,如何进行处理?最好说详细一点。
还有一个问题,按某列把数据分类之后,如何按分类项进行统计?
每个问题10分。新手,请大家指教。

最佳答案

lvjinghui 查看完整内容

data a : var1 var2 var3 x 1 y1 n1 x 1 y1 n2 x2 y2 n3 proc sort data=a; by var1 var2; run; data a1; set a1; by var1 var2 ; if first.var1; run; 按小类统计的话 by 分类变量就ok 啦 比如: proc logistic; by class var; class var1 var2; model y= x1 x2; run;
关键词:数据清理 海量数据 数据分类 统计 数据

沙发
lvjinghui 发表于 2010-4-12 08:29:33
data a :
var1   var2   var3
   x 1        y1         n1
   x 1        y1         n2
   x2        y2          n3
proc sort data=a;
    by var1 var2;
run;
data a1;
   set a1;
      by  var1 var2 ;
      if first.var1;
run;
按小类统计的话  by 分类变量就ok 啦
比如:
proc logistic;
   by class var;
   class var1 var2;
    model y= x1 x2;
run;

藤椅
gzndxf 发表于 2010-4-12 08:34:52
也来学习学习。

板凳
shawfee 发表于 2010-4-12 08:37:08
说的太笼统,最好能上传些样本数据
愛是恆久忍耐,又有恩慈;愛是不嫉妒;愛是不自誇,不張狂,不作害羞的事,不求自己的益處,不輕易發怒,不計算人的惡,喜歡不義,只喜歡真理;凡事包容,凡事相信,凡事盼望,凡事忍耐;愛是永不止息。

报纸
刘楹联 发表于 2010-4-12 08:43:43
不知道你喜欢用哪一个软件,如果用SAS软件
解决的方法是指定行取数据,例如编程序中的INPUT语句中指定行号,例如 #3即取第三行的数据

地板
alwayssummer 发表于 2010-4-12 08:45:14
可能我说的不太清楚吧。比如,一个人有三门成绩,对应了三行记录,我现在只要取这个人最高的一门成绩,三选一。如果有几千人该怎么办?

7
刘楹联 发表于 2010-4-12 08:47:16
不知道你喜欢用哪一个软件,如果用SAS软件
解决的方法是指定行取数据,例如编程序中的INPUT语句中指定行号,例如 #3即取第三行的数据

8
crackman 发表于 2010-4-12 09:28:16
问题都不清楚
如果是分类统计 其实很简单啊

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-26 03:28