楼主: 淙淙_1st
9815 9

【请教】如何用SAS作分层抽样? [推广有奖]

  • 0关注
  • 2粉丝

硕士生

98%

还不是VIP/贵宾

-

威望
0
论坛币
21 个
通用积分
0.0023
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
9343 点
帖子
158
精华
0
在线时间
272 小时
注册时间
2009-12-26
最后登录
2017-5-3

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
    数据集aa001中含有上海市嘉定区2000年1938家工业企业的五个主要经济年指标的普查数据,该普查数据非常有利于我们进行各种抽样尝试,能够较清楚地揭示出各种抽样设计方案的优劣。从中的最优者可作为今后主要经济月指标抽样调查的设计方案。假定嘉定区统计局根据他们的实际情况建议样本容量为150,你如何来制定各种抽样设计方案并根据对总体总值的抽样推算结果比较和分析这些方案的优劣。

问题:
实验(三)
在分层随机抽样中使用最优分配,使用不同的分层数,分别用TS3(分三层)、TS4(分四层)和TS7(分七层)指标分层。通过推算感性认识分层数对精度的影响,并且将分层随机抽样与简单随机抽样作精度比较。

不会啊……请大家帮帮忙吧~~
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:分层抽样 如何用 随机抽样 设计方案 样本容量 请教 SAS 分层抽样

回帖推荐

zhuozhi1011 发表于3楼  查看完整内容

抽样方法(Sampling Method)是按照一定程序,从所研究对象的全体(母体)中抽取一部份(样本)进行调查或观查,并在一定的条件下,运用数理统计的原理和方法,对母体的数量特征进行估计和推断。 抽样方法可分为随机抽样(亦称为机率抽样 Probability Sampling)和非随机抽样(亦称为非机率抽样 Non-Probability Sampling)两大类,这两类的抽样方法都被经常地使用。随机抽样是指按照机率原则,从母体中抽取一定数目的单位元作为 ...

本帖被以下文库推荐

沙发
weihancool 发表于 2010-4-20 16:03:49 |只看作者 |坛友微信交流群
用proc surveyselect来完成吧

使用道具

藤椅
zhuozhi1011 发表于 2010-4-20 23:36:54 |只看作者 |坛友微信交流群
抽样方法(Sampling Method)是按照一定程序,从所研究对象的全体(母体)中抽取一部份(样本)进行调查或观查,并在一定的条件下,运用数理统计的原理和方法,对母体的数量特征进行估计和推断。

抽样方法可分为随机抽样(亦称为机率抽样 Probability Sampling)和非随机抽样(亦称为非机率抽样 Non-Probability Sampling)两大类,这两类的抽样方法都被经常地使用。随机抽样是指按照机率原则,从母体中抽取一定数目的单位元作为样本进行观察,随机抽样使母体中每个单位都有一定的机率被选入样本,从而使根据样本所做出的结论对母体具有充分的代表性。非随机抽样则是以方便为出发点或根据研究者主观的判断来抽取样本。非随机抽样主要依赖研究者个人的经验和判断,它无法估计和控制抽样误差(sampling error),亦无法用样本的量化数据来推断母体。

在所有抽样方法中,属分层抽样(Stratified Sampling)法所应用的范围最广与最多。它是先将母体所有单位按某些重要因素进行分类(层),然后在各类(层)中采用简单随机抽样(simple random sampling)或系统抽样(system sampling)方式抽取样本单位。分层抽样比简单随机抽样和系统抽样更为精确,能够通过对较少的抽样单位的调查,得到比较准确的推断结果,特别是当母体较大、内部结构复杂时,分层抽样常能取得令人满意的效果。同时,分层抽样在对母体推断的同时,还能获得对每层的推论。

分层抽样的方式,一般有等比例抽样与非等比例抽样。等比例抽样,要求各类样本单位数的分配比例与母体单位在各类的分配比例一致。等比例抽样简便易行且分配比较合理,在实际工作中应用较广。非等比例抽样,不受上述条件限制,即有的层可多抽些样本单位,有的层也可少抽些样本单位。非等比例抽样大多适用于各层的单位数相差悬殊,或层内变异数相差较大的情形。在这种情况下,如按等比例抽样,可能在母体单位数少的层中抽取样本单位数过少,代表性不足,则可适当放宽多抽;同样,层内变异触较大的,也可多抽些样本单位。但是在实际运作前要准确了解各层标志变异程度大小是比较困难的。

可将本文中母体视为一个庞大的数据库,而所做的抽样工作即是在这数据库中抽取具有代表性的样本点。

在设计抽样方法的过程中,最具有关键性的角色即是选择何种抽样方法。抽样设计的方法有很多种,一般较常用的就属分层随机抽样法。另方面,在统计推论时,即是由样本数据对母体进行推估,如何找出抽样比亦是一个相当重要的课题。

下面介绍如何运用SAS宏指令及一些函数来建构抽样程序与决定系数的使用方法。

SAS Macro程序

A. 仿真产生1000笔数据



DATA _NULL_;
RETAIN SEED 83624;
DO I=1 TO 1000;
SERIAL=I;
LAYER=CEIL(8*RANUNI(SEED));
VOLUME=CEIL(100*RANUNI(SEED));
FILE INMAST;
PUT @1 SERIAL Z4. @8 LAYER 1. @11 VOLUME 3.;
END;



B. 读入字段素描档=>产生SAS字段格式档


DATA _NULL_;
INFILE INFIELD;
INPUT FIELD $7-12 F 4-5 S 13-17 TYPE $6;
IF TYPE='9' THEN KK=FIELD||' '||COMPRESS(F)||'.';
ELSE KK=FIELD||' $'||COMPRESS(F)||'.';
FILE SASFORM;
PUT KK 1-20;



【字段素描档(INFIELD)】 【字段格式档(SASFORM)】
----+----+----+-
00104XSERIAL0001 SERIAL $4.
00203XFILLER0005 FILLER $3.
003019LAYER 0008 LAYER 1.
00402XFILLER0009 FILLER $2.
005039VOLUME0011 VOLUME 3.
00607XFILLER0014 FILLER $7.

C. 利用字段格式文件=>读入仿真产生的资料


DATA WKMAST(DROP=FILLER);
INFILE INMAST;
INPUT %INCLUDE SASFORM;;


※利用%INCLUDE指令,可将资料依原先建好的SASFORM的格式读入。

D. 各层抽出比率控制卡


DATA SAMPLE;
INPUT LAYER PERCENT @@;
CARDS;
1 7 2 7 3 7 4 7 5 7 6 7 7 7 8 7
;


※各层别抽出样本的比率可由此卡加以控制,各变量项代表意义-LAYER(层别)、PERCENT(百分比;﹪)。

E. 分层比率随机抽样宏


DATA SAMPS(KEEP=&LAYER SAMPS RAN);
SET NOUT ; RETAIN NSAMP 1 ;
ARRAY RA{500} RAN1-RAN500 ;
IF MARK=1 THEN
DO J=1 TO SAMPS; RAN=J ; OUTPUT ; END ;
ELSE DO ;
DO UNTIL(NSAMP=SAMPS+1 ] NSAMP=_FREQ_+1) ;
RAN=CEIL(_FREQ_*RANUNI(1994)) ;
IF NSAMP>1 THEN
DO J=1 TO NSAMP-1 ;
IF RAN=RA{J} THEN GOTO NEXT;
END ;
OUTPUT ; RA{NSAMP}=RAN ; NSAMP=NSAMP+1 ;
NEXT:END;
NSAMP=1 ;
END ;


※利用宏传呼参数%TEST(WKMAST,LAYER,SERIAL)的呼叫,可以在不必修改变量项目及避免程序重复撰写的情形下,完成样本抽取的动作。以上为决定全查层或抽查层而采行不同抽取动作之程序部分。
传呼参数说明:WKMAST-母体资料集;LAYER-层别(1~8);SERIAL(序号;样本编号).
已有 2 人评分经验 论坛币 热心指数 收起 理由
bakoll + 3 + 3 精彩帖子
crackman + 100 + 1 值得学习

总评分: 经验 + 3  论坛币 + 103  热心指数 + 1   查看全部评分

使用道具

板凳
crackman 发表于 2010-4-20 23:44:31 |只看作者 |坛友微信交流群
学习了
值得思考的一个问题。。。。。

使用道具

报纸
yunai1988 发表于 2011-5-31 21:14:54 |只看作者 |坛友微信交流群
好难

使用道具

地板
leedx 发表于 2011-6-3 11:13:37 |只看作者 |坛友微信交流群
期待牛人解答,学习中~

使用道具

7
ntsean 发表于 2011-6-3 11:34:23 |只看作者 |坛友微信交流群
我记得上sampling的课的时候,如果层数固定,那么每层的样本数正比 sqrt(n)*s/sqrt(c), 其中n是该层总数,s是估计该层方差,c是该抽一个样本的成本(当然了,这里c可能就是个常数,每层都一样), 这样子的话总体方差是最小的。
至于,分多少层,怎么分层,那么我们肯定希望每个层内方差越小越好,所以应该把类似的放在一层(比如同一个地区),这个应该是抽样前决定的,如果抽样后决定那么就会有偏差了。到底分多少层,这个问题我似乎没见过,不过可以用类似于optimal allocation的推导,利用拉个然日法求得最优解。
参考sharon lohr的sampling design and analysis

使用道具

8
ntsean 发表于 2011-6-3 11:38:14 |只看作者 |坛友微信交流群
楼主要的不是 proportional allocation而是optimal allocation

3# zhuozhi1011

使用道具

9
佐藤先生 发表于 2014-11-10 00:08:26 |只看作者 |坛友微信交流群
宏程序可以更简单些。

使用道具

10
佐藤先生 发表于 2014-11-10 00:08:57 |只看作者 |坛友微信交流群
sas宏程序可以更简单

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-25 09:07