楼主: jmpamao
5287 10

[问答] 抽样分布的问题-如何抽样 [推广有奖]

  • 7关注
  • 16粉丝

已卖:6份资源

副教授

93%

还不是VIP/贵宾

-

TA的文库  其他...

R_JULIA_learning

威望
0
论坛币
1815 个
通用积分
98.3943
学术水平
134 点
热心指数
183 点
信用等级
88 点
经验
23214 点
帖子
584
精华
0
在线时间
1523 小时
注册时间
2011-1-18
最后登录
2024-12-13

初级热心勋章

楼主
jmpamao 发表于 2012-11-16 22:18:33 |AI写论文
50论坛币
题目来源于:商务与经济统计 by 安德森,Electronics Associates 公司的抽样问题
问题:
        1、如何抽样? 文件中有2500行 数据,抽取30个数据
    Salary   Training
1  55769   No
2  50823   Yes
3  48408   No
.....
30 51767  No

       2、500个简单随机样本 样品均值 和 样品比率 的抽样分布

EAI.XLS (136 KB)

需要写代码
如果能把500个样品均值 和 样品的比率 的直方图 近似正态画出来更好

最佳答案

qoiqpwqr 查看完整内容

对行数进行抽样
关键词:Electronics Associates electronic Associate Electron 如何

沙发
qoiqpwqr 发表于 2012-11-16 22:18:34
jmpamao 发表于 2012-11-17 09:19
sample 的话, 怎么抽取, 两列呢, 比如  
salary  training
.....    yes
对行数进行抽样
已有 1 人评分学术水平 热心指数 信用等级 收起 理由
jmpamao + 1 + 1 + 1 谢谢 点拨

总评分: 学术水平 + 1  热心指数 + 1  信用等级 + 1   查看全部评分

藤椅
jmpamao 发表于 2012-11-16 23:17:48
顶一下 抽样分布的理解与使用能力 ,重中之重了

板凳
qoiqpwqr 发表于 2012-11-16 23:44:17
直接用sample就好了

报纸
jmpamao 发表于 2012-11-17 09:19:21
qoiqpwqr 发表于 2012-11-16 23:44
直接用sample就好了
sample 的话, 怎么抽取, 两列呢, 比如  
salary  training
.....    yes
.....     no
.....   yes
......

地板
jmpamao 发表于 2012-11-18 02:11:21
#2500 salary and training
x <- read.csv("EAI.csv",header=T)
x <- x[-2501,]

mean(x$Salary)  #总体均值
sd(x$Salary)    #总体标准差
p <- length(x$Training[x$Training == "Yes"] )/2500 #总体比率

#一个点估计
x1 <- x[sample(rownames(x),30),]
mean(x1$Salary)
p1 <- length(x1$Training[x1$Training=="Yes"])/length(x1$Training)

#500样品容量为30的简单随机样品 均值和p比率的直方图
op <-par(mfrow=c(2,1))

x.salary <- function(){
  a <- x[sample(rownames(x),30),]
  xn <-mean(a$Salary)
  
  return(xn)
}
x.sal <-replicate(500,x.salary())
hist(x.sal,probability =T,col="lightblue")
lines(density(x.sal))

p.training <- function(){
  a <- x[sample(rownames(x),30),]
  pn <-length(a$Training[a$Training=="Yes"])/length(a$Training)
  return(pn)
}

p.tra <-replicate(500,p.training())
hist(p.tra,probability= T,col="lightblue")
lines(density(p.tra))
par(op)
有错误,x.salary 和p.training, 不关联,X随机抽取后,没有关联到P, x,p 相互独立,再改改看

抽样分布.png (6.99 KB)

抽样分布.png

7
jmpamao 发表于 2012-11-18 02:16:36
qoiqpwqr 发表于 2012-11-17 11:36
对行数进行抽样
qoiqpwqr 帮我看看此程序有没有问题?
另外 为什么hist图中, density的ylim很怪!
谢谢

8
qoiqpwqr 发表于 2012-11-18 03:02:55
jmpamao 发表于 2012-11-18 02:16
qoiqpwqr 帮我看看此程序有没有问题?
另外 为什么hist图中, density的ylim很怪!
谢谢
没有问题。

hist中的y轴是因为你设置了prob=T
可以把它改成F看看不同的地方。

9
jmpamao 发表于 2012-11-18 11:36:14
qoiqpwqr 发表于 2012-11-18 03:02
没有问题。

hist中的y轴是因为你设置了prob=T
prob=F, 是频数, prob=T 是相对频率, 上面的图,1,2,3,4。。。都大于1了,所以疑惑,x和p 也不关联,我再想想

10
jmpamao 发表于 2012-11-18 12:56:40
#2500 salary and training
x <- read.csv("EAI.csv",header=T)
x <- x[-2501,]

salary.training <- function(){
  a <-x[sample(rownames(x),30),]
  xn <-mean(a$Salary)
  pn <- length(a$Training[a$Training=="Yes"])/length(a$Training)
  return(c(xn,pn))                  #关联 x, p
}

sal.tra <- replicate(500,salary.training())
s.t<-matrix(sal.tra,ncol=2,byrow=T)
s.t <- as.data.frame(s.t)

op <-par(mfrow=c(2,1))
hist(s.t$V1,prob=T,col="lightblue",xlab="salary")
lines(density(s.t$V1))

hist(s.t$V2,prob=T,col="lightblue",xlab="training")
lines(density(s.t$V2))
par(op)

抽样分布.png (10.57 KB)

抽样分布.png

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-31 21:40