楼主: peijianshi
7281 21

关于bootstrap的一个问题(高手请进入) [推广有奖]

11
Isscaliu 发表于 2011-1-19 04:12:09
Of coz you can do that in non-parametric bootstrap method!!!!!  One advise, you will be better off to do this by comparing the ratio of (-a1/b1) and (-a2/b2). Things to concern, when you do bootstrap sampling, make sure you can sample the matching pair in two sets(in other words, if the first set is {A, B, C, a, b, c}, and second set must be {A, B, C, a, b, c} in the same iteration) as my understanding to your problem.
For your information, there is two  method that I know for doing bootstrap in regression. First method, you can sample X and Y directly. Second method, find the fitted value first and sampling residuals.
It was the best of times, it was the worst of times.

12
peijianshi 发表于 2011-1-19 10:06:26
我怀疑不能,应为-a1/b1和-a2/b2样本量就是boostrap定义的次数,尽管均值和方差都知道,但是样本量却是人为可以随便定义的。不知道,诸位高人同不同意我的看法?
请不惜赐教。
R万岁!

13
peijianshi 发表于 2011-1-19 10:20:46
看不太懂,能不能再具体一些?
R万岁!

14
Isscaliu 发表于 2011-1-19 13:00:35
第一)n大于等于30就可以了
第二)iteration基本上一千以上就足够了,多了基本上就是浪费时间
第三)就bootstrap而言基本上有parametric 和 non-parametric两种(俺所知道的并接触过的),具体不做解析,wiki一下就可以了。个人觉得你的情况和实验设计比较适合做non-parametric的。
第四)就回归而言,你要考虑的是模型的显著性,再考虑a和b的显著性。另外,你要明白regression做bootstrap的话,你的bootstrap sampling distribution只能告诉你关于这个parameter的一些信息。比如所你的b1是不是明显不等于零。所以你光从两个bootstrap sampling distribution上比较(-a1/b1)和(-a2/b2)有点说不通。于是我便建议你找着(-a1/b1)和(-a2/b2)的ratio,做这个ratio的bootstrap。
第五)就实验设计而言,如果样本A在第一个model里边被选中,那么里所当然的样本A必须在第二个model里面。因为第二个model是第一个model的延伸。或者我的理解有所错误,但是总的来讲,两个model的样本之间至少的是comparable的因为两个model的数据按照我的理解至少不是independent的。
第六)non-parametric regression bootstrap有两种做法,一个是直接sample数据,这个比较直观就不做介绍了。一个就是先求出model的fitted value和residual。然后保留fitted value然后sample residual。详细方法请参考“the R book”的regression部分,本论坛上就有。至于那种好就见仁见智。我个人比较偏向于后者,认为比较终于原始数据,比较原汁原味,然后sampling distribution的variation也没有那么大。
已有 1 人评分学术水平 热心指数 收起 理由
peijianshi + 1 + 1 他的回答和解释非常具有价值

总评分: 学术水平 + 1  热心指数 + 1   查看全部评分

It was the best of times, it was the worst of times.

15
peijianshi 发表于 2011-1-19 13:52:09
非常感谢!

b1和b2都是不等于零的,回归均可通过统计检验,即p值小于0.05.

“找着(-a1/b1)和(-a2/b2)的ratio“,我没有看懂这条建议的意思?能不能再说的具体些?

有兴趣,可以合作在国外发表文章。

shi_peijian@163.com
R万岁!

16
Isscaliu 发表于 2011-1-19 14:33:39
let(-a1/b1)=c and (-a2/b2)=d
如果通过bootstrap得到c的sampling distribution{c1,c2,c3.......}的mean mu(c)和SD std(c), 同理有{d1,d2,d3....}的mu(d)和std(d)。由于你的实验设计的原因,c1和d1,c2和d2,如此类推应该是配对的。但是如果依照一般的bootstrap用mu(c),std(c),mu(d),std(d)的信息来求导CI的话,貌似model之间的independency就有点打乱了,甚至不复存在(感觉就像two-sample T 和pair-T一样,pair-T,huh,倒是可以试试用c-d,哈哈,简单明了,不用c/d,感觉要解析起来比较费劲)。
得了,建议就用c-d,不要ratio了!
It was the best of times, it was the worst of times.

17
Isscaliu 发表于 2011-1-19 14:38:55
peijianshi 发表于 2011-1-19 13:52
非常感谢!

b1和b2都是不等于零的,回归均可通过统计检验,即p值小于0.05.

“找着(-a1/b1)和(-a2/b2)的ratio“,我没有看懂这条建议的意思?能不能再说的具体些?

有兴趣,可以合作在国外发表文章。

shi_peijian@163.com
俺学校很菜。。。。。。。最大心愿也就是到JSM上做个poster或者交一个student paper之类。不过貌似今年的交abstract的deadline就快过了,最后一年可以用学生身份参加JSM了,可惜呀今年可是在迈阿密举行呀,阳光与海滩就这样错过了。
It was the best of times, it was the worst of times.

18
peijianshi 发表于 2011-1-19 14:55:24
我还是有些看不懂。
自变量是x,因变量是y,现在有卵期和蛹期两组数据,即{x_i, y_i} (i=1,2,3,...,n1), {x_j, y_j} (j=1,2,3,...,n2)

使用卵期的数据,进行bootstrap,假设进行了k次,就可以得到:
使用每次bootstrap的数据,可以得到y=a1+b1 T,-a1/b1只有一个(令为c1);第二次bootstrap,又得到一个-a1/b1(令为c2),如下相同。最后可以得到{c1,c2,c3,...,ck}

使用蛹期的数据,进行bootstrap,也假设进行了k次,就可以得到:
使用每次bootstrap的数据,可以得到y=a2+b2 T,-a2/b2只有一个(令为d1);第二次bootstrap,又得到一个-a2/b2(令为d2),如下相同。最后可以得到{d1,d2,d3,...,dk}

我其实是想对比c(使用原始数据-a1/b1,而不是bootstrap得到的数据)和d差异的显著性的,我的问题是:
直接使用方差分析对{c1,c2,c3,...,ck}和{d1,d2,d3,...,dk}可不可以?
R万岁!

19
Isscaliu 发表于 2011-1-20 16:59:31
今天跟同事讨论,甚有启发。总结了两点,同时也有一些疑问。
1)按照我们的理解,方差分析=ANOVA。使用anova比对{c1,c2,c3.....ck}和{d1,d2,d3,....dk}是可以的。实际上这就是一个T-test而已。我同事的观点是虽然两个model之间存在关联性,但你bootstrap完之后你实际上可以理解为这种关联性已经不复存在(相当于你第一个model和第二个model之间用完全不同的data。或者说你两个实验同时进行观测不同个体。)变成independent。但是我的观点是如果这这样的话,实验里边明显个关联性就没有了,好像不太consistent。所以我其实还是偏向于分析c-d。
2)回头自己想了想,看起来两个方法都比较resonable。不过具体还是要看你怎么个bootstrap法。你直接bootstrap x 和 y,那就要preserve model之间的关联性比较好。但是你bootstrap fitted 和 residual的话,那就可以看成真真正正的independent了。大使具体效果怎样,我也很有兴趣,估计周末有时间我就跑跑两种方法比较比较,然后上来分享!
已有 1 人评分学术水平 热心指数 收起 理由
peijianshi + 1 + 1 精彩帖子

总评分: 学术水平 + 1  热心指数 + 1   查看全部评分

It was the best of times, it was the worst of times.

20
peijianshi 发表于 2011-1-20 20:07:51
非常感谢!
根据我们使用其它的统计方法,得出的结论是两者不存在显著性差异。我直接对x,y    bootstrap是存在显著性差异。
看看您的结果。
R万岁!

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-26 13:24