楼主: peijianshi
7278 21

关于bootstrap的一个问题(高手请进入) [推广有奖]

  • 0关注
  • 16粉丝

已卖:352份资源

副教授

80%

还不是VIP/贵宾

-

威望
0
论坛币
638 个
通用积分
2.3662
学术水平
12 点
热心指数
12 点
信用等级
5 点
经验
15373 点
帖子
636
精华
0
在线时间
568 小时
注册时间
2010-3-11
最后登录
2022-9-8

楼主
peijianshi 发表于 2011-1-18 11:20:52 |AI写论文
1论坛币
诸位高手,现在俺遇到一个不大不小的问题:
有两组数据集,分别使用线性回归尽心拟合,相应得到两个回归公式
Line 1:     y=a1+b1x                      (1)
LIne 2:     y=a2+b2x                      (2)

现在想比较b1和b2有没有显著性差异!注意:我已经找到协方差方法可以处理。现在的问题只是关于bootstrap的问题。
使用bootstrap,我们可以得到许多的模拟样本的b1值,根据模拟样本的b1值计算其均值和标准差进而可以推算公式中b1的标准差;同理,亦可得到一组b2的模拟样本值。现在我需要提出的问题是:

能够直接使用模拟样本的b1和模拟的样本b2直接使用方差分析,来比较两个公式中b1和b2的估计值有没有显著性差异呢?

请高手不惜赐教!

关键词:Bootstrap Bootstra boots Trap boot 高手 Bootstrap

回帖推荐

Isscaliu 发表于19楼  查看完整内容

今天跟同事讨论,甚有启发。总结了两点,同时也有一些疑问。 1)按照我们的理解,方差分析=ANOVA。使用anova比对{c1,c2,c3.....ck}和{d1,d2,d3,....dk}是可以的。实际上这就是一个T-test而已。我同事的观点是虽然两个model之间存在关联性,但你bootstrap完之后你实际上可以理解为这种关联性已经不复存在(相当于你第一个model和第二个model之间用完全不同的data。或者说你两个实验同时进行观测不同个体。)变成independent。但是我 ...

Isscaliu 发表于16楼  查看完整内容

let(-a1/b1)=c and (-a2/b2)=d 如果通过bootstrap得到c的sampling distribution{c1,c2,c3.......}的mean mu(c)和SD std(c), 同理有{d1,d2,d3....}的mu(d)和std(d)。由于你的实验设计的原因,c1和d1,c2和d2,如此类推应该是配对的。但是如果依照一般的bootstrap用mu(c),std(c),mu(d),std(d)的信息来求导CI的话,貌似model之间的independency就有点打乱了,甚至不复存在(感觉就像two-sample T 和pair-T一样,pair-T,huh,倒是 ...

Isscaliu 发表于14楼  查看完整内容

第一)n大于等于30就可以了 第二)iteration基本上一千以上就足够了,多了基本上就是浪费时间 第三)就bootstrap而言基本上有parametric 和 non-parametric两种(俺所知道的并接触过的),具体不做解析,wiki一下就可以了。个人觉得你的情况和实验设计比较适合做non-parametric的。 第四)就回归而言,你要考虑的是模型的显著性,再考虑a和b的显著性。另外,你要明白regression做bootstrap的话,你的bootstrap sampling distrib ...

本帖被以下文库推荐

R万岁!

沙发
windlove 发表于 2011-1-18 11:34:02
两组数据: were they from same sample or not? If not, or say they are independent, for what reason you compare the coefficient between them ??

If they are from the same sample. You can code them as 0 for sample 1 or 1 for sample 2 and make this as one variable in you data. Using ANOVA, you can compare them directly  without bootstrappintg if they are "normal" enough.

If they are not "normal" enough, or skewed, then you can use bootstrap to test whether the coefficient of that coded variable is significant or not.

藤椅
peijianshi 发表于 2011-1-18 13:53:17
谢谢!
但是你还没有回答我的问题。一组数据来源于温度(x)对卵期发育速率(y, 即完成卵期的所需时间)的影响,另外一组来源于问对对蛹期发育速率的影响。大量观察证明在适温范围内,发育速率是温度的线性函数。
卵期:y=a1+b1 x
蛹期:y=a2+b2 x
其实我并不是想对比b1和b2,而是要对比 - a1/b1和 - a2/b2,它们代表一种有生物学意义的温度(直线和x轴的截距)。


我使用bootstrap,来sample卵期的数据,假设做了1000次,使用回归,自然可以得到1000个-a1/b1;同理,sample蛹期的数据,可以得到1000个-a2/b2。那么我的问题其实是对比1000个-a1/b1的值和1000个-a2/b2的值,做了方差分析,发现存在显著性差异。能够就可以说上边谈到的-a1/b1和-a2/b2(注意:不是使用bootstrap得到的模拟值再回归得出系数,而是对原始数据进行回归,得到的回归系数)存在显著性差异呢?

都是残差符合正太分布的。

明白我的问题了吗?
R万岁!

板凳
windlove 发表于 2011-1-18 14:35:08
As I said, if they were completely different experiments. Then there is no reason to do so, because they are indenpendent to each other, not comparable.

If exact the same temperature X, resulted in different rates of development of Y1 and Y2, then  your approach seems reasonable to me.  However as I have no knowledge in your field, so I cannot tell whether the approach is appropriate to your analysis

All simply, you could just standardise temperature effect, say Y1/X, and Y2/X, and make the comparison.

报纸
zhangtao 发表于 2011-1-18 16:01:59
我觉得你的样本是小样本,用bootstrap进行估计出的效果应该比原始数据的要好,更有说服力。
另外,我对4楼朋友的说法有异议,来自不同总体的样本还是有可比性的。

地板
windlove 发表于 2011-1-18 16:53:11
zhangtao 发表于 2011-1-18 16:01
我觉得你的样本是小样本,用bootstrap进行估计出的效果应该比原始数据的要好,更有说服力。
另外,我对4楼朋友的说法有异议,来自不同总体的样本还是有可比性的。
Offcoz we can compare two samples. But what he wanted was to provide two regressions from those two different samples (if they were from different experiments), and compare ratio of regression coefficients between those two regressions.  If those two experiments were completely differently designed, I don't think such approach is appropriate.

7
peijianshi 发表于 2011-1-18 21:15:26
请注意!!!
是同一种虫子,饲养的阶段不同,也就是说,第一组数据是虫子在卵期的数据,而第二组则是虫子长大了,在蛹期的数据!!!虫子一般要经历卵期、蛹期、幼虫期。但是每个发育阶段,发育速率的数据肯定是不同的,尽管都是在饲养在相同的问题条件下。
现在要对比的是-a1/b1和-a2/b2!!!
我问的问题是能不能用bootstrap得到的不同的两组值直接使用方差分析对比关心的两个参数的显著性,能还是不能?请直接回答我,不要兜圈子。
R万岁!

8
peijianshi 发表于 2011-1-18 21:15:59
肯定是同一个试验的不同阶段罢了。
R万岁!

9
peijianshi 发表于 2011-1-18 21:17:59
同一个温度下有50~100个样本,共有6个温度。
R万岁!

10
peijianshi 发表于 2011-1-18 21:21:32
只看第一个sheet就可以了。奇数栏为自变量,偶数栏为因变量。共三个阶段,现在要对比三个阶段-a1/b1, -a2/b2, -a3/b3

例如,使用前两栏数据回归 y=a1+b1x
R万岁!

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-26 04:14