在下为stata菜鸟,目前在研究基因对疾病的影响,现在如下数据:
y x1 x2 x3 x4 ... x1000
0 0 1 0 1 ... 0
0 1 1 1 1 ... 0
1 0 0 1 0 ... 0
0 1 1 0 0 ... 1
... ... ... ... ... ...
1 1 1 1 0 ... 1
1 1 1 1 1 ... 1
1 1 0 1 1 ... 0
0 0 0 0 0 ... 1
1 0 1 0 1 ... 0
其中因变量y为是否患病,自变量x为基因类型(共有1000种不同基因),在回归模型中每次仅使用一个自变量xi对y进行回归,以判断其是否对y有显著影响(当然还有其它控制变量,从略),故需要做1000次logit回归。回归结束后,需要将对y没有有显著性影响(5%显著水平)的变量xi删除,将有显著性影响的xi列成一个表,并标出其回归p值。
以上过程的运算量很大,手工难以完成,需要运用stata编程才行解决。在下从未用stata编过类似程序,束手无策,恳请版上的stata高手花些时间提供一下参考程序,万分感谢!


雷达卡




京公网安备 11010802022788号







