最近在做老师给的一个课程作业,其中遇到一些问题。希望有人能够帮忙解决。
有一组数据一共有128个人,其中包括60个patient with colorectal cancer,其他68个是control组的。对每个人的48个genes的基因表达程度进行了收集,得到相关数据。要分析出来那个基因会影响cancer。
老师给出了一种方法。就是先分别对每个基因进行rank。分别选取top 25%,50%,75%和bottom25%,50%,75%的patient和control的数据来做6组two sample t test。这样会得到6组t值,选取最大的那个t值的选取数据作为代表。
然后relable patient和control组,按照上述方法继续求t值,relable了1000次。计算出了所有大于第一次t值的次数n,p值就是n/1000。这时候在0.05的情况下有5组基因是显著的。
然后用multiple testing中的修正t值,用FDR求出ajust p值,可是在这个时候在0.05的情况下没有基因是显著了。
现在要改进这个方法,求问还有些什么统计方法可以找出patient和control组的那些基因会影响cancer啊。还有就是关于那个rank 25% 50% 75%的方法 有什么优点啊。我自己感觉可以直接用最简单的two sample test做检验出来p value 在用FDR做adjust p value啊~~~~
求大神指导