R在宏基因组后期分析中的应用
肠道微生物越来越被重视,宏基因组的研究表明它跟多种疾病是有关系的,比如糖尿病,冠心病,脂肪肝等等。由于宏基因提示了肠道微生物和疾病的关系,最近针对通过调整肠道菌群达到治疗目的的尝试也越来越多,并且它的研究成果正在走入我们的生活,比如粪便移植治疗克罗恩病(IBD),脓血便的人治疗后完全看不到脓血便了,相关指标也好转了。胃转流手术治疗重度肥胖,BMI从40+恢复正常人24的水平。前景非常可观。
宏基因组的研究也越来越热,但是由于进入门槛相对较高,只有有实力的几家可以做,大部分时候,菌群的研究还停留在在16s分析的层面。宏基因组是比16s更有优势的,能在基因(gene),功能(function)层面揭示菌群(species)的变化,而16s本身对菌群分布估计就不准,它也只能提供不是很准确的属(genus)水平的菌的分布。
所有的分析,前提多是要有思想的,R只是一个工具。R是宏基因分析的软件。由于R是强大的免费的统计软件,CNS上的文章大部分的分析或者图形的展示多是通过R来呈现的。
Article 1 Persistent gut microbiota immaturity in malnourishedBangladeshi children.( doi:10.1038/nature13421)
Abstract: 这篇文章主要是说得病的小孩的肠道成熟年龄比正常小孩的肠道年龄要小。这里有意思的是他们对正常小孩的肠道成熟年龄的定义,由于他们准确的捕捉到小孩的肠道菌群的变化是和年龄相关的(70%解析度,右下角的图就可以看出来),所以他们通过统计模型(随机深林)建立了肠道和年龄的联系,用建立的模型就可以预测得病小孩的年龄,他们把预测出来的年龄叫做肠道的年龄,的确也可以这么叫,因为这个年龄只是跟肠道微生物有关。
1这个图是完全可以通过R重现的,整个模型用randomForest package的randomForestfunction就可以建立肠道和年龄的关系:
Rf=randomForest(age~. , data=species, ntree=1000,importance=T)
解析度: mean(RF$rsq)
2a图:然后通过crossvalidation 得到跟年龄最相关的物种(相关性通过importance index来衡量),比如这里取出的是跟age最相关的30个物种:
names(sort(Rf$importance[,1],dec = TRUE))[1:30]
barplot(…)
3b图:这个图简单了,横坐标是age,纵坐标是预测的age,画一个平滑曲线,当然颜色要自己挑整:
loess.smooth(age,Rf$predicted,…)
4c图:我们把c图用到的数据叫做丰度矩阵(行:物种;列:样品;),取出30个物种,并将样品按照age排序,通过heatmap.2函数就可以画出C图,当然数据要做一些归一下的处理,才能让颜色显示的这样好看:
Library(gplots)
Heatmap.2(species,…..)
Article2 : The Treatment-Naive Microbiome in New-Onset Crohn’s Disease(Cell Host &Microbe)
Abstract:这是一篇关于新发克罗恩病的case-control study。里面既有16s也有metagenomics。 IBD已经被研究的很久了,病人和健康人的肠道菌群是差别很大的。里面提到了使用了抗生素的病人,肠道变得更糟糕。病人不同部位的菌群还不一样。
1 A图:这个是经典的PCA图,根据表型给不同的颜色。
Princomp(….)
2 B图:这个是挑选出来的markerfold change图,挑选marker方法很多,简单的就是两组独立样品t检验
t.test(case,control)
barplot(….)
。。。。。后面还有更多的文章就不说。。。。。。。。。
如果谁想进一步了解metagenomics或者16s,可以联系我~~~~
QQ:821724410 (请注明Meta)