首先,“统计学的发展现状是怎样的?都有哪些分支?”
1. 在回答之前,先要澄清一下统计学是什么。统计学是以数据为对象的一门科学。可以把它归类为形式科学(formal science,像数学、逻辑学、系统论),因为它的研究领域是抽象的形式(abstract structures)。另外有些人认为它是自然科学或社会科学,因为它研究了自然科学的问题或者社会领域的问题。但是如何分类并不重要。
统计学的方法论里有一部分内容是抽象的形式为研究对象,比如中心极限定理,比如正态分布,这些内容是无法证伪的,因为它是按照严格的逻辑关系推导出来的,是数学的一个分支,是一种逻辑体系。而另外一部分内容,尤其是贝叶斯主义兴盛之后,则是可以证伪的。比如我先观察了飞机起飞的间隔大约是五分钟,然后预测下一班飞机将于五分钟后起飞。这个统计推断就是可证伪的。所以非要把统计学归为某类科学没什么意义,知道它是研究数据的科学就够了。
话题回来。我们大概追溯一下现代统计学的发展。统计方法可以追溯到很早,几乎在计数方法被发明的时候就有了原始的统计方法。到了16世纪,由于掷筛子赌博的兴盛(据说),学者们开始研究点数的频率,推算概率。这是早期的概率论。与此同时,政府为了增强控制力需要了解人口的特征。学者们发展了国情学,开始应用在人口统计上,比如男女性别。统计方法以概率论和国情学为两个方法论的源头,有了进一步的发展。
统计方法发展成为现代(数理)统计学,则是更近的事。17、18世纪的数学家继续发展了概率论,为现代统计学的奠定了部分理论基础。这其中就有数学家Thomas Bayes,他在18世纪中期提出条件概率的贝叶斯公式之后,他并不知道会给统计学带来多大的变化。
下面这幅图是Pearson的老婆为他的学术著作画的插页(1),主题就是:Chance of death。从左到右意思是人从出生到老要经历不同的死亡风险。不知道为什么采用桥这个元素,有可能是听过奈何桥的传说??Pearson之后,统计学就发展得非常快了:Spearman、Bonferroni、Neyman、Tukey、Cox、Box等等,基本上我们现在常用到的工具在1950s之前已经被发展的比较完备了。在这之后,比较大的变化是贝叶斯主义的兴盛。
1950s,统计学家内部还是一边倒地偏向frequentist。不过城堡都是从内部被攻破的。当时Irving Good还跟同事打了赌,他预测贝叶斯理论将成为统计思想的主流,同事则坚信频率主义。后来事实的发展支持了Good (2)。
我说一点对于贝叶斯主义的理解(很有可能是根本不着调的,但。。。不管了!)
在贝叶斯主义之前,使用prior knowledge是不规范的。你必须比较确切地知道某个随机事件发生的概率,才能用它来计算一些东西。怎么知道呢?你得去吭哧吭哧统计这个随机事件发生的频率,如果遇到一个很大的总体,那可能等你统计出来人家的paper早发了。贝叶斯主义者比较简单粗暴,根据一些prior knowledge,直接给概率赋值。看似武断,其实大大拓展了统计学的发展和应用空间。
因为建筑在各种prior knowledge基础上的统计推断,天然具备了可证伪性,比如我们前面举的例子:“五分钟后飞机起飞”这个推断。要检验这一点非常直接:你只需要再观察五分钟即可。如果起飞了,说明我们的推断是还算准确的,如果没起飞,说明我们用的prior有问题,要修改它的值,然后再做下一次的统计推断。如果是frequentist,他会搭好观察台,在机场长期观察各类型飞机的起飞时间和架次,统计出来比较精确的频率,然后再做推断。这个时候人家Bayesian早迎娶白富美走上人生巅峰了!
你可以把贝叶斯主义看做“尺蠖式”前进:往前两步再后退一步,后退是没有问题的,马老师说过这叫“螺旋式上升”,毛老师说过撤退就是转进嘛!关键是要行动:大量应用prior knowledge和贝叶斯定理,做出推断,然后再根据观察去修正prior knowledge。
统计学的历史简单介绍到这里(还是挺啰嗦的T^T....)下面开始回答问题(这次是认真的....)
2. 统计学可以这样划分:理论统计学和应用统计学。
- 统计学的基础理论包括概率论、实分析、线性代数、asymptotic theory 等等数学内容。现在又包括了computational statistics。Computational statistics发展了bootstrapping、Monte Carlo simulation这些新的方法,在计算机被发明以前,这些技术是没法想象的,因为计算量太大了(不太确定computational statistics是否应该放在理论统计学里,不过这个不重要)。
- 应用统计学基本分为两大块:descriptive statistics 和 inferential statistics。前者是从总体中抓样本数据进行描述,后者是通过对于样本的分析对总体的特征进行推断。
前者:population ---> sample
后者:sample ---> population
从population到sample,这个是以使用概率论为主。不过descriptive statistics本身并不发展新的理论知识。从sample到population,这个才是应用统计学的重要目的。因为统计学面对的是随机事件,而且是不完整的信息(sample),但要对完整的世界(population)做出估计。
划分理论统计学和应用统计学意义也不是很大。统计学起源之一是国情学,这就注定了“应用”的基因。但是现在科学进步这么快,而一部分人对理论研究更感兴趣,说不定就突然发现新的方法打开了一片新天地。对这些新方法加以应用,统计学才得以保持旺盛生命力,过去五十年不正是这样吗?
统计学经过漫长的发展,尤其是计算机的大量应用,目前包括但不限于下面这些分支(或者交叉领域):
- 理论研究:概率论(比如stochastic process),计算统计理论(比如asymptotic theory,在CS系的computational theory下面)当然应该包括很多我听也没听过的理论知识(搞应用的伤不起。。。),这里就没法列举了。
- 统计模型(在前人基础上继续发展各种regression model,stratification,clustering,blocking,classification等等)、各种test的发展(比如time series,likelihood ratio test, Wald test, permutation test 等等)。
- 计算统计方法的发展(比如Monte Carlo simulation,Bootstrap)
- 数据采集(census,survey和clinical trial等)
- 生物统计(比如longitudinal analysis, spatial analysis)
- machine learning
- data mining
3. 如果要高屋建瓴地评价各个分支的“研究现状和研究前沿”,有这个能力的人估计也不多,也不会来知乎,那个已到了methodological philosophy的层面。
但我们还是有间接的方法——通过阅读top journal知道行业内现在流行的研究趋势和最新的进展。统计领域的top journal包括下面这些(3,4):
- Journal of American Statistical Association (JASA )
- Biometrika (Bka )
- Journal of Royal Statistical Society (Series B, and Series A) (JRSB, JRSA)
- The American Statistician (AmSt )
- Survey Methodology (SrvM )
- Annals of Statistics (AoS )
- Journal of Official Statistics (JOS )
- Biometrics (Bcs )
- International Statistical Review (ISR )
- 另外还有计量经济学领域的Econometrica也是统计学家们会去投的top journal。 PS:经济学领域投这个比投AER还难。。。吧?
4. 送给留学党:北美的统计系PhD项目,一般在数学系下面或者统计系下面(有一些在商学院的运筹学系)。好一点包括:Stanford,UC Berkeley,Harvard,NYU (专指Courant),MIT,U Washington, Johns Hopkins, Chicago, Princeton, CMU, UPenn等等, 还有加拿大的UBC。US NEWS每年都做美国的统计系排名: Best Statistics Programs,可以作为参考。当然也欢迎大家来读生物统计系,一般是在公共卫生学院,学生的背景比较多样,学生物的学医学的学统计的都不少,也有个别像我这样从经济系过来的(异端T^T)。最好的学校有John Hopkins, Harvard school of public health, Columbia (Mailman school),北卡教堂山。加拿大的UBC也不错,医学院和统计系都挺强。一般来说,统计系好的学校生物统计也不差,大概是因为教师资源可以共享吧。
=========================生物统计的热点========================
先讲一个spatial analysis的小故事,来作为后面介绍Bayesian disease mapping的引子。同时也希望更多的人关注这个问题,这是统计领域目前很火也很有发展潜力的一个方向!而且这是个交叉领域,数学、CS、流行病学、地球科学、经济学都可以有很强的input
尽管已经经历了工业革命,19世纪的英国对于公共卫生的重视还远远不够,各种烈性传染病时有发生。1840s末期,伦敦又爆发了严重的霍乱疫情,不少人死去。
当时主流的理论认为霍乱是靠“肮脏的空气”传染的。但是又怎么可能识别和隔离“肮脏的空气”呢?所以当时对霍乱的预防其实是毫无办法的——理论的误导太严重了。一个年轻有为的医生,John Snow,这时已经是伦敦皇家外科医学院和伦敦皇家内科医学院的双料成员,盯上了这个问题。他不太相信空气传播霍乱的说法,认为水里携带的细菌才是主因。他用几年时间,走遍伦敦进行调研和病情记录,绘制了一系列的点图。比如:
从图中可以清晰看到,霍乱的发生跟地点的关系很大,呈中心发散型。这就很大程度上挑战了“空气传染”说,因为如果是空气传染的话,霍乱的发生应该是比较均匀的才对。同时这个研究也提供了很强的证据支持霍乱是水传播的。就在图的中心,Snow将传染源锁定为一个公共抽水机(从被污染了的泰晤士河里取水),并说服政府将抽水机挪走。尽管这个研究后来还有一些波折,这里按下不表,无论如何,Snow的工作大大开拓了当时的研究视野。
这就是Snow锁定的抽水机,现在已经成了一个地标:
这就是早期的最有影响力的spatial analysis的研究!从中可以受到启发,关键的是两块信息:
1. 某个outcome (eg 霍乱的发生)
2. 地理位置
这个outcome可以千变万化,疾病发生率,死亡率,收入水平,就业率,入学率等等。地理位置也可以上至大洲大洋,下至左邻右坊,可以是单中心,也可以多中心,可以有不同类型的分布,不同的方差,等等等等。当信息量超过一定程度,又需要更好用的数学模型,更有效率的算法,更强大的硬件……所以这个领域能结合各学科知识,能重新诠释很多问题。就像课上老师说的:given enough data, with spatial analysis you could act like a God!
故事讲完。
我们已经得到了一个信息:疾病的发病率跟地理位置是相关的,所以spatial analysis在生物统计方面应该是大有用处的。但是以前这方面的研究很少,没别的,就是缺少数据。不是每个人都肯像Snow那样跑遍伦敦——所以他四十多岁就累死了。。。
要应用spatial analysis在疾病的统计上,需要两门核心基础课:longitudinal data analysis和Bayesian Biostatistics (更基础一点的课比如400 level的就不提了)。
1. longitudinal data analysis
最好的教材,由浅入深依次是:
- 1. Hedeker, Donald, and Robert D. Gibbons. Longitudinal data analysis. Vol. 451. John Wiley & Sons, 2006.
- 2. Fitzmaurice GM, Laird NM, and Ware JH. 2011. Applied Longitudinal Analysis (2nd Edition). Wiley.
- 3. Diggle PJ, Heagerty P, Liang KY, and Zeger SL. 2002. Analysis of Longitudinal Data (2nd Edition). Oxford University Press.
2. Bayesian Biostatistics
参考书目是:
- 1. Berry DA and Stangl DK (eds). Bayesian biostatistics. Taylor & Francis, New York
- 2. Carlin BP and Louis TA. Bayes and empirical Bayes methods for data analysis. Chapman & Hall, New York.
- 3. Gelman A, Carlin JB, Stern HS, and Rubin DB. Bayesian data analysis. Chapman & Hall, New York
- 4. Congdon P. Bayesian statistical modeling. Wiley, New York.
- 5. Andrew B Lawson. Bayesian disease mapping. Chapman & Hall, New York
在这两门课掌握好之后,就可以开始Bayesian Disease Mapping的入门了。
1. 先看看“别人家的孩子”。
北美的disease mapping开始得早,所以应用的也早。比如加拿大的British Columbia省,就有这个很好的官网(要安装 Microsoft Silverlight):
- iMapBC
2. 目的。我们能用disease mapping干什么?
- 了解疾病在各地的发生
- 预测各地的疾病发生率
- 测量地区之间在疾病发生率上的差异
- 总结数据的“pattern”,看看有什么规律没有
3. 数据。
要做成iMapBC里面的效果,必须要有足够丰富的数据。NASA data是一个好的来源(data.nasa.gov)。柴静那个片子里面用到NASA的图片来说明问题应该是有人指点过吧,思路挺对的,虽然不够严谨,但没关系。真正要深入研究还是要先define一个良好的问题,然后从NASA下载数据,用统计学手段好好分析。当然也不一定局限于NASA的数据。考古学、地质学的数据,都可以拿来应用,只要能拿来数据!
比如这篇堪称丧心病狂的农业经济学文章:
Bowles, Samuel, and Jung-Kyoo Choi. "Coevolution of farming and private property during the early Holocene." Proceedings of the National Academy of Sciences 110.22 (2013): 8830-8835.
用了考古数据——四万年的地表温度数据,来估计当时原始人的迁徙,以及对于农业和私有制产生的影响。四万年!!!
那我们一般需要什么样的data呢?
最好是这样的:
- 来自于一个大型的有很多观察结点的follow-up study,这样就可以使用longitudinal analysis看看时间跟发病率之间有什么样的关系。
- 数据结构有几个hierarchy,比如省、市、医院、个体四级,这样就可以使用Bayesian hierarchical
- model
- 地位信息是完备的(spatial data),这样就可以使用spatial analysis。
其中spatial data是非常有趣的:
- 可以是John Snow那样的静态位点信息;
- 可以是动态的位置连续变化,比如汽车的移动;
- 还可以是Lattice data,这是以区域为单位的一块一块的数据,就像这样:
我们现在有一些常用的模型去处理disease mapping。比如:
- Mixed effects model for longitudinal data (5)
- Bayesian hierarchical model (intrinsic conditional autoregressive, iCAR)(6)
- spatial model. Eg. BYM model (7)
这是BC省的injury情况的Bayesian spatial analysis (8),图是这样的:
而通过下面这个图,又能看到从1991-2000的变化:
第二个例子是英国的一个地区:喝酒引起的死亡率的spatial analysis (9),如图:
5. 未来发展的方向。
随着更先进的卫星、更庞大的监测体系、更长跨度的跟踪,我们会有更加丰富也更加复杂的数据,体现在:
- Areal data:现在往往是以省、市为单位做Bayesian spatial analysis,将来一定囊括比现在更广阔的地区;
- Multilevel data:现在基本是三级数据已经很难得,将来的数据会有更多的层级;
- Dynamic