楼主: lianqihappy
4065 0

[学习分享] 目前统计学在国内外的发展现状是怎样的?都有哪些分支?(转) [推广有奖]

  • 0关注
  • 22粉丝

教授

1%

还不是VIP/贵宾

-

威望
0
论坛币
3130 个
通用积分
1.0061
学术水平
59 点
热心指数
50 点
信用等级
44 点
经验
12628 点
帖子
467
精华
3
在线时间
90 小时
注册时间
2015-3-13
最后登录
2016-8-29

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

首先,“统计学的发展现状是怎样的?都有哪些分支?”

1. 在回答之前,先要澄清一下统计学是什么。统计学是以数据为对象的一门科学。可以把它归类为形式科学(formal science,像数学、逻辑学、系统论),因为它的研究领域是抽象的形式(abstract structures)。另外有些人认为它是自然科学或社会科学,因为它研究了自然科学的问题或者社会领域的问题。但是如何分类并不重要。

        统计学的方法论里有一部分内容是抽象的形式为研究对象,比如中心极限定理,比如正态分布,这些内容是无法证伪的,因为它是按照严格的逻辑关系推导出来的,是数学的一个分支,是一种逻辑体系。而另外一部分内容,尤其是贝叶斯主义兴盛之后,则是可以证伪的。比如我先观察了飞机起飞的间隔大约是五分钟,然后预测下一班飞机将于五分钟后起飞。这个统计推断就是可证伪的。所以非要把统计学归为某类科学没什么意义,知道它是研究数据的科学就够了。

话题回来。我们大概追溯一下现代统计学的发展。统计方法可以追溯到很早,几乎在计数方法被发明的时候就有了原始的统计方法。到了16世纪,由于掷筛子赌博的兴盛(据说),学者们开始研究点数的频率,推算概率。这是早期的概率论。与此同时,政府为了增强控制力需要了解人口的特征。学者们发展了国情学,开始应用在人口统计上,比如男女性别。统计方法以概率论和国情学为两个方法论的源头,有了进一步的发展。

        统计方法发展成为现代(数理)统计学,则是更近的事。17、18世纪的数学家继续发展了概率论,为现代统计学的奠定了部分理论基础。这其中就有数学家Thomas Bayes,他在18世纪中期提出条件概率的贝叶斯公式之后,他并不知道会给统计学带来多大的变化。

下面这幅图是Pearson的老婆为他的学术著作画的插页(1),主题就是:Chance of death。从左到右意思是人从出生到老要经历不同的死亡风险。不知道为什么采用桥这个元素,有可能是听过奈何桥的传说??

Pearson之后,统计学就发展得非常快了:Spearman、Bonferroni、Neyman、Tukey、Cox、Box等等,基本上我们现在常用到的工具在1950s之前已经被发展的比较完备了。在这之后,比较大的变化是贝叶斯主义的兴盛。

1950s,统计学家内部还是一边倒地偏向frequentist。不过城堡都是从内部被攻破的。当时Irving Good还跟同事打了赌,他预测贝叶斯理论将成为统计思想的主流,同事则坚信频率主义。后来事实的发展支持了Good (2)。

        我说一点对于贝叶斯主义的理解(很有可能是根本不着调的,但。。。不管了!)
        在贝叶斯主义之前,使用prior knowledge是不规范的。你必须比较确切地知道某个随机事件发生的概率,才能用它来计算一些东西。怎么知道呢?你得去吭哧吭哧统计这个随机事件发生的频率,如果遇到一个很大的总体,那可能等你统计出来人家的paper早发了。贝叶斯主义者比较简单粗暴,根据一些prior knowledge,直接给概率赋值。看似武断,其实大大拓展了统计学的发展和应用空间。

        因为建筑在各种prior knowledge基础上的统计推断,天然具备了可证伪性,比如我们前面举的例子:“五分钟后飞机起飞”这个推断。要检验这一点非常直接:你只需要再观察五分钟即可。如果起飞了,说明我们的推断是还算准确的,如果没起飞,说明我们用的prior有问题,要修改它的值,然后再做下一次的统计推断。如果是frequentist,他会搭好观察台,在机场长期观察各类型飞机的起飞时间和架次,统计出来比较精确的频率,然后再做推断。这个时候人家Bayesian早迎娶白富美走上人生巅峰了!

        你可以把贝叶斯主义看做“尺蠖式”前进:往前两步再后退一步,后退是没有问题的,马老师说过这叫“螺旋式上升”,毛老师说过撤退就是转进嘛!关键是要行动:大量应用prior knowledge和贝叶斯定理,做出推断,然后再根据观察去修正prior knowledge。

        统计学的历史简单介绍到这里(还是挺啰嗦的T^T....)下面开始回答问题(这次是认真的....)

2. 统计学可以这样划分:理论统计学和应用统计学。
  •                         统计学的基础理论包括概率论、实分析、线性代数、asymptotic theory 等等数学内容。现在又包括了computational statistics。Computational statistics发展了bootstrapping、Monte Carlo simulation这些新的方法,在计算机被发明以前,这些技术是没法想象的,因为计算量太大了(不太确定computational statistics是否应该放在理论统计学里,不过这个不重要)。

  •                         应用统计学基本分为两大块:descriptive statistics 和 inferential statistics。前者是从总体中抓样本数据进行描述,后者是通过对于样本的分析对总体的特征进行推断。

        这样直观的记忆比较好:
        前者:population ---> sample
后者:sample ---> population

从population到sample,这个是以使用概率论为主。不过descriptive statistics本身并不发展新的理论知识。从sample到population,这个才是应用统计学的重要目的。因为统计学面对的是随机事件,而且是不完整的信息(sample),但要对完整的世界(population)做出估计。

        划分理论统计学和应用统计学意义也不是很大。统计学起源之一是国情学,这就注定了“应用”的基因。但是现在科学进步这么快,而一部分人对理论研究更感兴趣,说不定就突然发现新的方法打开了一片新天地。对这些新方法加以应用,统计学才得以保持旺盛生命力,过去五十年不正是这样吗?

        统计学经过漫长的发展,尤其是计算机的大量应用,目前包括但不限于下面这些分支(或者交叉领域):
  •                         理论研究:概率论(比如stochastic process),计算统计理论(比如asymptotic theory,在CS系的computational theory下面)当然应该包括很多我听也没听过的理论知识(搞应用的伤不起。。。),这里就没法列举了。
  •                         统计模型(在前人基础上继续发展各种regression model,stratification,clustering,blocking,classification等等)、各种test的发展(比如time series,likelihood ratio test, Wald test, permutation test 等等)。
  •                         计算统计方法的发展(比如Monte Carlo simulation,Bootstrap)
  •                         数据采集(census,survey和clinical trial等)
  •                         生物统计(比如longitudinal analysis, spatial analysis)
  • machine learning
  •                         data mining

目前最火热的学科都是跟计算机结合比较紧密的。统计学领域也不例外,data mining 和 machine learning都是一出生就建立在统计学(和概率论)基础之上的,现在大量的人在做这个。而解决的实际问题包括:卫生、环境、行为等等。比如你的每一次点击都部分地决定了Google将要给你投放什么样的广告,你的每一个手机使用行为都部分地决定了苹果下一款手机的开发方向。这里面海量的数据的搜集、统计分析、行为分析,都是以统计学为核心的。(PS:上述研究分支的分类也不是很完备,欢迎多多补充!尤其是各个分支搞前沿研究的PhD们,可以在评论里留下各自有趣的方向,我一一补充进来。不管学有所成还是刚上本科,我们都可以充分共享信息!)

3. 如果要高屋建瓴地评价各个分支的“研究现状和研究前沿”,有这个能力的人估计也不多,也不会来知乎,那个已到了methodological philosophy的层面。

        但我们还是有间接的方法——通过阅读top journal知道行业内现在流行的研究趋势和最新的进展。统计领域的top journal包括下面这些(3,4):
  • Journal of American Statistical Association (JASA )
  •                         Biometrika (Bka )
  •                         Journal of Royal Statistical Society (Series B, and Series A) (JRSB, JRSA)
  •                         The American Statistician (AmSt )
  •                         Survey Methodology (SrvM )
  •                         Annals of Statistics (AoS )
  •                         Journal of Official Statistics (JOS )
  •                         Biometrics (Bcs )
  •                         International Statistical Review (ISR )
  • 另外还有计量经济学领域的Econometrica也是统计学家们会去投的top journal。 PS:经济学领域投这个比投AER还难。。。吧?

        有兴趣的可以结合自己的背景去翻一翻最新的期刊。

4. 送给留学党:北美的统计系PhD项目,一般在数学系下面或者统计系下面(有一些在商学院的运筹学系)。好一点包括:Stanford,UC Berkeley,Harvard,NYU (专指Courant),MIT,U Washington, Johns Hopkins, Chicago, Princeton, CMU, UPenn等等, 还有加拿大的UBC。US NEWS每年都做美国的统计系排名: Best Statistics Programs,可以作为参考。当然也欢迎大家来读生物统计系,一般是在公共卫生学院,学生的背景比较多样,学生物的学医学的学统计的都不少,也有个别像我这样从经济系过来的(异端T^T)。最好的学校有John Hopkins, Harvard school of public health, Columbia (Mailman school),北卡教堂山。加拿大的UBC也不错,医学院和统计系都挺强。一般来说,统计系好的学校生物统计也不差,大概是因为教师资源可以共享吧。

=========================生物统计的热点========================

先讲一个spatial analysis的小故事,来作为后面介绍Bayesian disease mapping的引子。同时也希望更多的人关注这个问题,这是统计领域目前很火也很有发展潜力的一个方向!而且这是个交叉领域,数学、CS、流行病学、地球科学、经济学都可以有很强的input

尽管已经经历了工业革命,19世纪的英国对于公共卫生的重视还远远不够,各种烈性传染病时有发生。1840s末期,伦敦又爆发了严重的霍乱疫情,不少人死去。

        当时主流的理论认为霍乱是靠“肮脏的空气”传染的。但是又怎么可能识别和隔离“肮脏的空气”呢?所以当时对霍乱的预防其实是毫无办法的——理论的误导太严重了。一个年轻有为的医生,John Snow,这时已经是伦敦皇家外科医学院和伦敦皇家内科医学院的双料成员,盯上了这个问题。他不太相信空气传播霍乱的说法,认为水里携带的细菌才是主因。他用几年时间,走遍伦敦进行调研和病情记录,绘制了一系列的点图。比如:

        从图中可以清晰看到,霍乱的发生跟地点的关系很大,呈中心发散型。这就很大程度上挑战了“空气传染”说,因为如果是空气传染的话,霍乱的发生应该是比较均匀的才对。同时这个研究也提供了很强的证据支持霍乱是水传播的。就在图的中心,Snow将传染源锁定为一个公共抽水机(从被污染了的泰晤士河里取水),并说服政府将抽水机挪走。尽管这个研究后来还有一些波折,这里按下不表,无论如何,Snow的工作大大开拓了当时的研究视野。

        这就是Snow锁定的抽水机,现在已经成了一个地标:

        这就是早期的最有影响力的spatial analysis的研究!从中可以受到启发,关键的是两块信息:
1. 某个outcome (eg 霍乱的发生)
2. 地理位置

        这个outcome可以千变万化,疾病发生率,死亡率,收入水平,就业率,入学率等等。地理位置也可以上至大洲大洋,下至左邻右坊,可以是单中心,也可以多中心,可以有不同类型的分布,不同的方差,等等等等。当信息量超过一定程度,又需要更好用的数学模型,更有效率的算法,更强大的硬件……所以这个领域能结合各学科知识,能重新诠释很多问题。就像课上老师说的:given enough data, with spatial analysis you could act like a God!

故事讲完。

        我们已经得到了一个信息:疾病的发病率跟地理位置是相关的,所以spatial analysis在生物统计方面应该是大有用处的。但是以前这方面的研究很少,没别的,就是缺少数据。不是每个人都肯像Snow那样跑遍伦敦——所以他四十多岁就累死了。。。

要应用spatial analysis在疾病的统计上,需要两门核心基础课:longitudinal data analysis和Bayesian Biostatistics (更基础一点的课比如400 level的就不提了)。

1. longitudinal data analysis
最好的教材,由浅入深依次是:
  • 1. Hedeker, Donald, and Robert D. Gibbons. Longitudinal data analysis. Vol. 451. John Wiley & Sons, 2006.
  •                         2. Fitzmaurice GM, Laird NM, and Ware JH. 2011. Applied Longitudinal Analysis (2nd Edition). Wiley.
  •                         3. Diggle PJ, Heagerty P, Liang KY, and Zeger SL. 2002. Analysis of Longitudinal Data (2nd Edition). Oxford University Press.

        Hedeker的教材语言平易,容易入门。Fitz的书覆盖面很广。Diggle最难,但公式和推导都给得很全,是最严谨的。

2. Bayesian Biostatistics
参考书目是:
  • 1. Berry DA and Stangl DK (eds). Bayesian biostatistics. Taylor & Francis, New York
  •                         2. Carlin BP and Louis TA. Bayes and empirical Bayes methods for data analysis. Chapman & Hall, New York.
  •                         3. Gelman A, Carlin JB, Stern HS, and Rubin DB. Bayesian data analysis. Chapman & Hall, New York
  •                         4. Congdon P. Bayesian statistical modeling. Wiley, New York.
  •                         5. Andrew B Lawson. Bayesian disease mapping. Chapman & Hall, New York

我们老师主要用的是Berry和Lawson的。这里重点推荐一下Lawson的书给所有学统计的朋友,语言简单易懂,理论与实践的应用结合得很好,关键是做disease mapping是统计学和公共卫生交叉的一个未来研究趋势,在北美已经做了不少了,中国在这一块潜力很大。(不过要吐槽一下,现在国内像样的数据还没有。大城市也只是有全病因mortality的location数据而已,数据量少、单一,而且还不公开)

        在这两门课掌握好之后,就可以开始Bayesian Disease Mapping的入门了。

1. 先看看“别人家的孩子”。
        北美的disease mapping开始得早,所以应用的也早。比如加拿大的British Columbia省,就有这个很好的官网(要安装 Microsoft Silverlight):
  • iMapBC

在网页地图里选择某种outcome(比如心脏病),很快就会显示这个outcome在各地的发病率是多少,非常直观,很容易看到跟location的关系,从而有助于政府制定相关的预防措施。

2. 目的。我们能用disease mapping干什么?
  •                         了解疾病在各地的发生
  •                         预测各地的疾病发生率
  •                         测量地区之间在疾病发生率上的差异
  •                         总结数据的“pattern”,看看有什么规律没有

        这一切都是为了能够更好的评估各地的health service outcome,从而将有限的资源更加合理地分配,实现最大化的效用。比如蒙古和卢旺达在Ebola上的发病率肯定是显著不同的,联合国要援助,显然是要先援助卢旺达。但是卢旺达和纳米比亚相比?这就需要更加精细的spatial analysis了

3. 数据。
        要做成iMapBC里面的效果,必须要有足够丰富的数据。NASA data是一个好的来源(data.nasa.gov)。柴静那个片子里面用到NASA的图片来说明问题应该是有人指点过吧,思路挺对的,虽然不够严谨,但没关系。真正要深入研究还是要先define一个良好的问题,然后从NASA下载数据,用统计学手段好好分析。当然也不一定局限于NASA的数据。考古学、地质学的数据,都可以拿来应用,只要能拿来数据!

        比如这篇堪称丧心病狂的农业经济学文章:
Bowles, Samuel, and Jung-Kyoo Choi. "Coevolution of farming and private property during the early Holocene." Proceedings of the National Academy of Sciences 110.22 (2013): 8830-8835.
用了考古数据——四万年的地表温度数据,来估计当时原始人的迁徙,以及对于农业和私有制产生的影响。四万年!!!

        那我们一般需要什么样的data呢?
        最好是这样的:
  •                         来自于一个大型的有很多观察结点的follow-up study,这样就可以使用longitudinal analysis看看时间跟发病率之间有什么样的关系。
  •                         数据结构有几个hierarchy,比如省、市、医院、个体四级,这样就可以使用Bayesian hierarchical
  •                         model
  • 地位信息是完备的(spatial data),这样就可以使用spatial analysis。

        一般是没有这么理想,但是即便只满足一个要求,也是质量很不错的data了。

        其中spatial data是非常有趣的:
  •                         可以是John Snow那样的静态位点信息;
  •                         可以是动态的位置连续变化,比如汽车的移动;
  •                         还可以是Lattice data,这是以区域为单位的一块一块的数据,就像这样:

4. 模型。
        我们现在有一些常用的模型去处理disease mapping。比如:
  • Mixed effects model for longitudinal data (5)
  • Bayesian hierarchical model (intrinsic conditional autoregressive, iCAR)(6)
  • spatial model. Eg. BYM model (7)

        还有一些不太常用的。模型就不在这里展开了,提供了模型的文献,有兴趣的可以随意观赏。但是我建议把例子看一下。

        这是BC省的injury情况的Bayesian spatial analysis (8),图是这样的:

        而通过下面这个图,又能看到从1991-2000的变化:


        第二个例子是英国的一个地区:喝酒引起的死亡率的spatial analysis (9),如图:


5. 未来发展的方向。
        随着更先进的卫星、更庞大的监测体系、更长跨度的跟踪,我们会有更加丰富也更加复杂的数据,体现在:
  • Areal data:现在往往是以省、市为单位做Bayesian spatial analysis,将来一定囊括比现在更广阔的地区;
  • Multilevel data:现在基本是三级数据已经很难得,将来的数据会有更多的层级;
  • Dynamic

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:发展现状 统计学 国内外 Longitudinal biostatistic abstract 正态分布 自然科学 science formal

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-1 07:17