统计学主要区分为描述性统计与推断性统计。也有一些学者区分为理论统计与应用统计。两者有些交叉融合,既有区别又有联系。
1.从概念界定来看
理论统计学是统计学的一个分支,它是把研究对象一般化、抽象化,以概率论为基础,从纯理论的角度,对统计方法加以推导论证,中心的内容是统计推断问题,实质是以归纳方法研究随机变量的一般规律。理论统计学包含的内容很多,例如统计分布理论,统计估计和假设检验理论,相关与回归分析,方差分析,时间序列分析、随机过程理论等。
应用统计学强调的是统计学理论在实际中的应用,以数据分析为导向,比如何正确使用参数估计、假设检验、方差分析、相关与回归、时间序列分析、指数分析等应用统计方法。
举个例子,统计学中的LASSO算法是由统计学家Robert Tibshirani在1996年首次提出的用于变量选择的统计算法,文章发表在“统计四大”之一的《Journal of the Royal Statistical Society, Series B》期刊上,证明了收缩估计能够进行有效的变量选择,在理论统计学上具有重要的学术贡献, 尽管至今已有二十多年,但依然有着广泛的应用,由其发展出的方法层出不穷。因此,该算法的应用层面可以算作为应用统计学的范畴。
2. 从学术研究来看
理论统计学主要以概率论为基础,研究集中在讨论估计方法的有效性(稳健性)、算法的效率、估计量的性质、如何构建新的假设检验等等,重点从理论上讨论统计学方法的统计性质和数学背景。国际顶级的理论统计学期刊《Annals of Statistics》的期刊风格就是着重理论深度和数学推导。而应用统计学主要以数据为基础,着重于模型构建,参数估计,模型预测、模型检验。应用统计学可以扩展到每个学科领域,例如可以将统计学方法应用到金融领域进行收益率预测,保险精算领域进行保险产品定价,气象学灾害学中进行巨灾风险度量等等,国民经济核算中也有很多应用统计学的方法为支撑。典型的期刊可以参考《Journal of Business & Economic Statistics》、《Journal of Applied Econometrics》、《Journal of Business & Economic Statistics》。
3. 区别和联系
区别:理论统计强调理论的抽象性和完备性,施加很多的分布假设及其他假设,重视统计和数学性质的讨论,是统计学方法的理论基础。应用统计学重视模型构建和模型应用,是理论统计学的发展和延续。
联系:两者是理论联系实际的关系。
(1)实践提炼出规律,上升为理论,应用统计催生了新的理论统计的提出与发展。例如,鸢尾花的识别问题,最终导致了判别分析理论的提出,判别分析理论的发展又为统计模式识别问题提供了理论指导。又例如,岭回归作为一种收缩估计的算法,在应用过程中无法彻底解决变量选择问题,因此催生了Lasso算法的诞生,能够更好的适用于高维数据。Lasso算法在应用过程中又催生了很多变种算法,例如Elastic Net等。
(2)理论指导实践,对理论统计的简化,对假设的弱化,无疑会极大的扩大应用统计的应用范围。举个例子,贝叶斯理论分为理论贝叶斯和经验贝叶斯。理论贝叶斯(信度):基于方差理论,延续了正态分布假定、独立同分布假定,得出推断统计的相关结论;经验贝叶斯:仅仅要求独立同分布,拿掉了正态分布假定,利用理论贝叶斯的相关结论进行推断。两者是相辅相成的,互相弥补。
这里为了严谨,我们进一步列举经典的正态/正态理论贝叶斯信度模型,要求随机变量X的分布依赖于未知但固定的参数theta;给定theta,X的条件分布为正态分布,并且彼此之间条件独立(也即,条件独立同正态分布);产生theta的先验分布为另一个正态分布。到了经验贝叶斯模型,要求随机变量X的分布依赖于未知但固定的参数theta;给定theta,X彼此之间条件独立(也即,条件独立同分布)。
也即,两模型对非条件分布X的假设相同:它们都是同分布的;给定theta下,X的条件分布假设相同:它们都是条件独立的;但是经验贝叶斯信度中取消了条件正态分布假定。因此,可以看成是正态/正态理论贝叶斯模型的归纳或者推广,因为正态/正态理论贝叶斯模型中在给定theta下X的分布具有精确的表达形式,但在经验贝叶斯模型中没有这样的假设。而且前者theta是一个具体的值,但在经验贝叶斯模型中是一个更一般的量。
4.不能根据学科片面区别理论统计与应用统计的,两者是相互交融和衔接的。
例如,经济统计学是统计学在经济学上的理论发展以及应用。经济统计学除了统计学的经济学应用外,同样也对统计学的理论发展起到指导作用,因此,前面是应用统计,后面是理论统计,兼有理论统计与应用统计的学科属性。
|