首先声明,这篇文章是给那些不是以sas作为自己职业的、非统计专业的朋友;只打算把sas作为自己的工作工具或工作伙伴的朋友。
我国在1992年才把统计学从数学专业中分开,上升为一级学科主要份两类:理论和应用。这里我指的是应用方面。当然计算机技术的发展,对应用统计的学习也就有了捷径,这在下文介绍。
统计学的任务和作用
统计学的任务可概述为:结合专业知识和具体要求, 进行统计研究设计收集和整理资料;对所收集的资料进行统计描述和处理;对统计处理的结果进行分析和解释,根据样本资料所提供的信息推断总体的规律性,从而,作出科学的结论,并用它来指导今后的实践。
必须强调指出的是:统计学只能帮助人们发现规律,而不能创造规律,但至今仍有一些人不能正确地看待统计学的作用。
有人说这世界上最会说谎的人有两种:政治家和搞统计的人。啤酒和纸尿布的故事,搞数据挖掘的人都听过这个故事。为什么会这样,道理很简单,运用统计方法推导出来的结论是否可靠,关键取决于以下几个方面:
调查或建模设计是否周密完善、是否按设计要求进行实施;
所选用的指标是否特异性和客观性强、灵敏度和精确度高;
数据是否真实可靠、样本含量是否足够大;
所选用的统计方法是否妥当;
结果的解释是否正确。
因为在运用统计学的全过程中,稍有不慎,就有可能犯统计学上的四型错误,它们分别产生于建模设计、数据处理、统计推断和结果解释阶段。
统计学上的四型错误
1 型错误:也称假阳性错误。即当原假设H0客观上成立, 但根据假设检验的规则,将有α大小的概率错误地拒绝H0,同时错误地接受备择假设H1。
2 型错误:也称假阴性错误。即当H0客观上不成立,但根据假设检验的规则, 将有β大小的概率错误地拒绝H1,同时错误地接受H0。(注:α的取值是检验者规定的,而β的取值通常是不知道的(在某些场合下,可按特定的检验统计量通过比较复杂的计算获得)
)
3 型错误:即最终回答的是1个错误的问题。此错误主要是由于试验设计不周密不完善所致,如在试验设计中未将重要的试验因素包括在内。
4 型错误:即对1个假设进行了多项正确的检验, 但在对因果关系的分析时作出了错误的比较和解释,这些比较并非是由被使用的模型所定义的。此错误主要出现在结果的解释阶段。
我也发现有许多人不是根据指标的性质、建模设计的类型和研究目的有针对性地来选用统计分析方法, 而是将各种统计方法一一试用,看哪一种方法算出的结果与他所预期的结果一致,就认定哪种方法,恰好sas这方面何以很好的满足这些需要。
学习统计方法的捷径
学习和使用统计方法的全过程可划分为以下3部分:
一,对统计学的概念和方法、思想有一个相对清晰的了解,以便根据具体情况正确选用统计方法;
二,正确运用统计算方法处理实际资料;
三,把专业与统计知识紧密结合起来,对计算结果给出合理的解释,从而,作出科学的结论。
对于非统计工作者来说,第2部分是最大的障碍, 因为处理多因素多指标资料的算法复杂、计算量大,所以学习统计方法的捷径是: 利用现成的统计软件包在计算机上实现各种复杂的统计计算, 把节省下的时间和精力去学习第1、3两部分内容。SAS软件包作为计算工具,包含统计理论、方法及其应用技巧是非常强大的,但对于不同专业背景的人,并不是都要用到的,所以用sas来学习统计选书是关键,首先这类书应该是系统的阐述常用的统计模型分类、数据结构特点,其次是用sas实现并且书中所附光盘里的例子最好不要少于50个,一般100个左右就能基本覆盖常用统计的类型,对于编码,开始只要掌握基本的读入,变量设定,简单循环语句就行,重点学习光盘里每种模型数据的排列结构,从菜单栏里solutions-analysis-analyst学起,结合书把每一个子模块能建那些模型以及每个选项的作用弄明白,输出结果的解读等,特别是计算出结果后左边栏里的code项,点击它可以知道proc的怎样结构或怎样写的,这样一步一步的学,你的统计运用会有一个很大的飞跃的,当然交流、编码的积累、不断的拓展也是必要的。
以上是本人作为非统计专业的人学习的一些体会,仅供参考