多层统计分析模型的SAS应用(1)
——Introduction
社会科学的一个基本概念是,社会是一个具有分级结构的整体。人们个体的行为和结局测量(outcome measure)不仅受其本身特征的影响,还会受其所处社会环境或社会场景的影响。哪些个体水平的解释变量影响结局测量?哪些场景变量影响结局测量?个体水平解释变量和结局测量之间的关系是否随个体所处的社会场景的特征变化而变化?要进行此类研究需要收集不同水平的研究数据。这些数据具有个体嵌套在更高水平单位里的分级结构的特点。这种数据称为分级结构数据或多层数据(multilevel data)。
一、什么是多层数据?
社会的分级结构自然而然地会产生呈现分级的或者多层结构的数据,低层单位嵌套或聚集在高层单位中。如学生学习成绩的研究中,学生嵌套在班级里,而班级又嵌套在学校中,形成了三个层次的分级结构。第一层是学生,第二层是班级,第三层是学校。低层的学生是微观层次单位或个体单位,所有高层单位(班级、学校)是宏观层次单位或社会场景。实际研究中最常用最简单的多层数据是具有两层结构的数据,由微观层次单位和一层宏观层次单位构成。
二、多层数据的具体产生形式
复式抽样设计的调查数据是一种常见分级数据。复式抽样设计采用多阶段抽样,考虑目标总体的分层结构。初级抽样单位常定义为地理单位,如某省中的县。随机抽取初级抽样单位后,可以实施低层单位(如某县的小区、村庄等)的随机抽样,直至抽取到最小的观察单位(如家庭或个人)。
医学研究的实验设计也会产生多层数据。如随机选取诊所或医疗中心的多中心临床实验数据就是分级结构。分层数据也常见于社会科学的多中心准实验研究中。由于研究者特别关注某些特殊人群(如静脉注射吸毒者HIV感染高危人群)的某些结局测量(如HIV感染率),该类研究可能会选择其所关注的、或者最容易招募目标人群的地区或城市。
在纵向研究中,需要长期追踪研究对象,对同一研究对象反复收集数据。这种纵向观察数据也可以看作是分级结构数据。这类数据中,重复测量嵌套于个体研究对象之中。研究对象不同时间的重复测量是第一层观察单位,被研究的个体是第二层观察单位。
还有一种特殊类型的多层数据统计分析模型mata-analysis。该模型是通过综合一系列相关研究的结果和发现,分析评估并解释其一致性的一种综合性分析方法(Glass,1976)。在mata-analysis数据中,个体套叠在某个具体的研究中,即研究对象为水平1单位,具体的研究为水平2单位。但是我们通常不可能获得各具体研究的原始数据,而只有其结果报告。Mata-analysis可对这样的数据进行多层模型分析。
三、多层统计分析模型的优点和局限性
(一)优势:
从统计分析技术角度来讲,传统分析方法在分析多层数据时所遇到的问题在通过多层统计分析模型得到解决。由于多层统计分析模型可对个体水平和组群水平的数据同时进行分析,在一个模型中同时检验个体变量和场景变量的效应,因而避免了Robinson效应。另外,多层模型分析不需要假设数据中的观察相互独立,因而可以修正因观察数据的非独立性引起的参数标准误估计偏倚。
多层模型对稀疏数据是一个特别有用的分析工具。如,在少数民族学生学习成绩的研究中,如果某校样本中少数民族学生的数量太少,在评估学生成绩时,组内回归模型不能提供可信的统计推论。但是,如果学生样本来自一定数量的学校,运用多层统计分析模型可以利用所有学校的数据,这样就能弥补个别学校样本中的数据稀疏的问题。
多层统计分析模型可以用来研究纵向数据中结局测量随时间变化的发展轨迹。多层模型在纵向数据分析中的应用称为发展模型(growth model)。发展模型不仅可以分析研究对象随着时间发展的个体内变化,也可以分析这种变化的个体间变异。
(二)局限性:
因为在微观和宏观水平上同步分析结局测量变异,多层分析模型比普通回归模型更复杂,模型参数量较大。
多层模型需要较大的样本量,以保证模型估计的稳定性。
实际研究中经常遇到的一个问题是组群数量相对较少(尽管样本总量足够大)。这样组水平模型的残差可能呈现非正态分布,模型的参数估计,特别是组水平的方差成分和标准误估计,以及跨层交互作用的估计可能出现偏倚。
多层数据中,较高单位如组群,往往不是通过随机方法从严格定义的总体中抽取的。
多层模型中,通常假设多层数据是完全嵌套的。