总结几点如下:
1. 如二楼所说的,group structure 会导致lm估计不准,最简单的道理就是confounding factor, 如果groups 之间存在较大差异但是模型有没有考虑到的话,那么lm就会把某些变量过份扩大或者缩小;
2. 如果想把groups 作为dummy variable引进模型会怎么样?
通常的因果推断会这么做,但是当你的碰到以下两种情况时:
i) 每个group当中的数据量较小;
ii)group 总数变多;
以上这两种情况都会导致n变小,p变大,传统的方法就不适用于去做这种估计。
举个例子:
考虑repeat measure情况,每个subject 都有少数观测,同一个subject 的观测存在相关。
首先lm模型的系数就会不准,因为数据存在cluster的情况。
其次或许考虑使用by subject做N个linear regression, 但是问题是当数据量太少,只有 n<=3 个点来拟合一条line。
那么使用HLM,或者multilevel model呢? 模型会根据每个group所包含的variance和n来平衡,需要对fixed effect要调整多少,某些数据量小的就近似使用fixed effect, 数据量大的就近似使用by group regression。
以上是一点想法,参考自gelman 的那本 Data Analysis Using Regression and Multilevel/Hierarchical Models, 欢迎讨论。
|