向小花 发表于 2012-12-4 09:35 
Variable Label DF Estimate Error t Value Pr > |t|
...
数据量是多大呢?如果C-系列是虚拟变量, 那么其频数列表如何呢?y 是百分数,从0 -100 还是0 -1?有时候百分数做为应变量,会有些麻烦。因为它是【0,1】截断,显然不符合较严格意义上的正太分布。从这个表格来看我没有明显感到共线性,因为相对于系数,其误差并没有严重偏离。从计算的角度看,保持比较统一规格的系数(对应到x值)显然对计算有所裨益,因为过大或过小的值可能造成计算溢出,尤其是在处理方差矩阵的时候。
你是做这个行业搞这一类数据的,你显然不是第一个做如此分析的。为什么不对比一下其他类似数据的分析结果呢?比如说对于risk而言如果大部分分析的系数是10左右,那么你的4000这个值差不多肯定有问题。从文章发表的角度,如果你的结果与众不同,那么你发表的概率也应该是与众不同,的小。
对于同一个数据,模型的调整总是次要的。如果变化巨大,很可能说明你的调整本身就有问题。另外,在回归模型里,系数是个稳定的量度。差不多的都是某个水平的平均数。即使假设的数据分布不符合不合理,系数本身并没有很大的偏离。关键的变化是在对系数所进行的统计检测之上的。
京剧