只有一张结果图表不太容易给出深入的解读。
不知道你在运行回归前有没有进行数据预处理,比如去除无效数据,处理缺失数据,归一化,等等。如果没有归一化,很容易出现回归系数相差巨大的情况。比如有的系数小于0.01,有的大于5000。归一化后系数不会有这么大的差别,比较容易解读。
看一个变量在一个模型中是否重要,有很多方法。统计学显著性是其中之一。如果一个变量有统计学显著性,这个变量可以认为是一个重要的变量。根据这个变量的分布范围和回归系数,可以知道预测值对这个变量的敏感度。比如我们可以说当年龄增长一岁,CSR增长约2。 而一些无关紧要的变量,变成这个模型的噪音,可以试试去掉一些无关紧要的变量再重新做回归分析。这样得到的结果更准确。去除不重要的变量,可以用一个简单的启发式分析方法:先用一个变量做回归,对所有变量都做一次,然后选择显著性最大的变量作为第一个变量,然后以第一个变量结合剩余变量中的另一个变量再做回归分析,对剩余变量都做一遍,选择显著性最高的变量作为第二个变量,重复这个过程直到模型的整体显著性不是明显增加。也可以反向运作:先以全部变量一起做回归,然后去掉一个变量再做回归,对所有变量都做一遍后, 去除掉对整体显著性影响最小的变量,然后重复这个过程,直到去除任何一个变量都会使显著性明显降低为止。这样就可以用少数变量建立模型,并且更准确的解读这些变量对预测值的影响。
R2本身大小不一定说明模型好还是不好。如果要知道模型是否有统计学意义,直接看模型的显著性,这个会告诉你的回归是否有统计学显著性。还可以做个残差分析,看看残差的分布。另外,变量较多时,用adjusted R2可能更好。
在做统计分析时,除了讲出一个变量的作用外,如果能找出一些理由,就更好了。比如说,你发现年龄跟CRS的关联,那你可以试着去解释,并且引用一些文章来证明你的解释是正确的。



雷达卡



京公网安备 11010802022788号







