题主所提到的变量中,性别可以处理成虚拟变量,教育程度可以作为有序变量,年龄可以作为连续变量;由于性别在这里是一个二分类自变量,处理虚拟变量时,不需要再进行n-1的操作;n-1的操作,适合多分类自变量。
一个比较典型的多分类变量,可以以职业为例,比如存在教师、工程师、医生共3个取值。在此基础上,我们可以举例一个数据如下:有收入、工龄和职业共三个变量,以收入为因变量,以工龄和职业为自变量。首先,要把职业处理成取值数量-1个虚拟变量,此例即为2个虚拟变量,假设为教师、工程师这两个虚拟变量。搭建多元回归模型为“收入=常量+系数1*工龄+系数2*教师+系数3*工程师”。可以看到,该模型中,没有医生,是因为医生被作为基准类别或参考类别。
得到系数2和系数3后,可以解读为“当控制住其他变量的影响时,教师的收入比医生的收入多系数2,工程师的收入比医生的收入多系数3”。
如果想比较教师的收入与工程师的收入,可以把工程师设置为基准类别或参考类别,搭建新的多元回归模型为“收入=常量+系数1*工龄+系数2*教师+系数3*医生”,就可以比较教师的收入与工程师的收入。
|