如题:
我想以某截面数据中的“旅游花费”为因变量,对影响它的一些相关因素展开回归分析,尤其是想看农村居民和城市居民的旅游花费是否存在差异?步骤如下:
1、首先对因变量旅游花费取对数(logg1018),因为其直方图不符合正态分布
2、根据文献,先筛选出以下八个自变量与logg1018进行逐步回归(stepwise):收入(hh_income)、年龄(age)、性别(a2003)、家庭规模(a2000)、身体状况(f2021)、文化程度(a2012)、婚姻(a2024)、是否有工作(a3000)等,逐步回归后剔除掉了“年龄”、“家庭规模”和“婚姻”等三个变量。在此“是否有工作”我没有设定为虚拟变量,不知道对否?
3、接下来,为了考察农村居民和城市居民的旅游花费是否存在差异(长期以来,由于农村居民的概念并没有统一的界定标准,多以户籍、居住地和职业等三个指标),我以剩下的几个有效自变量为基础,再分别引入“户籍”(a2022)(农业户口=1,非农户口=0)和“居住地”(rural)(农村=1,非农村=0)这两个虚拟变量,想从中筛选出哪个作为体现农村居民特征的变量更合适。结果发现,两个虚拟变量都显著,且“居住地为农村”对旅游花费的影响(系数为-.6807924)要大于 “户籍为农业户口”对旅游花费的影响(系数为-.2843231)。这能否说明采纳“居住地为农村”这个虚拟变量到回归方程更合适?此外,我也尝试了把这两个虚拟变量同时纳入进行逐步回归,回归结果是把“户籍”给剔除了,这能否解释为这两个虚拟变量之间存在共线性(二者相关系数为0.58),必须剔除一个?
根据下面的三组命令及其回归结果,请大家帮我分析一下,哪一组更适合作为回归方程?
命令及结果如下:
(1)以户籍为虚拟变量:
xi: stepwise, pr(.05): reglogg1018 hh_income a2003 f2021 a2012 a3000 i.a2022 [pweight=swgt]
i.a2022 _Ia2022_0-1 (naturally coded; _Ia2022_0 omitted)
begin with full model
p < 0.0500 for all terms in model
Linear regression Number ofobs = 3015
F( 6, 3008) = 71.97
Prob > F = 0.0000
R-squared = 0.2481
Root MSE = 1.2421
------------------------------------------------------------------------------
| Robust
logg1018 | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
hh_income | 1.11e-06 2.03e-07 5.47 0.000 7.12e-07 1.51e-06
a2003 | .1852779 .0823144 2.25 0.024 .0238797 .3466761
f2021 | -.1573419 .0363782 -4.33 0.000 -.2286705 -.0860133
a2012 | .2292374 .0269954 8.49 0.000 .1763062 .2821686
a3000 | -.3050053 .1244151 -2.45 0.014 -.5489526 -.061058
_Ia2022_1 | -.2843231 .1031727 -2.76 0.006 -.4866193 -.0820268
_cons| 6.945656 .2396978 28.98 0.000 6.475668 7.415644
(2)以“居住地”为虚拟变量:
xi: stepwise, pr(.05): reglogg1018 hh_income a2003 f2021 a2012 a3000 i.rural[pweight=swgt]
i.rural _Irural_0-1 (naturally coded; _Irural_0 omitted)
begin with full model
p = 0.1034 >= 0.0500 removing a2003
Linear regression Number ofobs = 3015
F( 5, 3009) = 114.18
Prob > F = 0.0000
R-squared = 0.2818
Root MSE = 1.2137
------------------------------------------------------------------------------
| Robust
logg1018 | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
hh_income | 1.08e-06 1.99e-07 5.45 0.000 6.94e-07 1.47e-06
_Irural_1 | -.6807924 .0819771 -8.30 0.000 -.8415293 -.5200556
f2021 | -.1183801 .0347488 -3.41 0.001 -.1865139 -.0502464
a2012 | .207616 .0224547 9.25 0.000 .1635878 .2516442
a3000 | -.2705602 .1216782 -2.22 0.026 -.5091411 -.0319793
_cons | 7.256143 .1754385 41.36 0.000 6.912152 7.600135


雷达卡





京公网安备 11010802022788号







