啊好的,其实回归方程就是下面这个:
model log_Recreation_Visits= trend d1 d2 d3 d4 d5 d6 d7 d8 d9 d10 d11 lag UR Gasrate cci/vif tol dwprob;
回归方程的左边,是各个公园的访问量也就是客流,一共58个公园,数据是月度数据,时间跨度是25年,所以整套数据有上万个。
我所有等号右边的量都算出来了,d1~d11是月份的dummy, 就是当月份是1月份的时候的d1=1其余等于0,当月份是2月份的时候d2=1其余等于0,lag是每个公园月度访问量的滞后项,UR是每个月的失业率,gasrate是每个月的汽油费,CCI是消费者信心指数。
现在问题是这样,这个回归方程我有带log就是同上式和不带log的如下:
model Recreation_Visits= trend d1 d2 d3 d4 d5 d6 d7 d8 d9 d10 d11 lag UR Gasrate cci/vif tol dwprob;
带log的自相关做出来好高,不带log好非常多,但是存在共线问题,vif的值是d8和lag,比较高,最高的48,然后不是所有的,大概24个公园这两个量出现了高的共线,如果移除lag或者d8这个问题可以被解决,但是呢自相关问题会变得严重....
我应该怎么办,我试了好多好多...都不行
|