楼主你好,请参考以下思路:
1、明确自变量的意义。自变量的经济含义是什么?是测度值还是自然值?如果是测度值,为负的含义是什么?如果是自然值,为负是否正常?
2、模型的预计假设。被解释变量与自变量的关系大概是怎样的?自变量为负的样本是否会对模型结果有扭曲?
3、考虑自变量为负的样本数量。在自变量为负是异常值的情况下,如果此类样本过多则说明数据源有问题;如果不太多,可剔除。
回答楼主的想法:不可以这么做。
第一,因为你并不知道被解释变量和自变量之间的影响关系,统一加上一个正数会对二者之间的影响有错估。楼上的方法(+1再取对数,一般是针对存在自变量为零的样本时使用的,多见于计数型样本)
第二,取对数直接改变了解释意义,会再次扭曲。
ps不用为了取对数而取对数。如果样本标准差过大的话,也可考虑截尾、标准化等方法。
|