1、弄清楚原理。空间计量经济是在普通计量经济的基础上发展起来的。普通计量经济的一大假设是各个观测值是独立的,这个假设在空间数据中不成立。因为在一定的空间结构下(空间结构通过空间权重矩阵来描述),各观测值是空间相关的。简单来说,就是空间距离越近的观测,其值越相似。要记住,空间相不相关,并不是绝对客观的,取决于你所决定的空间权重矩阵,而空间权重矩阵是人为决定的。如你将300km距离内设定相邻,可能空间相关;当你设定为1000km时,相关性可能就会消失。
PS:所谓空间数据,就是每个观测都有位置坐标。简单来说,就是在普通观测数据表上另外多加两列x与y,其中x表示横坐标,y表示纵坐标。坐标系统定好后,每个观测数据就有了空间位置,从而可以计算各个观测单元的空间距离。
2、掌握两个基本模型:空间滞后模型和空间误差模型。前者是将因变量的空间滞后值作为自变量纳入回归,其动机为,距离相近的空间单元为什么值相似,是因为存在溢出效应。如上海的经济发达了,就会通过人员流动、资本流动和贸易往来等溢出到浙江,从而浙江经济也会跟着增长。因此,浙江的经济发展,除了本身的要素投入之外,部分应归功于上海的经济发展,所以要把上海的GDP作为浙江省的自变量来研究它对浙江GDP的影响。实际中,某省有多个邻近省份,所以要取这些邻近省份的平均值,这就是空间滞后值。
空间误差模型是将各观测的误差项设定为空间相关。其动机为,某些因素会共同影响彼此相邻的空间单元,从而造成这些空间单元的值相似。如好几个距离相近的小区旁边有一个绿化很美的公园,当然会部分地抬高这几个小区的房价,使得这几个小区房价类似。再如,沿海省份因为国家的开放政策,率先受益,因此相对中西部省份来说,他们的GDP都有共同性,普遍偏高。如果空间相关是因为共同影响因素引起的,由于这些因素一般没有纳入模型,因此误差项包含了这些共同影响因素的影响,从而会造成误差项的空间相关;但如果把这些共同影响因素考虑进来,将其效应剔除出误差,则剩余的误差项就不会相关了。
简而言之,空间相关性基本上由两种机制引起:一是局部地区的彼此溢出效应、外部性等;二是局部区域的共同影响因素。
3、模型估计。空间滞后模型将因变量的空间滞后值作为自变量进行回归,这实际上是双向影响,会造成严重的内生性问题;空间误差模型中的误差相关其实原理与空间滞后模型一样,估计上也存在双向影响问题和误差项相关问题(观测间通过误差相关彼此影响,又通过空间权重矩阵传导到自身)。因此,空间计量模型一般不采用OLS估计方法,多用最大似然法或GMM法。估计程序,其实不需要我们掌握,会用软件就行。
4、软件应用。一是空间权重矩阵的构建,二是模型估计。横截面数据,Geoda足以应付,免费,傻瓜,直接,高效,让我们感谢Anselin。去看看Anselin编的Geoda操作手册,几天包会。求人不如求己,比上论坛求助高效多了。
5、其他软件。Arcgis,也能达到目的。但不那么人性化,好用性比Geoda差。但玩熟后可以做Geoda做不了的事情。毕竟Arcgis功能要强大得多。如果要一心免费,且想随心所欲,那么,研习R,可编程,可扩展,重要的是,有很多扩展包,功能齐全。spdep扩展包可做很多事情,包括计算空间自相关系数和进行横截面的空间回归分析。如果自己足够牛,在扩展包和既有函数基础上,自己编程,想干啥就干啥。这个过程,至少需要一、两年的功夫。
6、空间面板数据分析。有stata、R和Matlab。stata有很多函数,功能齐全,自己网上搜索资料,仔细看函数说明文件。R主要是splm。Matlab主要是Elhorst编的程序,很简单,设置好数据矩阵和空间权重矩阵,以及参数接口,后面的事情程序会自动运行,给出结果。这里,关键是如何设空间权重矩阵。我一般的做法是:Geoda生成gal或gwt文件,然后用R中的read.gal或read.gwt2nb函数读入,再用nb2listw转换为标准化的空间权重矩阵,然后用listw2mat转成矩阵对象,最后用write.csv写成csv格式文件,用Excel2010直接打开就成了,可用于matlab的空间面板计量经济分析。