|
回答这个问题,我们先从定义出发,然后再结合个实际例子去理解。从定义来看,多元线性回归方程定义如下:这里的 a 为常数项, 为随机误差项,且服从标准正态分布( ),或者我们把它称作白噪声(white noise)。通过图像,我们可以很好理解常数项和随机误差的含义:<img src="https://pic4.zhimg.com/50/v2-b3543732f4855d372e37c747e332362e_hd.jpg" data-rawwidth="419" data-rawheight="240" class="content_image" width="419"/>图一,一元线性回归示例上图是多元线性回归回归的一个特例,即一元线性回归。多元就是在一元的基础上,用更多的自变量对因变量进行解释。我们以一元为例,来看常数项和随机误差的含义。从图中可以看出,常数项是拟合的一元回归直线在因变量(Y)轴上的截距;误差是实际的点和回归直线之间的差,而随机则表示的是这个误差不是固定的,有大有小,没有特定的规律,服从标准正态分布。具体来说,常数项表示的是未被自变量解释的且长期存在(非随机)的部分,即信息残留。而随机误差是在自变量解释空间内,预测值和去掉常数项的实际值的误差。下图是从一个多元线性回归模型的视角去看问题:因变量(Y)代表需要解释的全体信息,模型里的Xi构成的空间是自变量解释空间,随机误差存在于自变量解释空间中。在自变量解释空间外,如果还有恒定的信息残留,那么这部分信息构成常数项。<img src="https://pic1.zhimg.com/50/v2-68beb4a4bd82ac547341ae0d5f123009_hd.jpg" data-rawwidth="283" data-rawheight="285" class="content_image" width="283"/>图二,多元线性回归模型解释因变量示意图下面我们再结合实例来加深下理解。在量化投资界,多因子选股模型是多元线性回归一个典型的应用。多因子选股模型通过寻找与股价变动的相关变量来解释和预测股票的收益率:这里, 表示的是风险因子 j 关于股票 i 的暴露度, 风险因子 j 关于股票 i 的收益。 部分在业界被称作风险因子,这是从风险的角度来给称呼,它也可以被称作系统因子(systematic factor)或者Beta因子。我们在这先管它叫系统因子。我之前在其它的作答中详细地解释了系统因子和alpha因子(即 部分)的区别,这里不做过多的说明。结合着上一部分我们对常数项和随机误差的解释,我们从另一个角度看多因子选股模型。在这里,它把收益率分成了两个空间,一个是大家已熟知的空间,或者说收益率可解释部分。比如说一篇好的季报可以预示着股票的增长,那么业绩预告的表现可以是该空间里的一个变量。Barra公司做的一件事,就是把这些大家达成共识的解释变量做一个整理,构建了一套系统因子,对应的就是多元线性回归模型中的自变量部分。但是,这套系统因子并没有达到100%的信息解释度,总有一部分恒定的收益率没有被解释,这部分残留就是alpha,即自变量解释空间外的第二空间。而所谓的alpha策略,就是在花时间和精力寻找系统因子外的变量去解释alpha,以获得超越其它竞争者的收益。相应的,alpha对应的就是多元线性回归模型中的常数项。这里,大家还可以看到常数项是可以继续被新变量分解的,直到常数项等于0(假设信息是线性,而不是非线性的)。对应地,当股票市场的有效性越来越强的时候,alpha会趋近于0,这时候大家只能灵活地运用Beta来预测股价,这也是发达市场所谓的smart beta策略。
|