原文来自:MindGo量化社区-【机器学习】利用随机森林进行因子选择
http://quant.10jqka.com.cn/platform/html/article.html#id/87859500/q/mindgo_59547441_733
【导语】在多因子模型中,常见的因子有效性检验方法是使用IC(信息系数),IC的定义为IC=corr(f,R),实际上是因子本期预测的收益率和下一期真实收益率之间的相关系数,简便起见,可以将IC定义改为IC=corr(X,R),X为当期因子值,R的含义不变。本文从另一个角度来对因子进行选择工作,机器学习中的随机森林(分类器/回归器)算法,能够在模型被训练之后输出每个特征的重要程度,那么通过得到的feature_importance就可以判断属性的重要程度,它揭示了近期可能的影响股价变动的重要因素。
【研究过程】
1.首先我们定义当期日期和下期日期,比如在下面的研究代码中,我们定义当期日期为2016年12月30日,下期日期为2017年3月31日。
2.定义股票池为构成上证指数的所有股票。
3.获取当期日期的股票池中所有股票的财务数据,这里选取了包括:市盈率、市净率、市现率、市销率、总市值、总股本、净利润等十多个指标。
4.计算当期日期和下期日期间股票池中所有股票的涨跌幅。
5.对财务数据进行最大-最小值标准化,并根据涨跌幅为股票打上标签(+1代表上涨,-1代表下跌)。
6.初始化RF-Classifier分类器和RF-Regressor回归器将数据集划分为5个部分,构成5-折交叉验证,计算每一折上的正确率。
7.输出分类器和回归器中对每个属性的重要程度。