请选择 进入手机版 | 继续访问电脑版
6455 0

[讨论交流] 【机器学习】利用随机森林进行因子选择 [推广有奖]

  • 0关注
  • 4粉丝

本科生

83%

还不是VIP/贵宾

-

威望
0
论坛币
0 个
通用积分
0
学术水平
3 点
热心指数
3 点
信用等级
3 点
经验
1228 点
帖子
47
精华
0
在线时间
107 小时
注册时间
2017-7-13
最后登录
2019-5-22

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

原文来自:MindGo量化社区-【机器学习】利用随机森林进行因子选择

http://quant.10jqka.com.cn/platform/html/article.html#id/87859500/q/mindgo_59547441_733

【导语】在多因子模型中,常见的因子有效性检验方法是使用IC(信息系数),IC的定义为IC=corr(f,R),实际上是因子本期预测的收益率和下一期真实收益率之间的相关系数,简便起见,可以将IC定义改为IC=corr(X,R)X为当期因子值,R的含义不变。本文从另一个角度来对因子进行选择工作,机器学习中的随机森林(分类器/回归器)算法,能够在模型被训练之后输出每个特征的重要程度,那么通过得到的feature_importance就可以判断属性的重要程度,它揭示了近期可能的影响股价变动的重要因素。


【研究过程】

1.首先我们定义当期日期和下期日期,比如在下面的研究代码中,我们定义当期日期为20161230日,下期日期为2017331日。

2.定义股票池为构成上证指数的所有股票。

3.获取当期日期的股票池中所有股票的财务数据,这里选取了包括:市盈率、市净率、市现率、市销率、总市值、总股本、净利润等十多个指标。

4.计算当期日期和下期日期间股票池中所有股票的涨跌幅。

5.对财务数据进行最大-最小值标准化,并根据涨跌幅为股票打上标签(+1代表上涨,-1代表下跌)。

6.初始化RF-Classifier分类器和RF-Regressor回归器将数据集划分为5个部分,构成5-折交叉验证,计算每一折上的正确率。

7.输出分类器和回归器中对每个属性的重要程度。

feature_importance.JPG

【结论】

1.无论是分类器还是回归器,市净率都是一个相对重要的指标

2.比较奇怪的是从结果来看固定资产和总资产这两项指标也起到了比较重要的作用

3.回归器和分类器得到的结果是有所不同的,这可能跟建模的目标有关,分类器的目标是识别涨跌,而回归器的目标是预测涨跌幅度。

4.从结果看,在2016年年底至2017年年初时,市值已经不再是一个关键的因子。

5.可以通过调整代码的日期来观察各个特征的重要程度随着时间变化的变化情况。

原文来自:MindGo量化社区-【机器学习】利用随机森林进行因子选择

http://quant.10jqka.com.cn/platform/html/article.html#id/87859500/q/mindgo_59547441_733
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:机器学习 随机森林 importance classifier feature

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jr
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-3-29 23:39