发帖

楼主: JoinQuant

3136 2

[讨论交流] 决策树在多因子模型中的应用（一） [推广有奖]

0关注
23粉丝

等待验证会员

博士生

18%

还不是VIP/贵宾

-

0%

威望: 0 级
论坛币: 105 个
通用积分: 19.3548
学术水平: 12 点
热心指数: 9 点
信用等级: 9 点
经验: 3401 点
帖子: 97
精华: 0
在线时间: 134 小时
注册时间: 2015-9-9
最后登录: 2020-3-18

楼主

JoinQuant

发表于 2019-4-24 16:09:11 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

一、决策树原理说明

日常生活中，我们对于事物的认知都是基于特征的判断与分类，例如，我们要判断一个西瓜是不是好西瓜，通常会进行一系列的判断，如先看它是什么颜色，它敲起来是什么声音。决策树就是采用这样的思想进行甄别。

当有一堆西瓜混在一起，我们要进行好瓜坏瓜区分，就要基于多个特征进行分类决策，过程如下图所示：

这个过程确实就像一棵倒置的树。

节点：能够进行分叉的结点（图中方块)

叶子节点：没有进行分叉的结点（图中椭圆）

在决策树的每个结点处，根据特征的表现通过某种规则分裂出下一层的叶子节点，终端的叶子节点即为最终的分类结果。也就是说，我们通过一个又一个条件判断，不断的对这堆西瓜进行划分，最终给出好瓜坏瓜的结论。决策树学习的关键就是选择最优划分属性。随着逐层划分，决策树分支结点所包含的样本类别会逐渐趋于一致，决策树算法追求的目标，就是寻找最有效的特征进行划分，即节点分裂时要使得节点分裂后的信息增益（Information Gain）最大，这里列出决策树中判断信息量增减的方法，信息熵（Entropy）和基尼系数（Gini）的计算公式。

t 代表给定的节点

i 代表标签的任意分类，p(i|t)p(i|t) 代表标签分类 i 在节点 t 上所占的比例。

这两个公式就是衡量信息不纯度的指标，可以用来衡量每次决策前后，信息混程度变化的情况。

好了，经过这两个公式和熵、基尼系数、信息增益的概念引入，已经让本篇内容不够亲切了，而且，我们在使用这些机器学习算法的时候，可以进行参数设置，并不能改写算法干预算法内部的逻辑，所以，关于更多原理内容，大家可以参考其他学习资料进行学习，比如周志华《机器学习》等。

接下来我们从应用的层面进行探索。

二、决策树建立方法

机器学习有一套固定的建模流程方法， sklearn 的基本建模流程如下：

在这个流程下，我们分类树对应的代码是

fromsklearnimporttree#导入需要的模块

clf=tree.DecisionTreeClassifier()#实例化

clf=clf.fit(x_train,y_train)#用训练集数据训练模型

result=clf.score(x_test,y_test)#测试集测试打分
复制代码

这里我们发现，其实我们在使用机器学习方法的时候，需要使用的代码是非常少的，复杂的算法已经是封装好了的内容。

三、因子数据获取

有了上面的通用建模流程，这里首先进行因子数据获取，我们参考华泰证券《人工智能选股之随机森林模型》研报思路流程。

进行特征和标签提取，特征数据即为因子数据，标签即为收益情况。

本篇研究内容中，我们先获取了过去 5 年每个月月初截面期的 47 个因子数据（这里因子数据计算参考西安交大元老师量化小组的机器学习的因子计算内容），按获取因子数据的日历列表，进行空值和行业市值中性化处理，并将下期的股票收益也计算得出并加其中。

四、标签设置

第 T 期因子值和 T+1 期的收益均已计算加入数据表中，接下来我们给数据打标签，希望从给定训练数据集学得一个模型用以对新示例进行预测。

这里我们想尝试采用两种方式，以分类和回归方法分别进行学习并检查效果，两种方式都有具体操作代码示例。

五、模型拟合，得分检查

这里注意一下，我们直观理解，进行分类的情景多为离散的数值，如判断西瓜好坏的例子中，西瓜纹理是模糊的还是清晰的，就是对样本的离散特征描述。然而一般情况下，我们的样本特征是离散特征，与连续特征并存的。

决策树里面在进行连续值处理时采用二分法，即通过某个值将连续值集合划分为两个子集。即可延续离散值的划分方法。

我们这里的 y，是股票涨跌幅，是个连续值，所以首先想到的是用决策树回归的方法进行模型拟合。

这里我们对 score 进行说明，在回归模型中，这个 score 返回的是 R 平方，其中

u 是残差平方和（MSE * N）

v 是总平方和，N 是样本数量

i 是每一个数据样本

fi 是模型回归出的数值

yi 是样本点i实际的数值标签

y 帽是真实数值标签的平均数

R 平方可以为正为负，如果模型的残差平方和远远大于模型的总平方和，模型非常糟糕，R 平方就会为负，我们进行了回归模型的尝试，目前来看，拟合得分结果就非常不理想。

基于这种情况，接着我们用构造分类的模型进行拟合，对于股票涨跌幅超过基准则标签记为 1，小于基准则标签记为 0，对标签 y 进行构造，重新构建测试集与训练集合，进行的模拟拟合得分为 54.7%，也就是预测的准确率为 54.7%(到这里，内心已经蛮崩溃的，这个正确率和随机能有多少差别，看到《人工智能选股之随机森林模型》中模型的预测得分是在 55~60%之间，有点释怀了）

六、调优说明“剪枝是决策树学习算法对付‘过拟合’的主要手段，在决策树学习中，为了尽可能正确分类训练样本，结果划分过程将不断重复，有时会造成决策树分支过多，这时就可能因为训练样本学得太好了，以致于把训练集自身的一些特点当做所有数据都具有的一般性质而导致过拟合，因此，可通过主动去掉一些分支来降低过拟合的风险”，这段描述来自《机器学习》决策树部分剪枝处理。

过拟合造成的结果就是，模型会在训练集上表现很好，在测试集上却表现糟糕，为了让决策树有更好的泛化性，需要对决策树进行剪枝处理。可用于剪枝的参数