[交易策略] 量化策略方法分享之数据挖掘工具——决策树算法 [推广有奖]

0关注
12粉丝

博士生

48%

还不是VIP/贵宾

-

0%

威望: 0 级
论坛币: 215 个
通用积分: 3.0135
学术水平: 9 点
热心指数: 23 点
信用等级: 9 点
经验: 3975 点
帖子: 131
精华: 0
在线时间: 133 小时
注册时间: 2017-3-3
最后登录: 2018-7-28

楼主

量化萌娘夕立酱 发表于 2017-3-23 18:53:11 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

阅读原文：http://t.cn/R6tUUJ6

如今,大数据（Big Data）和数据挖掘(Data Mining)成为了一个热门话题和学术研究课题，但很多人对于它们的定义却只停留在数据量庞大而造成计算困难的层面。实际上，大数据往往代表的是大量的、不完全的、有噪声的、模糊的数据，而数据挖掘是指从大数据中提取隐含的、事先不知道的、但又是潜在有用的信息和知识的过程。

决策树算法作为数据挖掘其中一种判定数据所属类别的算法，数学模型简单，编程有程序包，极易上手，适合大家研究使用。具体应用常常是针对股票的高频数据算出VWAP后对股票涨跌进行预测，VWAP数据我注意到京东平台提供了，用get_vwap(intervals, frequency='day')语句在策略里就可以。需要前期的训练数据集进行学习。通常使用Python中的Scikit-learn学习包（简称sk-learn）。

首先我们需要了解一种衡量信息含量的指标：信息熵，以及决策树的几种经典的基于信息熵的算法：ID3算法,C4.5算法和CART算法。

上世纪40年代末，香农提出了“信息熵”的概念，他用信息熵的概念来描述信源的不确定度。信息熵越大代表信息越混乱，而我们需要的是由从大数据混乱的信息获得稳定的信息，因此我们预想的是在提取信息过程中看到信息熵由大变小。定义式中，P+代表正向事件发生概率，P-代表负向事件发生概率，比如:正向事件代表股票上涨，负向代表股票下跌。