请选择 进入手机版 | 继续访问电脑版
3603 0

[交易策略] 基于K-Means聚类的指数择时策略 [推广有奖]

  • 0关注
  • 4粉丝

本科生

83%

还不是VIP/贵宾

-

威望
0
论坛币
0 个
通用积分
0
学术水平
3 点
热心指数
3 点
信用等级
3 点
经验
1228 点
帖子
47
精华
0
在线时间
107 小时
注册时间
2017-7-13
最后登录
2019-5-22

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
原文来自:MindGo量化社区-【机器学习】基于KMeans的指数择时策略

【导语】聚类分析是指将物理或者抽象对象的结合分组为由类似对象组成的多个类的分析过程。简单来讲,聚类就是通过一些特征去自动识别一个大群体中的多个子群体,这些子群体中的对象彼此之间相似度高,而子群体之间差异较大。聚类的概念其实是MachineLearning中的一个子分支,在很多情况下,我们无法直接获得足够的带标签(分类)的数据样本来训练我们的模型,在这种情况下,聚类分析就显得尤为重要。它能够在给定的无标签样本中根据其特征给每个样本分类。


【策略思路】

  这里有必要简单介绍一下KMeansKMeans是聚类分析中的一种算法。它的算法过程大致是这样的:

  有一天,你想要给5只西瓜分类,你已经测量好了这些西瓜的质量、半径、颜色深度等一系列特征,你是一个挑西瓜的小白,并不懂得好瓜应该长成什么样。这个时候,你想通过Kmeans聚类算法来对这些瓜分类。

  1.你的目标是区分好瓜和坏瓜,所以你给定了想要聚类的数量为2

  2.你随机挑选了2只瓜作为好瓜和坏瓜的起点,当然了,其实你并不知道它们是不是真的是好瓜和坏瓜,有可能给的定义完全是相反的。(那么我们暂定1号瓜作为好瓜,2号瓜作为坏瓜)

  3.这个时候你顺理成章的想,既然现在假设好了好瓜和坏瓜,那么现在第3只瓜的各个特征跟哪只瓜更加相似就应该划分都哪只瓜里去。所以你分别计算了每只瓜和1号瓜以及2号瓜的“距离”大小,发现34号瓜与1号更加相似,5号瓜与2号更加相似。于是得到了下面的结果。

西瓜例子.JPG

  4.一只瓜的分类未必是准确的,而前面你直接指定了1号和2号瓜的命运。。所以,你现在需要更新好瓜和坏瓜的标准,说专业点就叫做更新聚类中心。怎么做呢?对于第1类来说,你计算了134这几只瓜各个特征的平均值,重新生成了一个聚类中心;类似的,对于第2类来说,计算了25号瓜各个特征的平均值。

  5.经过第4步,已经完成了一次聚类中心的更新。那么由于好瓜和坏瓜的定义被改变了(不再是1号或者2号瓜中的任何一个),所以需要重新更新每只瓜的归属,于是你重复上面第3步,重新将每只瓜根据与更新后的聚类中心的距离分类到两个类中。

  6.这个时候为了保证一定的科学性,你需要多重复几次上面的过程,直到最后两个类别的聚类中心都基本不改变或者达到了指定的迭代次数。算法就停止了。

  这也是K-Means算法名称的来源,K代表了给定的聚类数量,也就是上面的2Means则代表了对于这个算法而言,它的聚类中心是通过计算样本点的均值而来的。


  进入正题。。

  那么思路就来了,我们可以给定一些特征来描述指数的任意一天,比如过去14天的平均波动率,过去30天的平均成交量,等等等等。然后在给定的历史数据区间上(训练集,如2005-01-012013-12-31)对训练样本进行训练,比如目标是为了预测某一天是涨是跌,我们可以像刚才吃瓜的例子一样,给K-Means算法参数K=2

  刚才西瓜的例子中的特征向量:

    [质量,半径, 颜色深度,...]        ………………一只瓜

  现在的特征向量:

    [14ATR,MACD, 30avg_volume,...]        ………………一个交易日

  换句话说,现在的任何一个交易日就对应了一只瓜。



  得到了特征向量以后,按照上面的KMeans算法步骤,就可以得到每个交易日被分到哪个类中的结果了。比如我们以5个交易日举例。

西瓜例子2.JPG

  要注意,到现在为止,我们还不知道类1和类2的具体含义是什么。所以我们需要在数据集上进行验证。这里我们也给出这5个交易日的涨跌情况。于是,我们可以计算出这两个类别在训练集上的累积收益情况:

  类10.9994×0.9967= 0.9961        -0.39%

  类21.0047×1.0077×1.0044= 1.0169        +1.69%

  我们发现,在这里,我们的模型表现非常棒,明确的将所有上涨和下跌的交易日分到了两类里,类1和类2的意义也相当明确,1代表弱势,2代表涨势。


  所以,我们可以使用这个模型进行择时判断,如果预测后一天是涨势,那么就在第二天开盘开仓,如果预测后一天为弱势,那么就在第二天开盘卖出清仓。

【注意点】

  1.标准化。KMeans是基于欧式距离计算样本点之间的距离,所以务必在训练模型之前进行特征的标准化,否则会在计算距离时严重偏向值较大的属性特征,相当于自带了不同的权重。使用Min-Max或者Z-score标准化都可。

  2.特征的挑选和个数。由于KMeans的迭代过程都利用了样本点之间的距离,距离的计算又都是由特征而来的,所以选取好的特征以及合适数量的特征数是重要的。

  3.给定的参数K。当K的数值很小,比如取2时,很容易得到每个类的收益情况都不佳的结果,因此,适当的增加聚类数可以提高拟合效果,但是当K值过大,也容易造成过拟合,相当于每个类的交易日个数会变得相当少,丧失了模型的通用性。


  4.特别要注意在对所得到的聚类进行解释的时候,要根据后一天的收益率去评判,也就是这里必须有一个滞后期,否则得到的评判结果对于后续的择时是毫无意义的。

基于KMeans的指数择时策略.jpg


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:k-means聚类 k-means means mean ans

已有 1 人评分经验 论坛币 收起 理由
fantuanxiaot + 12 + 12 精彩帖子

总评分: 经验 + 12  论坛币 + 12   查看全部评分

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jr
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-17 02:21