1328 1

[讨论交流] 【机器学习】机器学习基础概念&量化交易 [推广有奖]

  • 0关注
  • 4粉丝

本科生

83%

还不是VIP/贵宾

-

威望
0
论坛币
0 个
通用积分
0
学术水平
3 点
热心指数
3 点
信用等级
3 点
经验
1228 点
帖子
47
精华
0
在线时间
107 小时
注册时间
2017-7-13
最后登录
2019-5-22

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

原文来自:MindGo量化社区

http://quant.10jqka.com.cn/platform/html/article.html#id/87837923/q/mindgo_59547441_733

【导语】传统的量化投资策略会从基本面、技术面去选择相应的因子进行选股择时,或者是配合对冲手段获得市场中性,并力求获得α收益。各种变种也大多是对这些手段的一个组合优化。通过机器学习系列文章了解机器学习,并畅想各类算法在量化投资中可能的应用,能够从机器学习、数据挖掘和人工智能的角度去重新认识量化投资,开拓出新的策略。本文整理了机器学习中的一些常见的基础性的概念,希望能够为各位Quants开拓思路。对相关领域的理解浅薄,如有描述不当之处,望小伙伴踊跃指出!

0.基础概念

  本节的主要目标是让读者对机器学习中的一些概念有一个直观的了解。

机器学习目标?

  一句话来说就是让机器学习到数据中的规律,以期可以进行预测、分类等任务。如果把机器看做是一个什么都不懂的孩子,我们就得通过“喂”数据的方式,让他学习如何解决问题,并在“最终考试”的时候发挥良好的样本外预测分类能力。放在量化投资的场景下,那么就转变为如何使得模型具有预测股票在未来一段时间收益率的能力,或者说能够有将股票进行分类择优的能力。


机器学习中的算法类别?

  简单来说,可以分为回归、分类、聚类、特征抽取、特征选择、集成学习、深度学习。回归的目的是预测具体的值;分类、聚类的目的是对样本进行分门别类,区别在于分类算法的输入训练集是带有已知的分类标签的(比如有个大牛告诉你哪些股票会上涨,哪些不会),而聚类没有(比如你只是个普通的小散,只能自己默默的研究);特征抽取和特征选择都降低了输入数据的维度,筛选出有效的维度,避免过多维度带来的计算负担,区别在于特征选择是从原特征中选择一个子集,去除了无用的特征,而特征抽取则可能经过变换而产生新的特征,共同的效果都是减少了维度的数量;集成学习的目的是将多个机器学习模型的结果组合,进行“多人决策”(比如多个专家通过投票决策是不是要继续持有某只股票,而不是一人独裁),即集体智慧,规避了“独裁”造成的高错误率;深度学习主要运用神经网络这一结构来解决各种建模问题,它实际上可以完成包括前面几点的各种任务,只是由于它本身特立独行、自成一派,可以看做是一个单独的领域,所以单独拿出来。

集成学习.jpg



监督学习&非监督学习?

  简单来说,监督学习就是有人教,数据是带有标签的,非监督学习就是没有人教,数据没有标签。前面讲的分类任务就是监督学习的代表,聚类任务就是非监督学习的代表。很自然的,一个没有人教的孩子的考试成绩在大概率下肯定不如有人教的孩子,因为给予的信息量变少了,当然了,非监督学习也能够找到一些预料之外的规律,这也非监督学习的价值所在。比如,我们不知道股票上涨的明确条件,但是通过观察大量的股票K线图,似乎也能有那么一些感觉,什么样的形态上涨概率会更大一些。监督学习的场景下,我们能够获取一批已经标注好的数据,已知什么是对的,什么是错的。那么为什么非监督学习会存在呢?因为在很多应用场景中,获取标签数据是非常困难的,比如在自然语言处理(NLP)中,为每句话标注是非常费时的,例如在翻译任务中,需要将两种语言进行词对齐、句对齐,显然需要一个同时掌握两种语言的翻译家来人工完成这个任务。。另外,在很多场景中,如何给予样本合适的标签也是一个困难的决定,在股票市场里粗暴地给每一天标注成涨或者跌是有失科学性的。。很容易造成误分类。

  在量化投资里,如果我们将股票在过去某段时间的数据特征作为输入,其后一个月的收益率大于0或者小于0作为标签学习,那么就转化为了有监督的分类问题;如果我们仅仅以股票当天的各种量价特征作为输入,希望模型自动识别不同特征下的收益情况,那么就转化为了无监督的聚类问题。


训练集&验证集&测试集

  训练集,顾名思义就是用来训练模型的数据,模型会根据训练集数据得到一个拟合结果,用于后续的应用,训练集相当于练习题;

  验证集,是用来验证经过训练集训练的模型是否靠谱的数据集,为了验证模型是否能够很好地处理新数据,验证集相当于模拟题;

  测试集,当模型经过训练且验证基本靠谱后,会在样本外的测试集进行测试,这部分数据可以认为是在我们训练模型时是无法知晓的。

  训练集和验证集是在模型应用前就可以获取到的,我们往往会将手头的数据人工地划分为训练集合验证集,用于证明我们的模型能够很好地hold住样本外的数据。有时为了节约数据资源,让其充分利用,还会运用交叉验证等方法,将数据集划分出很多组不同的训练集和验证集。

训练集验证集测试集.jpg

过拟合&欠拟合

  怎么理解过拟合?过拟合的意思类似于你把之前做的练习题全部背了下来,但实际上并没有掌握题背后的原理和规律,但是在考试的时候,由于面对的是新题,所以可想而知你的答题会有多差了。

怎么理解欠拟合?欠拟合的意思类似于你花了很少的时间精力在准备考试上,所以你没有掌握题背后的原理和规律,更别说是背下来了。所以在面对考试的时候,照样不会。

  一个好的模型必须寻求训练的最佳程度,避免过拟合和欠拟合。过拟合是更加常见的场景,怎么断定发生了过拟合呢?很简单,当你发现模型在训练集上表现很好,而在验证集上表现非常差,那么就存在过拟合。

如何避免?一是通过在训练模型时加入正则化项,目的是为了惩罚模型参数,使之不过度地拟合数据。二是扩大训练样本的数据量,“有时候往往拥有更多的数据胜过一个好的模型”,但是这一点往往很难做到。

  从下面的图来直观感受一下欠拟合和过拟合,例子来自AndrewNg.Coursera上的机器学习课程中的房价回归预测。我们只考察房子的面积和房价的关系,那么显然,图一中的直线不足以解释房价和面积的关系,图三的模型则太过复杂,甚至出现了面积上升,房价下降的情况,而图二的模型则刚好,模型足够简单,也能够很好地解释两个变量的关系。

欠拟合过拟合.jpg

深度学习?

  深度学习(DeepLearning)可以认为是机器学习的一个分支,尤指以多层神经网络为算法核心的机器学习方法。其模仿人脑思考问题的模式,基本单位是神经元,多个神经元组成神经层,多个神经层组成一个网络。神经网络由于其较为复杂的结果,尤其擅长非线性关系的建模。其实深度学习在早年就热过一阵子,只是当时由于有限的计算能力,不能发挥其全部的能力,而到了近几年,由于计算能力的进一步提升,以及GPU计算的推出,计算能力已经不再成为瓶颈,这也带来了深度学习的再度大热。要入门深度学习,需要了解的概念和内容较多,包括最近研究日益增多的迁移学习、生成式对抗网络等。

深度学习中有两种最常见的网络结构,一种叫做CNN(卷及神经网络),另一种叫做RNN(循环圣经网络),CNN目前被广泛用在计算机视觉(CV)领域,而RNN则顾名思义,更加擅长于时间序列的建模。那现在学术界的研究多数是对这两种网络结构的扩展和优化。现在所说的人工智能也多指以深度神经网络为核心的应用。

  RNN及其扩展更加有可能被运用到量化投资中,因为涉及到了大量的时间序列数据。其中最有名的要数LSTM(长短期记忆模型),LSTM可以通过一些特殊的方式记住长期记忆,来学习历史,预测未来。

神经网络.png
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:机器学习 量化交易 coursera Platform Learning 机器学习 理论 量化投资

沙发
lwell20 发表于 2017-7-27 07:18:13 |只看作者 |坛友微信交流群
拿出你认为牛的溜溜?

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jr
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-19 14:47