楼主: gnie
1283 2

[券商报告] 华泰人工智能系列之二十 -- 必然中的偶然:机器学习中的随机数 [推广有奖]

  • 1关注
  • 0粉丝

本科生

47%

还不是VIP/贵宾

-

威望
0
论坛币
1460 个
通用积分
15.4063
学术水平
16 点
热心指数
16 点
信用等级
16 点
经验
5636 点
帖子
80
精华
0
在线时间
101 小时
注册时间
2011-3-21
最后登录
2024-4-13

楼主
gnie 在职认证  发表于 2019-5-5 17:39:35 |只看作者 |坛友微信交流群|倒序 |AI写论文
相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
摘要:

不同机器学习模型对随机数种子的敏感程度不同

本文考察逻辑回归、XGBoost、随机森林和全连接神经网络四种机器学习算法在100组不同随机数种子下的模型性能和单因子回测表现。结果表明,当随机数种子变化时,逻辑回归的结果几乎保持不变,对随机数不敏感;全连接神经网络的结果可能发生较大变化,对随机数较敏感;XGBoost和随机森林对随机数的敏感程度介于上述两者之间。机器学习模型看似“必然”的结果背后包含一定“偶然”因素,投资者应认识到机器学习选股模型可能存在的随机数种子选择偏差。


机器学习多个环节涉及随机数,目的在于增强模型的泛化能力

机器学习多个环节涉及随机数,例如训练集、验证集和测试集的随机划分,对神经网络权值进行随机初始化,利用随机梯度下降法求损失函数最优解,随机森林、XGBoost等决策树集成模型的行列采样,神经网络训练过程中使用Dropout技术等。引入这些随机数具有重要意义,它们或是为了保证损失函数更易达到最优解,或是为了避免极端值对模型训练造成不良影响,或是为了产生具有差异性的样本以便进一步集成,最终目的都在于增强模型的泛化能力。

使用Python常用机器学习包时可进行若干设置保证训练结果可重复

由于机器学习模型中随机数的存在,为了保证结果的可重复性,需要对模型进行若干设置。我们测试了多种常用Python机器学习包随机数种子设置方法,结果表明sklearn和xgboost包设置random_state超参数后就能保证结果可完全复现;当以tensorflow作为后端使用keras包时,如果不使用GPU,在单线程环境下同时固定numpy和tensorflow两处随机数种子就能确保全连接神经网络模型得到可重复的结果。


机器学习模型受随机数影响程度与模型复杂度及随机数作用方式有关

逻辑回归本身比较简单,在使用随机梯度下降算法拟合参数时引入了随机数,由于损失函数为凸函数,参数最终大概率收敛到理论最优参数附近,而较少受随机数影响。神经网络参数量大,在初始化网络权重,利用优化算法最小化损失函数,前向传播进行Dropout等环节均引入了随机数,模型整体具有较高的复杂度,受随机数影响较大。XGBoost和随机森林模型复杂度也较高,行列采样环节涉及随机数,但是由于模型已经进行集成,最终结果的不确定性有所降低。


风险提示:机器学习选股方法是对历史投资规律的挖掘,若未来市场投资环境发生变化导致基学习器失效,则该方法存在失效的可能。机器学习存在一定过拟合风险。当机器学习算法涉及随机数时,不同随机数种子可能得到不同结果。


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:机器学习 人工智能 随机数 Tensor python

必然中的偶然:机器学习中的随机数——华泰人工.pdf

6.21 MB

需要: 5 个论坛币  [购买]

沙发
fin-qq 发表于 2019-5-6 11:21:19 |只看作者 |坛友微信交流群
谢谢分享

使用道具

藤椅
wangyong8935 在职认证  发表于 2019-5-9 21:52:40 |只看作者 |坛友微信交流群

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-1 17:15