楼主: nandehutu2022
1678 35

[量化金融] 可持续投资与最大水位下降截面 [推广有奖]

11
何人来此 在职认证  发表于 2022-6-23 22:27:35
在本文中,我们探讨了三种主要的方法:套索、脊和弹性网第一种被称为Lasso的惩罚回归技术,用于“最小绝对收缩和选择算子”,参见【Tibshirani,1996】,基于等于β系数绝对值的惩罚项:β=argminβNTTXt=1NtXi=1yi,t+1- f(xi,t;β)+ λJXj=1 |βj |其中λ是非负超参数。o岭回归,见[Hoerl,1962],增加了一个与系数大小平方相关的惩罚,称为“正则化”,并解决了以下目标函数:β=argminβNTTXt=1NtXi=1yi,t+1- f(xi,t;β)+ λJXj=1βjj,其中λ是非负超参数弹性网,见【Zou和Hastie,2005】,在套索和脊线之间使用了一个中间目标:β=argminβNTTXt=1NtXi=1yi,t+1- f(xi,t;β)+ λJXj=1 |βj |+λJXj=1βj,其中λ,λ是两个非负超参数。通过设置参数λ=0(分别为λ=λ=0),我们恢复了普通的线性回归。此外,随着λ(分别为λ和λ)的增加,我们通过降低系数值和缩小最不相关的系数来选择一组较小的预测值。降维降维技术在不丢弃剩余信息的情况下减少数据集中特征的数量。与惩罚回归方法不同,惩罚回归方法通过将弱回归器的负荷设置为零来丢弃弱回归器,降维技术形成预测器的不相关线性组合,以减少噪声和集中信号。在我们的分析中,我们依赖两种广泛使用的方法,主成分回归和偏最小二乘法。主成分回归(PCR)是一个两步过程。第一步是主成分分析(PCA),将自变量组合成一组由其解释方差排序的领先成分。预测变量在此步骤中不起作用。

12
大多数88 在职认证  发表于 2022-6-23 22:27:38
第二步是对主要成分进行简单的线性回归。主成分分析(PCA)是最广泛使用的维数缩减技术之一,它可以追溯到【Pearson,1901年】。关键的想法是找到新的坐标系,在该坐标系中,输入数据可以用较少的变量表示,而不会产生明显的误差。与分别执行这两个步骤的PCR不同,偏最小二乘(PLS)回归通过直接考虑预测值与目标预测的协方差,将降维和回归结合起来。这是通过OLS估计每个预测因子p的非变量回归预测系数来实现的。该系数Д表示返回到给定预测值p的部分敏感性。然后将预测值平均为单个聚合成分,权重与Дp成比例,这将为最强的单变量预测值提供最高的权重。然后,将目标和所有预测器相对于先前构造的分量进行正交化,并在正交化集上重复该过程。

13
可人4 在职认证  发表于 2022-6-23 22:27:41
当获得所需数量的组件时,程序停止。更正式地说,我们在向量化版本中编写线性模型,R=Zθ+E,其中R是ri的NT×1向量,t+1,Z是叠加预测器zi,t的NT×P矩阵,E是残差εi,t+1的aNT×1向量。上述线性模型是为一组简化预测值重新编写的:R=(ZOhmK) θK+E,其中K是与初始值的线性组合相对应的减少预测值的数量,OhmKis P×K矩阵,列为w,w,。。。,wK,其中WJJ代表j∈ 1.K是用于创建JTHPPredictive组件的线性组合权重集,ZOhmKis原始预测集的简化版本。回归树和随机森林决策树是最简单的非线性模型,它们依赖于树结构来逼近结果。我们可以将具有M个终端节点和深度L的树的预测表示为:f(xi,t;θ,M,L)=MXm=1θmxi,t∈Cm(L),其中每个Cm(L)是数据的M个分区之一。根据其中一个预测值,确定决策的算法将数据子集按顺序拆分为两部分。选择每个步骤的拆分,以优化根据子节点的不完整性定义的损失函数。杂质通常用基尼指数或熵来衡量。为了防止过度拟合并确保树的可解释性,可以使用不同的标准,如树的最大深度或节点大小。随机森林是许多决策树输出的平均值。每个决策树都基于一小部分训练示例,或者被限制使用一部分输入特征。

14
大多数88 在职认证  发表于 2022-6-23 22:27:45
这样做会增加相对于简单决策树的偏差,但会减少方差,有关更多详细信息,请参见【Breiman,2001】。形式上,如果回归树有L个叶子,并接受大小为m的向量作为输入,那么我们可以定义函数q:Rm→ {1,…,T}将输入映射到叶索引。如果我们用函数w表示叶子上的分数,那么我们可以将第k棵树(在考虑的树集合中)定义为函数FK(x)=wq(x),其中w∈ RT.对于大小为n的训练集,样本由(xi,yi)给出,xi∈ Rm,yi∈ R、 树系综模型使用K个加性函数预测产量,如下所示:^yi,t+1=f(xi,t)=KXk=1fk(xi,t)。极端梯度boosting术语“boosting”是指迭代组合弱学习者(即预测能力弱的算法)以形成具有强预测能力的算法的技术。Boosting从弱学习者开始,如回归树算法,并记录学习者的预测与实际输出之间的误差。在迭代的每个阶段,它都使用错误来改进前一个迭代步骤中的weaklearner。如果将误差项计算为损失函数的负梯度,则该方法称为“梯度增强”极端梯度提升(或XGBoost)指【Chen和Guestrin,2016】中的优化实施。形式上,该模型使用K个加法函数来预测产量,如下所示:^yi,t+1=f(xi,t)=KXk=1fk(xi,t),其中我们取fk(x)=wq(x)(q:Rm→ T,w∈ R) 从回归树空间。

15
nandehutu2022 在职认证  发表于 2022-6-23 22:27:48
q表示将数据集示例映射到相应叶指数的每棵树的结构,T是树中的叶数,每个Fk对应一个独立的树结构q和叶重w。要学习模型中的函数集,正则化目标定义为:L(f)=XtXil(^yi,T+1,yi,T+1)+XkOhm(fk)其中Ohm(f)=γT+λkwk。然后以相加的方式对模型进行优化。如果^y(t)是在boosting迭代的第t阶段对第i个训练示例的预测,那么我们寻求通过函数ft1来增加我们的树集合集合,该函数使以下目标最小化:L(t)=nXi=1lyi,^y(t-1) i+ft(xi)+ Ohm(英尺)。目标函数通过二阶泰勒展开近似,然后进行优化(详情和计算步骤见【Chen和Guestrin,2016年】)。为了防止过度拟合,XGBoost使用收缩和特征子采样。人工神经网络:多层感知器人工神经网络(ANN)是受人脑启发设计的一组算法,用于识别模式。这种框架背后的思想是通过将简单的处理单元连接到一个神经网络来表示复杂的非线性函数,每个神经网络计算一个线性函数,然后可能是非线性函数。类神经元处理单元如下所示:A=φXjwjxj+b,其中,xj是单元的输入,wj是权重,b是偏差,φ是非线性激活函数,a是单元的激活。激活函数是用于将单元(神经元)的触发电平转换为输出信号的函数。

16
能者818 在职认证  发表于 2022-6-23 22:27:51
此类激活函数的示例有:o身份激活函数:φ(x)=x。o逻辑激活函数:φ(x)=(1+e-x) .o双曲tan函数“Tanh”:f(x)=Tanh(x)矩形线性单位函数“ReLu”:f(x)=max(0,x)。这些单元的组合构成了神经网络。每个单元执行一个简单的函数,但总的来说,这些单元可以执行更复杂的计算。在我们的分析中,我们应用了一种简单前馈神经网络的变体,即多层感知器。在sucha模型中,单元被安排在一个非循环图中,并按顺序进行计算(与递归神经网络不同,递归神经网络中的图可以有循环)。如图1所示,多层感知器(MLP)的单元排列在一组包含相同单元的层中。在MLP中,网络是完全连接的,即一层中的每个单元都与下一层中的每个单元连接。第一个输入采用输入特征的值。在回归的情况下,最后一个输出层有一个单位。中间的隐藏层很神秘,因为我们无法提前知道它们的单位应该计算什么。层的数量称为深度,层中单位的数量称为宽度。“深度学习”是指对神经网络进行多层次的训练。xxxxyHiddenlayerInputlayerOutputlayerFigure 1:一个具有一个隐藏层的人工神经网络,用xj表示输入单元,用y表示输出单元,用h(`)i表示第`-个隐藏层。MLP完全连接,因此每个单元都接收来自前一层中所有单元的输入。

17
nandehutu2022 在职认证  发表于 2022-6-23 22:27:54
这意味着每个单元都有自己的偏差,并且权重与连续层中的每对单元相关联:h(1)i=φ(1)Xjw(1)ijxj+b(1)ih(1)i=φ(2)Xjw(2)ijh(1)j+b(2)iyi=φ(3)Xjw(3)ijh(2)j+b(3)i,其中φ(1)和φ(2)是激活函数(对于不同的层可能不同)。2.2数据自变量分析中的自变量包括来自CRSP/ComputeDatabase的公司特征。公司特征的构造和我们用来表示它们的符号取自【Green等人,2013年】,并进行了进一步的清理。附录中提供了详细的特性及其计算。我们与CRSP股票合作,通过其PERMNO代码识别。我们仅对代码以“10”和“11”开头的股票进行分析,这些股票对应于在纽约证券交易所、美国证券交易所或纳斯达克交易的股票。CRSP公司特征与OWL Analytics提供的ESG数据合并,OWL Analytics汇总来自不同供应商的数据,提供涵盖12个主要类别的每月更新ESG分数。每个类别的得分在平均为一个ESG指标(ESG得分)之前,会聚合为主要的三个得分E、S和G。OWL分析数据库中的股票由其ISIN识别,其覆盖范围从2009年4月开始。ESG数据和公司特征合并形成我们的数据集。如【Green等人,2017年】所述,每年更新一次的会计数据与当前时间相比滞后六个月。根据收益率计算的特征,如波动性、一个月和六个月动量、贝塔和买卖价差滞后一个月,而ESG得分滞后两个月。。他们的想法是,这些特征只有在投资者可用时才被使用。我们排除了所有账面市盈率为非正值的股票,以及0.05%最小的股票。

18
能者818 在职认证  发表于 2022-6-23 22:27:58
最后,我们只保留至少连续12个日期的股票。结果数据集涵盖462个月(从1980年1月31日至2018年6月30日),共计17050只股票,平均每个日期3738只股票。图2显示了每个时间段分析中可用的库存数量以及使用ESG数据的库存数量。图2:及时的股票数量该图报告了1980年1月至2018年6月数据集中可用的股票数量以及ESG得分的股票数量。相关变量股票的最大跌幅被定义为固定期限内从峰值到谷底的最大累积损失τ。让P表示股票价格,可通过以下公式计算最大提取额:MDD(P)=supt∈[0,τ]sups∈[t,τ]聚苯乙烯- PtPt公司最大支取是股票在给定时期内遇到的最大支取,因此对于每个时期(和每个股票)都是唯一的。我们依赖于一年前的最大提款,使用计算年度回报的相同移动窗口。我们在图3中展示了MDD的两种表示:两种股票的时间演变及其两个不同时期的横截面分布。图3:一年远期最大提款这两个图报告了1980年1月1日至2017年6月30日(左)期间IBM和BAC一年远期MDD的时间演变,以及2008年12月31日和2014年12月31日的横截面分布。培训、验证和测试数据在金融经济学中,标准做法是将数据集分为样本内和样本外子集,并基于后者评估绩效。对于机器学习模型,更常见的做法是将数据分为三个子集:训练、验证和测试。该训练集用于训练具有相同总体架构但不同超参数的多个模型。验证集用于调整超参数。

19
nandehutu2022 在职认证  发表于 2022-6-23 22:28:02
测试集用于评估模型性能。这一更为精细的过程解决了机器学习模型的复杂性,以及当超参数选择不当时,机器学习模型的超拟合或欠拟合倾向。避免前瞻性偏差、使我们的模型接受最具挑战性的测试的目标以及数据的可用性指导了我们的培训、验证和测试集的规范。当我们在没有ESG数据的情况下运行模型时,我们使用从1980年1月1日至1999年4月30日运行的培训集、从1999年5月1日至2007年3月31日运行的验证集以及从2007年4月1日至2018年6月30日运行的培训集。从2009年6月30日开始的ESG数据的短暂历史迫使我们做出两个妥协。首先,我们跳过验证步骤,依赖于在前一次运行中选择的超参数(没有ESG数据)。这为测试留下了更多的数据。其次,我们将金融危机放在培训集中,而不是测试集中,使我们的模型更容易成功。我们的训练集从1980年1月1日运行到2013年6月30日,测试集从2014年7月1日运行到2018年6月30日。预处理数据预处理是将原始数据转换为“可理解”格式的技术。一些机器学习算法对值的范围特别敏感,而重新缩放数据是克服此问题的常用方法。由于我们对企业特征的横截面影响感兴趣,我们在每个日期对自变量进行z评分。这意味着对于每个日期,我们减去横截面平均值,然后除以横截面标准偏差:Xsc=X- E(X)σ(X)。此转换将所有变量标准化为均值0和方差1,同时保持每个变量沿横截面对股票的排序。在运行模型之前,我们需要处理丢失的数据。

20
可人4 在职认证  发表于 2022-6-23 22:28:05
这个问题在机器学习应用中非常普遍和重要。数据中的缺失值是由于在给定日期缺少给定股票的信息造成的。删除丢失信息的库存不是一个解决方案,因为这将导致很少的观察结果。因此,我们依赖插补方法。最常见的插补方法是均值、中位数、模式和K近邻。在我们的例子中,用中位数替换类别变量的缺失值,用均值替换数值变量的缺失值,可以在验证集上获得更好的结果。再一次,中位数和均值是给定日期的所有股票。在机器学习中,超参数是一个参数,其值在学习过程开始之前设置,并且与模型的体系结构相关。超参数的例子有惩罚回归的惩罚项,以及神经网络中隐藏层的数量和单元的数量。超参数通过avalidation过程指定,选择超参数是为了最大限度地减少验证集上的模型误差。K-fold交叉验证是调整超参数的标准方法。该方法将训练数据分割成大小相等的子集。具有固定超参数集的模型基于k的并集- 1个子集,并在第k个子集上进行评估。重复此过程k- 1次,平均评估分数,得出总分。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-10 05:08