楼主: kedemingshi
806 26

[量化金融] 利用年度文本片段深度学习预测苦恼 [推广有奖]

11
大多数88 在职认证  发表于 2022-6-11 03:31:53
使用此方法,我们将给定的文本段拆分为半个重叠的单词块。模式提取:使用嵌入的字块我们利用卷积神经网络(CNN)从每个块中提取模式,并学习低维表示。模式理解:神经网络的模式输出被输入到递归神经网络(RNN),最终的文本表示被计算为各个RNN输出的触角加权和。特征扩展和预测:我们将注意力加权和与表1中列出的数字变量连接起来,并通过两个完全连接的层将其反馈给最终的公司困境概率预测。在下文中,我们将详细解释各个部分,并参考图1了解网络架构的视觉描述。4.1.1. 单词表示我们选择通过最先进的单词嵌入来表示每个单词的语义,这是从单词到密集向量表示的映射,语义相似的单词彼此接近。我们使用word2vec模型(Mikolov等人,2013),特别是skip-gram模型。skip-gram模型的目标是让一个单词能够预测其周围的单词。对于单词sw、w、…、,。。。,wnwe最大化对数概率pmaxnn∑t=1c∑j=-c、 j6=0log p(wt+j | wt)(1),其中c表示要考虑的当前单词前后的单词数,在本文中固定为5。负采样用于计算对数p,单词按其逆频率的比例进行次采样。在word2vec中,语义相似的单词之间具有很高的余弦相似性,并允许对单词进行向量计算,例如,king- 男+女与女王关系密切。

12
可人4 在职认证  发表于 2022-6-11 03:31:56
我们并没有从头开始学习单词嵌入,而是从DanishWikipedia的垃圾堆中挖掘一个预先训练过的模型,并在网络培训期间对其进行微调。为了在下一步中为美国有线电视新闻网(CNN)准备年度报告的给定文本片段,我们创建了步长为k的半重叠词块,以便第一块由单词w、w、…、,。。。,wk和下一块wk/2,wk/2+1,。。。,wk/2+k。如果单词嵌入映射到Rv中的向量,那么这些块B中的每一个都是大小为k×v的矩阵,在我们的设置中,v=300。我们认为这些嵌入的单词块是我们模型的输入,下一步CNN将从中提取模式。4.1.2. 模式提取对于每个块B,我们应用由卷积和最大池步骤组成的单层CNN。卷积的目的是提取学习到的滤波器和嵌入的字块之间的匹配模式,以便学习一种表示,能够输入哪些模式对遇险预测任务很重要。我们从块B中学习m过滤器,每个过滤器生成一个新的表示x,即我们以p的x(p)表示结束∈ {1,2,…,m}。x(p)中的第i项由x(p)i=γ给出-1.∑s=0v-1.∑j=0W(p)s,jBi+s,j(2),其中γ表示过滤器中考虑的字数(应小于k),v表示单词嵌入的大小,W是大小γ×v的学习参数。过滤器仅在不超出边界时应用,导致x(p)是大小k的向量-γ + 1.然后对每个x(p)进行最大合并,以提供平滑信号。我们将最大合并向量x(p)表示为z(p),其中第i个条目由z(p)i=maxx(p)s,s给出∈i、 i+τ- 1.(3) 其中τ表示池大小。最大池仅在不越界时应用,导致z(p)https://github.com/Kyubyong/wordvectorshaving尺寸k- γ - τ +2.

13
mingdashike22 在职认证  发表于 2022-6-11 03:32:00
最后,将每个过滤器的结果串联起来,得到每个大小块(k)的最终向量表示z- γ - τ+2)×m.4.1.3。模式理解为了能够从整体上了解文本的语义和顺序性质,我们在上一节推导的块表示上使用RNN。具体而言,我们在块表示{z,z,…,zT}上使用长-短记忆(LSTM)网络(Hochreiter和Schmidhuber,1997),其中T表示年度报告文本段划分的块数。在给定的步骤t,LSTM单元接受三个输入:tth字块表示zt,前一个输出ht-1和之前的细胞状态ct-1、单元格然后通过执行以下FT=σ计算Ht和CtWf·[ht-1,zt]+高炉(4) it=σWi·[ht-1,zt]+bi(5) ut=tanh吴·[ht-1,zt]+bu(6) ot=σWo·[ht-1,zt]+bo(7) ct=英尺 计算机断层扫描-1+it ut(8)ht=ot tanhct(9),其中σ和tanh是元素方向的sigmoid和双曲正切函数, 是元素级乘法,所有W和b都是学习参数,ft,it,Total被称为STM单元的遗忘、输入和输出门。我们使用分步输出的注意力加权和,而不是在最后一步hT使用输出。具体而言,对于每个HTS,我们学习一个标量分数(ht),表明该特定ht的重要性。分数是使用具有线性化的大小为1的单层计算的。我们使用softmax函数对每个标量进行归一化,以得出每个注意权重αtαt=exp(分数(ht))∑Ti=1exp(得分(hi))(10)然后,我们可以通过加权sumh最终=T得出最终的注意力加权文本呈现∑t=1αtht(11)使用注意力的好处是使模型能够将注意力集中在更少但更重要的文本部分,以学习更好的描述性表达(Zhang等人,2018)。

14
kedemingshi 在职认证  发表于 2022-6-11 03:32:04
此外,它还可以改进较长文本中的梯度流,例如本文中我们使用的文本。4.1.4. 特征扩展和预测我们现在有了一个密集的文本表示,h final,我们将其与表1中的数值变量Hnum连接,生成一个长度等于手工制作的特征数量和LSTM单元大小之和的向量HConcat。这种串联的表达是通过大小为200和50的两个完全连接的层进行的,其中一个神经元层是乙状结肠激活的最后一步。这是为了在进行最终预测之前,允许文本表示与数值变量交互。尺寸为200和50的两层使用矩形线性单元(ReLU)激活函数HCONCAT=[最终,hnum](12)l=ReLUW·h最终+b)(13)l=ReLUW·l+b)(14)PD=σW·l+b(15) 其中PD表示预测的遇险概率。我们使用Adam优化器(Kingmaand Ba,2014)训练网络,并使用二进制交叉熵作为损失函数。我们将在第4.2节中详细说明交叉验证网络配置的参数。众所周知,神经网络容易过度匹配(Gu等人,2018)。作为规范培训过程的一种方式,我们留出10%的培训集作为验证。验证集用于提前停止,即当网络开始超过fit.4.2时,我们终止梯度下降。在主模型中,我们使用超参数空间上的交叉验证来调整神经网络。对于卷积神经网络,我们考虑集合{10,15,20}中的块大小,{40,60}中的滤波器数量,{2,4,6}中的池大小。对于递归神经网络,我们考虑{50100150}中的LSTM单元大小。最后,我们考虑{10-3,10-4}.

15
mingdashike22 在职认证  发表于 2022-6-11 03:32:07
我们最多运行10个历元,但由于提前停止,这些历元从未被删除,由于内存限制,我们使用的批大小为64。我们观察到,对于这组参数,两个文本段的结果都是稳健的,都在一个标准误差之内。因此,我们在模型中使用典型值。对于卷积神经网络,这意味着块大小为k=20,我们在TensorFlow中实现了神经模型(Abadi et al.,2016)。第5.1节中描述的AUC用作参数调整期间的性能指标。m=40个过滤器,池尺寸τ=4。递归神经网络使用单元大小为100的LSTM,我们采用的学习率为10-我们将γ(要卷积的字数)设置为块大小的一半,即γ=10。两个文本段的网格搜索结果如附录图A.1所示。4.3. 基线模型我们仅基于数字财务变量实施三个基线模型,webenchmark将其作为我们的主要模型。首先,我们基于与主模型相同的体系结构实现了一个神经网络,但不包括文本组件。也就是说,模型由图1中的两个顶部致密层组成。该模型可以作为一个自然的基准,因为它将揭示文本段对预测精度的影响。其次,我们实施了一个基于梯度增强树的模型,特别是XGBoost(XGB)(Chen and Guestrin,2016),该模型在预测企业破产方面的表现通常优于神经网络(Jones et al.,2017;Zieba et al.,2016)。

16
能者818 在职认证  发表于 2022-6-11 03:32:10
它是一种集成技术,递归地将多个相对简单的模型(由回归树组成的所谓(弱)基学习器)组合在一起,以生成高精度的预测规则。最后,我们实施了logistic回归(logit),这是一种相对简单但非常常见的遇险模型选择(见Beaver et al.(2005);坎贝尔等人(2008年);Chava和Jarrow(2004);舒姆韦(2001))。5、实验评价5.1。评估指标我们使用两个指标(AUC和对数分数)量化模型性能。AUC(接收机工作特性曲线下的面积)是遇险预测模型中常用的指标。它衡量了一个模型对某一特定年份内经历过危机事件的某一家公司的风险高于某一特定年份内没有经历过危机事件的随机公司的风险的概率。因此,0.5是随机猜测,1是完美结果。AUC只是一个排名指标;一个模型可以很好地评价企业,但在预测概率水平方面表现不佳。一般来说,我们对校准良好的概率感兴趣,除了它们的排列。因此,我们也可以查看日志分数,其中卷积MaxPooling fl AttencnWord1Word2WordKwordK/2wordk/2+1wordk/2+kwordn-k/2wordn-k/2+1wordnEmbedded WordBlock 1 Embedded WordBlock 2 Embedded WordBlock Tcnlstmcnlstmcnnlstmattention weightingEngineered Features Concat Dense(200)Dense(50)DisessProbability图1:网络架构。考虑单个预测概率。给定模型的对数分数L定义为L=-N∑i、 t(yitlog(^pit)+(1- yit)日志(1- ^pit))(16)式中,^pit是模型预测的t年第一家公司的遇险概率,如果t年第一家公司遇险,则yitis是等于1的假人,否则为0,Nis是样本量。较小的对数分数意味着更好的模型5.2。

17
nandehutu2022 在职认证  发表于 2022-6-11 03:32:13
主要结果本节介绍了我们模型的样本外测试的主要结果。我们使用10倍交叉验证,其中褶皱是通过采样公司构建的。理想情况下,我们会使用一个不断扩大的数据窗口来估计模型,并在估计窗口关闭两年后预测企业陷入困境的可能性,从而模拟真实的预测情况。然而,由于我们数据集中的年数有限,这种预测方案在当前研究中不可行。图2显示了具有一个标准误差带的平均AUC和对数分数,其中无文本的神经网络表示为NN,有文本的神经网络表示为NNaud+man、NNaud和NNMAN,并根据模型中包含的文本段(aud表示审计师报告,man表示管理层声明)。此命名法将用于本文的其余部分。我们观察到,与所有基线模型相比,具有文本的神经网络具有更高的erauc和更小的log分数。也就是说,带有文本的模型在根据风险对企业进行排名方面都更好,并且总体上提供了更好的模型。表2中进一步总结了图2的结果以及配对双尾t检验的p值,比较了每个基线模型toNNaud+MannnaudnmanxGBnnlogit0.810.820.830.840.850.1050.1100.115的结果。图2:平均AUC和对数分数。图中显示了六个模型的平均AUC(左轴)和平均对数分数(右轴),每个模型都有一个标准误差带。平均值和标准误差是根据抽样企业构建的10倍来计算的。分别为NNaud+man、NNaud和NNman。与任何基线模型相比,无论是AUC还是对数分数,在模型中都观察到了统计上显著的改善。

18
mingdashike22 在职认证  发表于 2022-6-11 03:32:16
具体而言,我们发现,在神经网络中包括审计师报告、管理层声明以及两者,可分别提高AUC 1.9、1.1和1.8个百分点。也就是说,审计师的报告和管理层的报表都具有显著的预测能力,超出了数字财务变量本身的预测能力。NNaudis的AUC和log分数明显优于NNman,即审计师的报告比管理层的声明包含更多有价值的信息。对此可以有几种解释。首先,审核员的报告较长,使神经网络能够更好地学习文本的表示。第二,也是更重要的一点,管理层关于自身业务的陈述可能不够客观,倾向于对未来有一个更光明的展望,而独立审计师的报告包含了审计师公正的专业意见。有趣的是,Naud和Naud+man之间没有显著差异。如果说有什么区别的话,那就是有一个小小的趋势,那就是NNaud表现得比NNaud+man更好。这一发现意味着,尽管管理层报表中有财务变量无法捕捉到的信息,但管理层报表中的所有信息都是由审计师报告捕捉到的。因此,在未来的工作中,最好只关注审计师的报告,而忽略管理层的声明。hAUCi paud+Manpaudpmannaud+man0.843––NNaud0.844 0.233––NNman0.836 0.000 0.000–XGB 0.830 0.000 0.000 0.003NN 0.825 0.000 0.000 0.000 Logit 0.814 0.000 0.000 0.000(a)AUC hL i paud+Manpaudpmannaud+Mannaud 0.1070––NNaud0.1064 0.4263––NNman0.1078 0.1471 0.0032–XGB 0.1085 0.0643 0.0001 0.0372NN 0.1098 0.0005 0.0000 0.0001Logit 0.1110 0.0001 0.0000 0.0000(b)对数得分表2:平均AUC和对数得分。

19
可人4 在职认证  发表于 2022-6-11 03:32:19
该表显示了(a)平均AUC和(b)平均对数分数,其中paud+man、paud和PMA的p值来自当前模型和三个模型(包括文本)分数之间的配对双尾t检验。平均值和标准误差是根据10倍计算的,这是通过采样公司构建的。5.3. 大型企业的结果重复上述测试,但仅包括规模大于500万丹麦克朗的企业。这些公司仅占样本规模的35.4%,但占总债务的95.4%。量化这些占主导地位的公司的业绩更令人感兴趣,因为它们持有经济中大部分的总资产和债务。模型估计仍在全样本上进行。结果总结在表3中,我们观察到,与之前的实验相比,所有模型都产生了更好的AUC和对数分数。这并不奇怪,因为大型企业可能会提供更准确的年度报告,从而实现更准确的模型预测。有趣的是,在将审计报告添加到神经网络时,AUC现在增加了2.6个百分点,在之前的实验中,AUC增加了1.9个百分点。我们推测,这是因为大型公司的审计报告质量更高,信息更丰富,这意味着神经网络可以从中提取更多信息。参考表1,我们将公司规模定义为权益为负值时的公司总债务,以及其他总资产。日志分数大幅下降的部分原因还可能是大型企业的失业率较低。结果变量组成的变化将通过构造降低对数分数。相反,就管理层的声明而言,我们没有看到AUC的增加,XGB和NNManis之间的AUC差异现在并不显著。

20
能者818 在职认证  发表于 2022-6-11 03:32:22
这突出表明,需要从审计师报告中提取信息,尤其是在涉及大型企业时,而管理层的声明信息较少。显著性损失可能是由较小的样本量造成的,从而导致单个褶皱的更极端值。型号hAUCi paud+Manpaudpmannaud+man0.877––NNaud0.879 0.562––NNman0.864 0.013 0.004–XGB 0.860 0.000 0.000 0.290NN 0.853 0.000 0.000 0.002Logit 0.834 0.000 0.000 0.000(a)AUC型号hL i paud+Manpaudpmannaud+Mannaud+man0.0611––NNaud0.0611 0.9815––NNman0.0627 0.0551 0.0095–XGB 0.0611 29 0.0085 0.0127 0.6588NN 0.0640 0.0036 0.0001 0.0046Logit 0.0657 0.0000 0.0001 0.0002(b)对数得分表3:大型企业的平均AUC和对数得分。该表显示了(a)平均AUC和(b)平均对数得分,其中paud+man、paud和PMandnote p值来自当前模型和三个模型(包括文本)得分之间的配对双尾t检验。平均值和标准误差是根据10倍计算的,这是由大于500万丹麦克朗的抽样公司构成的。5.4. 稳健性:跨时间采样,以确保文本中观察到的信号不仅仅是特定折叠组合的结果,在这种情况下,我们意外地测量了时间效应的代理,我们还执行稳健性测试,其中我们根据年度报告的发布年份显式构建折叠。这一共是四倍。表4总结了该实验的结果,这些分数显示出与表2中相同的趋势,进一步验证了结果。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-2 12:05