楼主: kedemingshi
805 26

[量化金融] 利用年度文本片段深度学习预测苦恼 [推广有奖]

  • 0关注
  • 4粉丝

会员

学术权威

78%

还不是VIP/贵宾

-

威望
10
论坛币
15 个
通用积分
89.2735
学术水平
0 点
热心指数
8 点
信用等级
0 点
经验
24665 点
帖子
4127
精华
0
在线时间
0 小时
注册时间
2022-2-24
最后登录
2022-4-15

楼主
kedemingshi 在职认证  发表于 2022-6-11 03:31:20 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Predicting Distresses using Deep Learning of Text Segments in Annual
  Reports》
---
作者:
Rastin Matin, Casper Hansen, Christian Hansen and Pia M{\\o}lgaard
---
最新提交年份:
2018
---
英文摘要:
  Corporate distress models typically only employ the numerical financial variables in the firms\' annual reports. We develop a model that employs the unstructured textual data in the reports as well, namely the auditors\' reports and managements\' statements. Our model consists of a convolutional recurrent neural network which, when concatenated with the numerical financial variables, learns a descriptive representation of the text that is suited for corporate distress prediction. We find that the unstructured data provides a statistically significant enhancement of the distress prediction performance, in particular for large firms where accurate predictions are of the utmost importance. Furthermore, we find that auditors\' reports are more informative than managements\' statements and that a joint model including both managements\' statements and auditors\' reports displays no enhancement relative to a model including only auditors\' reports. Our model demonstrates a direct improvement over existing state-of-the-art models.
---
中文摘要:
公司困境模型通常只在公司年报中使用数字财务变量。我们开发了一个模型,该模型还使用了报告中的非结构化文本数据,即审计师报告和管理层声明。我们的模型由一个卷积递归神经网络组成,当与数值财务变量连接时,该网络学习适合于企业困境预测的文本描述。我们发现,非结构化数据在统计学上显著提高了困境预测的性能,特别是对于准确预测至关重要的大型公司。此外,我们发现,审计师的报告比管理层的声明更具信息量,与仅包含审计师报告的模型相比,包含管理层声明和审计师报告的联合模型没有显示出任何增强。我们的模型显示了对现有最先进模型的直接改进。
---
分类信息:

一级分类:Computer Science        计算机科学
二级分类:Computation and Language        计算与语言
分类描述:Covers natural language processing. Roughly includes material in ACM Subject Class I.2.7. Note that work on artificial languages (programming languages, logics, formal systems) that does not explicitly address natural-language issues broadly construed (natural-language processing, computational linguistics, speech, text retrieval, etc.) is not appropriate for this area.
涵盖自然语言处理。大致包括ACM科目I.2.7类的材料。请注意,人工语言(编程语言、逻辑学、形式系统)的工作,如果没有明确地解决广义的自然语言问题(自然语言处理、计算语言学、语音、文本检索等),就不适合这个领域。
--
一级分类:Quantitative Finance        数量金融学
二级分类:Computational Finance        计算金融学
分类描述:Computational methods, including Monte Carlo, PDE, lattice and other numerical methods with applications to financial modeling
计算方法,包括蒙特卡罗,偏微分方程,格子和其他数值方法,并应用于金融建模
--
一级分类:Quantitative Finance        数量金融学
二级分类:Risk Management        风险管理
分类描述:Measurement and management of financial risks in trading, banking, insurance, corporate and other applications
衡量和管理贸易、银行、保险、企业和其他应用中的金融风险
--

---
PDF下载:
--> Predicting_Distresses_using_Deep_Learning_of_Text_Segments_in_Annual_Reports.pdf (337.13 KB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:深度学习 Applications Quantitative unstructured Presentation

沙发
mingdashike22 在职认证  发表于 2022-6-11 03:31:25
利用年度报告中文本片段的深度学习预测困境,*, Casper Hansenb,Christian Hansenb,Pia Molgaardanmarks Nationalbank,DK-1093 Copenhagen K,DenmarkbDepartment of Computer Science,University of Copenhagen,DK-2100 CopenhagenO,DenmarkAbstractCorporate Dispose models通常只在公司年度报告中使用数字财务变量。我们开发了一个模型,在报告中也使用非结构化文本数据,即审计师报告和管理层声明。我们的模型由一个卷积递归神经网络组成,当与数值财务变量连接时,该网络学习适合于企业困境预测的文本描述性表示。我们发现,非结构化数据在统计学上显著提高了危机预测性能,尤其是对于准确预测至关重要的大型企业。此外,我们发现,审计师的报告比管理层的声明更具信息量,同时包含管理层声明和审计师报告的联合模型与仅包含审计师报告的模型相比,没有显示出任何增强。我们的模型显示了对现有最先进模型的直接改进。关键词:公司违约预测、离散风险模型、卷积神经网络、递归神经网络1。简介统计公司困境预测是一项二元分类任务,由Altman(1968)和Ohlson(1980)等人率先提出。他们使用有限数量的财务比率作为输入,并使用简单的模型,如线性判别分析和逻辑回归进行分类,其中财务比率以线性组合的形式进入模型。

藤椅
kedemingshi 在职认证  发表于 2022-6-11 03:31:28
自那时起,一系列先进的统计方法(“机器学习”)被应用于梯度增强(如Caruana和NiculescuMizil(2006))和神经网络(如Atiya(2001);Tsai和Wu(2008)),包括卷积神经网络(Hosaka(2019))。传统上,困境模型仅采用企业年度报告中的数字财务变量,即结构化数据。然而,年度报告还包含文本段形式的非结构化数据(审计师报告和管理层声明),这可能是灾难预测的丰富信息来源。*相应的authorEmail地址:rma@nationalbanken.dk(拉斯汀·马汀),c。hansen@di.ku.dk,+4542802347(卡斯珀·汉森),chrh@di.ku.dk,+4542482347(Christian Hansen),pim@nationalbanken.dk(Pia Molgaard)自2013年起,丹麦监管机构要求企业按照开放数据财务报告标准提供年度报告,该标准称为可扩展业务报告语言(XBRL),可轻松提取这两个文本段。基于自然语言处理领域的最新进展,我们提出了一种预测企业困境的深度学习方法,该方法将这些文本片段与数字财务变量相结合。通过使用2013年至2016年丹麦企业年度报告(相当于278047个企业年度),我们的测试表明,与仅基于结构化数据的通用最新基线分类法相比,审计师的报告以及管理层的报表在较小程度上提高了预测准确性。这表明,非结构化数据包含一个信号,可以增强企业困境预测模型。

板凳
能者818 在职认证  发表于 2022-6-11 03:31:31
数据的现成可用性使得这项研究特别有价值,因为目前的最新技术可以直接进行整理。我们研究了一个采用审计师报告的模型,一个采用管理层声明的模型,以及一个同时采用审计师报告和管理层声明的amodel。对于这三个模型中的每一个,我们首先对文本应用标准的预处理技术,然后使用卷积递归神经网络进行模式提取和识别。然后将卷积递归神经网络的输出与数值财务变量连接,并使用两个完全连接的层来估计最终模型。我们的模型进一步利用了注意机制,通过能够突出显示对最终预测很重要的单词,提高了模型的可解释性。我们将这三个模型的性能与仅基于结构化数据的三个竞争性危机预测模型进行了比较:逻辑回归、梯度增强树和与使用文本的网络具有相同体系结构的神经网络。采用文本的模型优于所有其他模型。具体而言,我们发现,在神经网络中加入审计报告、管理层声明和两个文本段,可将AUC测量的预测准确率分别提高1.9、1.1和1.8个百分点。包括审计师报告在内的模型的绩效明显优于包括管理层声明在内的模型,这表明审计师报告的信息量更大。包含这两个文本段产生的结果与仅包含审计师报告的结果相同,说明在我们的样本中,管理层的声明中不包含对困境预测有用的信息,这些信息超出了审计师报告中已经包含的信息。

报纸
nandehutu2022 在职认证  发表于 2022-6-11 03:31:35
最后,我们对占经济债务95%的大型企业的子样本进行了相同的分析,并在纳入审计报告时发现了更强的模型改进。鉴于该测试是在丹麦数据上进行的,而且丹麦是一个相对较小的经济体,我们认为,与其他较大的经济体相比,文本分析的收益应被视为一个下限,在其他较大的经济体中,更多的数据允许改进模型训练,特别是对于数据饥饿模型,如神经网络。在下一节中,我们将回顾相关工作。第3节和第4节分别描述了数据和方法,第5节证明了我们的方法在预测公司困境方面的适用性。在第6节中,我们展示了所选单词块的热图,并在第7.2节中得出结论并概述了未来的工作。文献综述传统上,金融研究中的文本分析包括基于词数的简单语义分析(参见Loughran和McDonald(2011)以及本文的参考文献)。最近的一个例子是Buehmaierand Whited(2018),他使用天真的Bayes算法,通过使用每个管理层报表中的字数作为输入,对企业受到财务约束的概率进行建模。一小串与我们的工作最相关的文献致力于公司困境预测中的文本分析。Hájek和Olej(2013)根据文本中的特定词语,将年度报告分为六个不同的语义类别。然后,他们使用各种模型表明,情绪指标提高了模型预测企业困境的能力。R"onnqvistand Sarlin(2017)开发了一个深度学习模型来分析金融新闻,目的是识别陷入困境的金融机构,Cerchiello等人。

地板
能者818 在职认证  发表于 2022-6-11 03:31:38
(2017)对模型进行了推广,将数字财务变量也包括在内。我们在Hájek和Olej(2013)的工作基础上,应用了基于深度学习的高度数据驱动的文本处理方法,从而允许我们学习更深入的文本表示并提取更强的信号。此外,我们通过分别检查审计师报告和管理层声明,深入了解年度报告的哪些特定文本部分包含与困境预测最相关的信息。这种数据驱动的文本分析方法与R"onnqvist和Sarlin(2017)以及Cerchiello等人(2017)的方法非常接近。然而,与Cerchiello等人(2017)相比,我们从端到端地学习了文本表示,Cerchiello等人首先学习了与特定任务无关的文本表示,然后将其与数字财务变量一起使用。我们的方法可以通过文本表示来寻找报告中的信号,这些信号对于痛苦预测任务非常重要。此外,我们的分析基于跨公司同质的年度报告,而新文章往往侧重于公众感兴趣的特定故事。更深入的研究是使用神经网络和其他机器学习技术(仅基于数值金融变量)重新评估模型的概念(见Jones et al.(2017);Sun等人(20172014);Zieba等人(2016年))。现有文献倾向于发现,当模型中仅包含数值财务变量时,基于树的算法,即随机森林和梯度增强树,优于神经网络。因此,除了传统的逻辑回归模型外,我们还将我们的模型与神经网络以及最先进的梯度增强树进行了对比。3、数据我们的数据集基于Christoffersen等人(2018)使用的数据。

7
mingdashike22 在职认证  发表于 2022-6-11 03:31:41
它包括由所有丹麦非金融和非控股私人有限公司和股份制公司主导的非合并年度报告。该数据通过丹麦中央商业登记处的年龄、部门和法律地位等企业特征进行了补充。总的来说,数据集包括表1中列出的50个数字财务变量(44个连续变量和6个分类变量)。下面的列表来自athresholded Lasso的应用,数值变量分别以5%和95%的分位数进行排序,以提高性能(Christoffersen et al.(2018))。我们还包括同一年度报告中的审计师报告和管理层声明。管理层的声明描述了管理层对给定规模年的意见及其对公司未来的展望。审计报告由几个段落组成,其中(可能)对困境预测最重要的段落包含了审计人员对年度报告的意见,并总结了公司的财务健康状况。在本节中,审计人员将明确说明对公司持续经营的任何担忧或对管理层声明的任何异议。我们在模型中包括这两个文本段的所有可用段落。我们正式寻求对给定企业陷入困境的概率进行建模,其中“困境”指“破产”、“破产”、“强制解散”或“强制解散后不复存在”。由于其他原因而不复存在的公司以及在上一份年度报告公布后两年多陷入困境的公司不在我们的样本范围内。我们的样本期从2013年开始,这标志着XBRL格式的语句可用的时间点。

8
何人来此 在职认证  发表于 2022-6-11 03:31:44
该样本于2016年结束,并标记了我们可以观察到已实现困境的最后一年。截至2006年,丹麦法律不要求小型和新成立的公司在其年度报告中包含审计报告。由于我们希望在使用两个文本段中的一个或两个文本段时直接比较模型,因此我们将数据集限制为同时包含管理层声明和审计师报告的声明。这一限制从数据集中删除了88 343个固定年份(相当于24.1%),提取的数据由Bisnode提供给我们。详情请参考丹麦商业和公司局。我们的最终数据集包含278047个公司年,112 974个独特公司和8033个不良资产。管理层报表和审计师报告的25%、50%和75%的百分位数分别为37、54和83个单词,187、205和219个单词。审计师报告的篇幅越长,不一定意味着相关信息越多,因为审计师报告通常包含描述审计师责任和总结会计实践的标准化段落。3.1. 文本预处理为了预处理非结构化数据,我们将以下五个步骤应用于每个年度报告的审计师报告和管理层声明:1。删除标点符号、换行符和制表符,并转换为小写。2、将波特词干提取算法(Porter,2001)与NLTK库(Bird等人,2009)相结合,以获取词干,并使单词能够以其标准形式进行评估。3、删除包括数字(即日期和金额)在内的停止词,以避免将网络过度设置为特定格式。数字被通用数字标记替换。4.

9
能者818 在职认证  发表于 2022-6-11 03:31:47
使用spaCy进行命名实体识别(Honnibal和Montani,2017),以去除文本中可能导致在培训过程中过度匹配的任何名称和实体,并减少概括性。在构建词汇表的过程中,我们忽略了整个数据集中出现次数少于25次的单词。步骤1、2和3被视为标准过程,目的是减少文本中的唯一标记,以减少报告中的可变性。步骤4和5的目的是通过从文本中删除所有名称和实体来创建一个能够很好概括的模型。其目的是防止模型过度拟合某些特征,如公司名称、审计师名称和地点。低频词的删减(步骤5)是明确完成的,因为丹麦词嵌入只在DanishWikipedia的一个垃圾堆上进行训练,因此稀有词不会被表示。我们对困境的定义意味着,企业可能会进入多重危机时期。在我们的样本中,有47起是此类复发事件。类型输入变量连续应付账款*应收账款*日志大小更改公司税*流动资产*递延税款*折旧*息税前利润*股权/投资资本权益*预期股息*金融资产*财务收入*融资成本*固定成本*工业EW平均值。

10
nandehutu2022 在职认证  发表于 2022-6-11 03:31:50
净利润*利息保障率*投入资本*土地和建筑物*流动资产*log(账龄)log(规模)长期银行债务*长期债务*长期抵押债务*净利润*其他营业费用*其他应收款*其他短期债务*人员成本*预付款*准备金*从关联方获得的快速比率*相对债务变动留存收益*股本回报率(%)短期银行债务*短期抵押贷款债务*有形固定资产*税务费用*应收账款总额*Categorical拥有优先的Disessis private limited(丹麦“Anpartsselskab”)大额债务变动负股权地区部门表1:数字财务变量及其类型(continuousor Categorial)。下表列出了模型中包含的50个数字财务变量。星号表示按公司规模进行缩放,当权益为负时,该公司的总债务被定义为公司总资产。关于每个变量的定义以及变量选择程序的详细信息,请参考Christoffersen等人(2018)。4、企业困境预测模型在本节中,我们首先描述了预测企业困境的网络架构,该架构除了数字财务变量外,还包含了两个文本部分中的一个或两个,然后概述了在实验评估中用于比较的竞争基线模型。4.1. 主要模型我们首先概述了我们的模型,以提高对其各个部分的理解:单词表示:我们使用单词嵌入将文本段中的每个单词映射到特征空间中的密集向量中,其中语义相似的单词彼此接近。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-2 09:55