文本大数据分析近年来在经济管理学研究当中应用广泛。为了助力学者们实现“文本分析自由”,CSMAR推出了多个文本分析主题的数据库,提供多元化的指标,可直接运用到相关研究当中。同时,为了帮助学者们更好地了解文本分析方法及相关数据资源地应用,本期内容中我们将针对文本语义研究,结合CSMAR美国上市公司年报风险度量数据库,为大家解读研究案例,分享数据资源。
文本语义研究简述
文本大数据分析主要用于获取社会文本当中的非结构化信息,其过程主要包括:语料获取、文本的预处理、文档表示以及文档的特征抽取。然后研究者再根据需要将抽取的文档特征应用到具体的分析当中。
其中,语义关联性是根据某一类词语去识别文本语义特征。首先依照某一类关键词构建词表,然后计算词表中词语在文档中的词频,进而识别出文本中与关键词语义相关的语义特征。已有研究中,学者们常用的语义关联性涉及到企业的风险、数字化程度、创新等。
针对风险主题的语义关联性研究,CSMAR美国上市公司年报风险度量数据库为研究者提供了美国上市公司年报文本风险计算基础的数据以及风险度量指标,包括风险一词词频、风险相关词频、风险水平、下行风险水平、下行风险水平变化率等,可直接应用于相关研究当中,为研究的开展带来了极大便利。
下面我们将通过研究案例,了解相关数据资源在实际研究中的应用。
文本语义(风险)研究案例
实证范文1:Risk reporting and stock return in the UK: Does market competition Matter? [J]. North American Journal of Economics and Finance, 2022.
英国上市公司风险信息披露与股票收益:市场竞争的影响
内容概要
文章检验了市场竞争对上市公司风险信息披露行为的影响,包括风险水平和披露语调。作者以股票收益来反映风险信息的作用,研究结果显示,当市场竞争度上升时,公司会披露更多风险信息,语调更消极,以期遏制竞争者进入市场。文章还发现,股票市场超额收益不受公司披露的风险水平的影响,但会受到消极披露语调的负面影响。
研究设计
作者首先基于以下模型分析了市场竞争程度对风险信息披露行为(水平与语调)的影响,其中市场竞争程度以赫芬达尔指数(HHI_Score)表示:
然后,作者以股票收益(Ab_Return)来刻画投资者对风险信息披露水平与语调的反应,构造以下模型,分析其受风险披露行为的影响情况:
重要变量
相关数据
-海外研究系列-美国年报风险
实证范文2:Predicting corporate policies using downside risk: A machine
learning approach [J]. Journal of Empirical Finance, 2021.
运用下行风险预测公司政策:基于机器学习方法
内容概要
文章基于机器学习的方法,研究了上市公司10K报告中的下行风险披露文本对预测企业政策变化(包括在杠杆、投资、雇员、R&D、现金持有及派息方面的政策)的有效性。
文章基于机器学习方法进行文本挖掘,构建了下行风险衡量指标,刻画下行风险水平的变化,然后通过OLS/Logistic以及LASSO回归分析了风险变化对公司政策的预测。结果表明,下行风险水平与杠杆、资本支出、R&D、雇员、派息、股票回购等政策反向变动,与现金持有同向变动。
研究设计
其中,POLICY指的是企业在各项政策(杠杆、资本支出等)上的变化,RISKCHANGE代表下行风险水平的变化。文章运用OLS/Logistic以及LASSO回归分别对各项政策进行分析。
重要变量
相关数据
-海外研究系列-美国年报风险
数据资源介绍
CSMAR美国上市公司年报风险度量数据库收录了美国上市公司年报文本风险度量指标及其计算基础的数据。
查询路径:https://cn.gtadata.com/-海外研究系列-美国年报风险度量
此外,针对文本大数据分析,CSMAR数据库中还有更多子库,为研究者们提供多元化指标:
上述各数据库均是将已抽取好的文档特征直接提供给研究者,省去了文本挖掘的复杂过程,研究者能够直接将相关文档特征对应的指标运用到研究中,即可实现“文本分析自由”。


雷达卡


京公网安备 11010802022788号







