|
关于两分钟时间跨度的选择,我们观察到,与一分钟、三分钟和四分钟的系列相比,两分钟的回程系列具有更突出的尖峰。正式地说,我们将相应资产的标题盖章前两分钟日志RTRETURN与每个样本标题lj相关联,所有j=1,2,nh,其中nh是样本中标题的数量。然后,对于给定的保留级别,我们将两个类S={“正”、“负”、“中和”和Q={“高”、“低”}关联到每个标题Ljj,对于j=1,2,nh,根据以下规则:-lj,S=“负”,如果rj∈ (-∞, “\'rneg],“阳性”,如果是rj∈ []RPO,∞), “中性”,如果rj∈ (\'rneg,\'RPO),-lj,Q=“高”,如果rj∈ [“嗯,∞) 和“低”,如果rj∈ [0,\'rhigh)。阈值水平\'RPO,\'rnegand\'rhigh被定义为无条件回报分布的分位数,即P(rt<\'rneg)=0.025,P(rt>\'RPO)=0.025,和Prt</rhigh= 0.025.regr essor building过程的第二部分是对FactSet在样本期收集的51266条新闻标题中的每个单词进行分类。对于健康分类,我们首先寻找“积极”和“消极”波动性词,然后搜索“高”和“低”波动性词。通过将每个词应用到它所属的标题中最常见的类别,对其进行了初步分类。通常情况下,我们在每个标题lj中给每个单词w赋值,j=1,2,与每个单词ω出现频率最高的标题相关的S和Q的情态。根据Das(?),为了只保留有意义的单词,随后使用Fishe r判别统计量对每个单词进行搜索。
|