楼主: 能者818
1188 24

[量化金融] 《华尔街日报》的股市预测:基于稀疏矩阵的文本挖掘 [推广有奖]

11
何人来此 在职认证  发表于 2022-5-6 09:31:47
为了求解X,我们应用Hessenberg-Schur方法[10]如下:1)计算H=UTAU,其中UTU=I和H为上Hessenberg,即所有I>j+1.2的Hij=0)计算S=VTBV,其中VTV=I和S为准三角形,即S为三角形,除了沿对角线可能有2×2个块。3) 计算F=UTCV。4)通过反代换求解HY ST+Y=F中的Y。5) 通过计算X=UY VT求解X。为了避免重复计算昂贵的合成步骤(步骤2),我们预先计算并存储结果,以便在ADMM的多次迭代中使用。这使我们无法使用对数值包(例如,Matlab中的dlyap())的单行调用来求解方程。这里我们详细介绍了反向替换步骤(步骤4),在[10]中省略了该步骤。在[10]之后,我们使用mk和mijtode分别记录矩阵mr的第k列和(i,j)-th元素。由于S是准上三角的,我们可以从最后一列解出Y,然后再返回到最后一列,以此类推。唯一复杂的情况是存在2×2非零块;在这种情况下,我们同时求解两列。更具体地说:(a)如果sk,k-1=0,我们有nXj=kskjyj+ yk=fk(skkH+I)yk=fk- HnXj=k+1skjyj,然后我们可以通过高斯消去法来求解。(b) 如果sk,k-16=0,我们有yk-1yksk-1,k-1sk,k-1sk-1,kskk+yk-1yk=fk-1fk-nXj=k+1Hsk-1,jyjskjyj.左手边可以重写sk-1,k-1yk-1+sk-1,kyksk,k-1yk-1+skkyk+yk-1yk= [(sk)-1,k-1H+I)yk-1+sk-1,kHyk·sk,k-1Hyk-1+(skkH+I)yk]=sk-1,k-1H+I sk-1,kHsk,k-1H skkH+Iyk-1yk通过写作yk-1yk像yk-1yk. 右手边也可以改写为fk-1fk-nXj=k+1sk-1、jHyjskjHyj.因此,我们可以求解列yk和yk-1同时通过高斯消去法sk-1,k-1H+I sk-1,kHsk,k-1H skkH+Iyk-1yk=fk-1fk-nXj=k+1sk-1、jHyjskjHyj.更新你。

12
nandehutu2022 在职认证  发表于 2022-5-6 09:31:51
注意U+=argminUI+(U)- tr(CTU)+ρkA- UkF=argminUI+(U)+ρA+ρC- UF=A+ρC+,步骤2中的最小化等价于将欧几里德投影到非负矩阵的凸集上[6]。更新W。选择W以最小化λmXj=1kWjk+ukW k- tr(DTW)+ρkB- W kF。请注意,这个优化问题可以分别针对W的m列中的每一列来解决:W*j=argminuλkuk+ukuk- DTju+ρkBj- uk=argminuλkuk+ukuk+ρU-Bj+Djρ,(6) 通过研究上述表达式的次微分,我们可以得到一个闭式解。引理1。设F(u)=λkuk+ukuk+ρ/2ku- vk。然后是最小u*关于F(u)isu*=kwk- λρkwk+w、 式中,w=[wi]定义为wi=ρsgn(vi)(|vi |- u/ρ)+.这个结果在[11]中以稍微不同的形式给出。我们在这里提供了更详细的完整性证明。证据:u*是一个极小iff 0∈ F(u)*), 哪里F(u)=λkuk+u库克+ρku- vk,和库克=努库库6=0{s| ksk≤ 1} u=0库克=[|ui |]|ui |=({sgn(ui)}ui6=0[-1,1]ui=0。在下文中,k·k表示k·k,而sgn(·),|··,(·)+如果在向量上操作,则理解为按元素进行。有两个案例需要考虑:案例1:kwk≤ λ这意味着u*= 0, 库*k={s|ksk≤ 1}, 库*k={t|t∈ [-1,1]n},和库*- vk=-ρv.Then0∈ F(u)*) <==> 0∈ {λs+ut- ρv | ksk≤ 1,t∈ [-1,1]n}<==> s:ksk≤ 1,t∈ [-1,1]ns。Tλs+ut=ρv<==> 五、-uρt=λρs.现在我们证明满足上述条件的(s,t)对确实存在。定义t=[ti]如此=ρuvi|vi|≤μρ,sgn(vi)|vi |>μρ。如果| vi |≤ u/ρ,然后ρ/u(-u/ρ) ≤ 钛≤ ρ/u(u/ρ) => 钛∈[-1, 1]. 如果| vi |>u/ρ,那么显然是ti∈ [-1, 1]. 因此我们没有∈ [-1,1]n.现在定义s=(ρv- ut)/λ。

13
mingdashike22 在职认证  发表于 2022-5-6 09:32:01
我们首先写出ρsgn(vi)|vi |- uti=ρvi- uρuvi|vi|≤uρsgn(vi)|vi |- usgn(vi)|vi |>uρ=0 | vi |≤μρρsgn(vi)|vi|-uρ|vi |>uρ=ρsgn(vi)|vi|-uρ+.然后我们展示ksk≤ 1:ksk=λkρv- utk=λkρsgn(v)|v|- utk=λρsgn(v)|v|-uρ+=λkwk≤ 1.因此我们显示了0∈ F(u)*) 为了kwk≤ λ.案例2:kwk>λ这里是kwk-λ>0,我们有u*= (kwk)-λ) /(ρkwk)·w.因为kwk6=0意味着w6=0,所以我们也有u*6= 0.然后库*k={u/kuk}和F(u)*) =nλku*库*+ ρ(u)*- v) o+u库*k=ρλkwk- λ+ ρU*- ρv+ u库*k、 最后一步利用ku*k=(kwk)- λ) /(ρkwk)·kwk=(kwk)- λ)/ρ.我们的目标是展示0∈ F(u)*), 如果它是有效的,也就是说,0∈ Fi(u)*) =ρλkwk- λ+ ρU*我- ρvi+ u|U*我|。我们考虑每个元素u的两个子类*i、 (a)案例u*i=0是wi=0的结果,wi=0又是| vi |≤ u/ρ. 然后Fi(u)*) =ρλkwk- λ+ ρ· 0- ρvi+ u|0 |={us- ρvi|s∈ [-1, 1]}= [-u - ρvi,u- ρvi]。请注意,对于所有viwith | vi |≤ u/ρ上述区间包括0,因为-u - ρvi≤ -u - ρ-uρ= 0u - ρvi≥ u - ρuρ= 0.因此0∈ Fi(u)*).(b) 案例u*i6=0对应于| vi |>u/ρ。然后Fi(u)*)=ρλkwk- λ+ ρU*我- ρvi+ {usgn(u)*i) }=ρKWKWK- λu*我- ρvi+usgn(vi)=ρKWKWK- λkwk- λρkwkρsgn(vi)|vi|-uρ- ρvi+usgn(vi)= {ρvi- usgn(vi)- ρvi+usgn(vi)}={0},其中第二步来自sgn(u)*i) =sgn(vi)由u定义*i、 因此0∈ Fi(u)*) 对于kwk>λ。应用引理1到(6),我们得到了*j=kwk- λρkwk+w、 式中,w=ρsgn(v)|v|-uρ+v=Bj+Djρ。V.评估我们将数据集分为2008年至2011年(1008个交易日)的培训集、2012年(250个交易日)的验证集和2013年前三季度(188个交易日)的测试集。在下文中,我们报告了2012年(验证集)和2013年(测试集)的结果,因为两年之间的比较揭示了有趣的见解。

14
大多数88 在职认证  发表于 2022-5-6 09:32:05
在我们的评估中,我们假设d=10,即10个潜在因素。A.价格方向预测首先,我们专注于使用一个上午的新闻文本来预测一只股票当天的收盘价。因为我们的最终目标是设计一个可操作的股票交易策略,所以我们的绩效指标是预测价格波动的上/下方向的准确性,在评估期内所有股票和所有天数的平均值。我们将我们的方法与下面概述的基线模型进行比较。前两个基线是微不足道的模型,但在实践中观察到,它们会产生较小的最小二乘预测误差上一个X:我们假设股票价格是浮动的,即我们总是预测今天的收盘价与昨天的收盘价相同上一个R:我们假设回报率R为F,即今天的回报率与前一天的回报率相同。注:我们可以很容易地在预测价格^X和预测收益^R之间进行转换。历史价格的自回归(AR)模型(“ARon X”)和收益(“AR on R”):我们改变了AR模型的顺序,发现它们给出了最佳性能顺序10,即预测取决于之前tenday的价格/收益X/R回归:我们也对前一天所有股票的价格/回报进行回归,以预测股票的稳定价格预测结果。模型精度\'12(%)精度\'13(%)我们的53.9 55.7先前的X 49.9 46.9先前的R 49.9 49.1AR(10)在X 50.4 49.5AR(10)在R 50.6 50.9上的回归X 50.2 51.4在R 48.9 50.80 100 200 3000.450.550.60.65上的回归。1.每种股票的定向精度散点图。价格/回报,以捕捉不同股票之间的相关性。表一总结了本节的评估结果。我们的方法在方向准确性方面比所有基线都好。

15
大多数88 在职认证  发表于 2022-5-6 09:32:08
虽然这些改进看起来只有几个百分点,但我们将在下一节中看到,它们带来了显著的财务收益。请注意,我们的准确度结果不应直接与现有工作中的其他结果进行比较,因为评估环境不同。影响评估结果的因素包括评估时间跨度(年vs周)、数据规模(华尔街日报vs多源)、预测频率(日vs日内)和预测目标(固定集合中的所有股票vs新闻报道的股票或股票指数)。《华尔街日报》没有提到的股票。对于《华尔街日报》中很少提及的股票,我们的算法的性能不会降低:图1给出了股票方向精度与《华尔街日报》中提及次数的散点图。人们可以看到,准确度和提及频率之间并不存在正相关关系。据我们所知,现有的预测算法都不具备这种特性。B.交易策略的回溯测试我们接下来将根据我们的预测算法评估交易策略。我们考虑以下简单化的交易策略:每天早上,我们预测所有股票的收盘价,并使用我们的流动资金以“上涨”预测购买所有股票,这样所有购买的股票都有相同的投资金额。股票按当日开盘价买入。

16
可人4 在职认证  发表于 2022-5-6 09:32:11
一天结束时,我们卖掉了第二天早上所需的全部资金。我们将我们的方法与三组基线进行比较:合并做空和交易成本是未来的工作。o三大主要股票指数(标准普尔500指数、道琼斯工业平均指数和纳斯达克指数)o统一投资组合,即在每只股票上花费等量的资本金,以及o最小方差投资组合(MVP)[12],预期回报率为历史股票回报率的95%。对于后两种策略,我们考虑买入并持有(BAH)策略,即在评估期的第一天买入股票,并仅在最后一天卖出,以及恒量平衡(CBAL),即对于给定的股票组合(权重),我们通过每天卖出并重新购买来维持股票权重。在[13]之后(参见关于指标选择的讨论),我们使用五个绩效指标:累积回报率、最差日回报率=最低(Xit)-Xi,t-1) /Xi,t-1、最大提款、5%水平的条件值风险(CVaR)和以标准普尔500指数回报为参考的每日夏普比率。表二和表三总结了我们的评估。在这两年中,SOUR策略产生的回报都显著高于所有基准。至于其他绩效指标,我们的战略在2013年主导所有基线,2012年,我们的战略指标要么是最好的,要么接近最佳结果。六、 模型和结果的解释。U的块状结构。鉴于我们已经了解了U,每一行都是股票的特征向量,我们通过应用t-SNE[14]将高维(10D)股票特征向量映射到低维(2D)空间来研究这些向量是否给出了有意义的解释。直观地说,相似的股票应该在2D空间中紧密相连,根据北美行业分类系统(NAICS),我们所说的“相似”是指股票处于相同(或相似)的行业。

17
mingdashike22 在职认证  发表于 2022-5-6 09:32:14
图2(a)通过拥有相同颜色的股票,即同一行业的股票,彼此接近,证实了我们的假设。测试U的另一种方法是计算股票邻接矩阵。图2(b)显示了一个明显的块对角结构的结果,这独立地证实了我们的说法,即所学的U是有意义的。此外,我们还发现,学习到的U还捕捉到NAICS未捕捉到的股票之间的联系。表IV显示了美国银行(BAC)、家得宝(HD)和谷歌(GOOG)最接近的10只股票。对于美国银行(BAC),所有接近的股票都是金融或保险类股票,例如花旗集团(C)和富国银行(WFC),可以从NAICS中轻易推断出来。然而,与HD最接近的股票包括两个零售商,例如Lowe\'s(低)和Target(TGT),以及相关的非零售商,包括Bemis Company(BMS,专门从事柔性包装)和Vulcan Materials(VMC,专门从事建筑材料)。同样,GOOG的案例也揭示了它与生物科技股票的联系,包括CelgeneCorporation(CELG)和Alexion Pharmaceuticals(ALXN)。[15]也报告了类似的结果。W的稀疏性。图3显示了我们学习的W的热图。这表明我们确实能够学习所需的稀疏结构:(a)从几个明亮的列中选择几个单词(特征选择),以及(b)每个选择的单词对应的因素很少。表IV最接近的库存。股票用股票符号表示。目标10个最接近的股票BAC XL STT密钥C WFC FII CME BK STI CMAHDBBY LOW TX BMS VMC ROST TGT ANNKE JCPGOOG CELG QCOM ORCL ALXN CHKP DTV CAFLIR ATVI ECL-20-10 0 10 20-50-40-30-20-10010203040(a)t-SNE位于U排上。每个股票都是一个数据点,每个颜色代表一个NAICS行业。10020030040050050100150200250300350400450500550(b)按相关距离计算的U行邻接矩阵。股票ID按行业分类。图2。

18
nandehutu2022 在职认证  发表于 2022-5-6 09:32:18
可视化股票。研究W揭示了关于股票的进一步见解。我们考虑了表V中列出的两个最新因素的十个最积极和最消极的词。我们注意到,一个因素的积极词列表与另一个因素的消极词列表有显著重叠。这导致我们假设这两个因素是反相关的。为了验证这一假设,我们发现两组股票在一个因素中占主导地位:{IRM、YHOO、RYAAY}在因素1中占主导地位,{HAL、FFIV、MOS}在因素2中占主导地位。然后我们从股票交易所交易的每套股票中配对一只股票:纳斯达克的YHOO和FFIV,以及纽约证券交易所的IRM和HAL。我们通过两支股票相对于最能概括交易所股票的股票指数(例如,纽约证券交易所的标准普尔500指数)的表现(累计回报率)来比较这两支股票,因此低于参考指数的回报率可以被视为与市场无关,高于参考指数的回报率意味着吃了市场。图5显示了两种不同的股票,即股票在该因子中的优势位于所有股票的前40%,而在其他因子中的优势位于后40%。Word IDFactor ID200 400 600 800 1000 120012345678910图。3.W的热图。

19
nandehutu2022 在职认证  发表于 2022-5-6 09:32:21
它是列间和列内稀疏的。表二2012年模拟交易结果。英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语最坏的,最坏的,最坏的,最坏的,最坏的,最坏的,最坏的,最坏的,最坏的,最坏的,最坏的,最坏的,最坏的,最坏的,最坏的,最坏的,最坏的,最坏的,最坏的,最坏的,最坏的,最坏的,最坏的,最坏的,最坏的,最坏的,最坏的,最坏的,最坏的,最坏的,最坏的,最坏的,最坏的,最坏的,最坏的,最坏的,最坏的,最坏的,最坏的,最坏的,最坏的,最坏的,最坏的,最坏的,最坏的,最0.115-0.0172-0.0182表三2013年模拟交易。英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语英语词汇词汇词汇词汇词汇词汇词汇词汇词汇最差的,最坏的,最坏的,最坏的,最坏的,最坏的,最坏的,最坏的,最坏的,最坏的,最坏的,最坏的,最坏的,最坏的,最坏的,最坏的,最坏的,最坏的,最坏的,最坏的,最坏的,最坏的,最坏的,最坏的,最坏的,最坏的,最坏的,最坏的,最坏的,最坏93 0.0683-0.0154-0.05310 200 400 8001000 1200 14001000100天累计收益率Yhoonasdaqfiv0 200 400 600 800 1000 1200 140010-0.4100.1每日累积回报率IRMS和P 500HALFig。5.具有不同主导因素的股票收益率。绿线是参考指数。在大多数情况下,ent主导因素处于相反的打压/损失位置(相对于参考指数),而对于(IRM,HAL)配对,两支股票多次交换打压/损失位置。可视化学习的投资组合和回报。我们试图通过可视化所学的股票投资组合来更好地理解我们的交易策略。图4(a)显示(明亮意味着对相应股票的权重更高)我们的交易策略每天在三种选择之间交替:(a)在预期市场乐观时买入所有股票,(b)在检测到市场悲观时不买入股票,以及(c)买入一组精选股票。选择(a)或(b)的天数大致相同,而选择(c)的天数较少,但仍然显著。

20
可人4 在职认证  发表于 2022-5-6 09:32:25
这表明我们的策略能够根据市场情况智能选择要购买/避免的股票。对重要市场事件的反应。为了理解你的策略为什么会比基准带来更好的回报,我们还计算了不同交易策略的累积回报。图4(b)显示,我们的策略在2012年的增长更稳定,因为它避免了其他策略所经历的几次价值急剧下降(这也可以从我们的策略具有最低的最大下降和CVaR这一事实中看出)。尽管它最初的表现不如其他基准(尤其是纳斯达克),但它能够在2012年下半年迎头赶上并最终击败所有其他策略。似乎预测市场下跌的能力是使用报纸文本制定良好交易策略的关键(另见[3])。深入观察,我们发现《华尔街日报》在2012年和2013年的五天中,有两天的市场下跌迹象表明标准普尔500指数跌幅超过2%。2012年1月6日,尽管美国就业报告不佳被认为是资金缩减的主要原因,但迫在眉睫的欧洲债务危机可能也导致了投资者情绪的负面影响,《华尔街日报》当天的许多文章都使用了“欧元”。2012年11月7日,美国总统选举结果让人们对金融和能源行业的规模和更严格的控制感到担忧。许多与政治相关的词,例如民主党人、选举人、获胜人、选民,在当天的《华尔街日报》中都很突出。2013年,我们的策略还能够识别并投资于几天内快速上涨的股票,从而获得优异的业绩。我们注意到,我们的算法在这两年的表现并不相同,2013年是一个明显更好的年份。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-7 07:55