楼主: 能者818
1185 24

[量化金融] 《华尔街日报》的股市预测:基于稀疏矩阵的文本挖掘 [推广有奖]

  • 0关注
  • 6粉丝

会员

学术权威

78%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
39.5040
学术水平
0 点
热心指数
1 点
信用等级
0 点
经验
24699 点
帖子
4115
精华
0
在线时间
1 小时
注册时间
2022-2-24
最后登录
2024-12-24

楼主
能者818 在职认证  发表于 2022-5-6 09:30:56 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Stock Market Prediction from WSJ: Text Mining via Sparse Matrix
  Factorization》
---
作者:
Felix Ming Fai Wong, Zhenming Liu, Mung Chiang
---
最新提交年份:
2014
---
英文摘要:
  We revisit the problem of predicting directional movements of stock prices based on news articles: here our algorithm uses daily articles from The Wall Street Journal to predict the closing stock prices on the same day. We propose a unified latent space model to characterize the \"co-movements\" between stock prices and news articles. Unlike many existing approaches, our new model is able to simultaneously leverage the correlations: (a) among stock prices, (b) among news articles, and (c) between stock prices and news articles. Thus, our model is able to make daily predictions on more than 500 stocks (most of which are not even mentioned in any news article) while having low complexity. We carry out extensive backtesting on trading strategies based on our algorithm. The result shows that our model has substantially better accuracy rate (55.7%) compared to many widely used algorithms. The return (56%) and Sharpe ratio due to a trading strategy based on our model are also much higher than baseline indices.
---
中文摘要:
我们再次讨论了基于新闻文章预测股票价格方向变动的问题:在这里,我们的算法使用《华尔街日报》的每日文章来预测当天的收盘价格。我们提出了一个统一的潜在空间模型来描述股票价格和新闻文章之间的“共同运动”。与许多现有方法不同,我们的新模型能够同时利用相关性:(a)股票价格之间的相关性,(b)新闻文章之间的相关性,以及(c)股票价格与新闻文章之间的相关性。因此,我们的模型能够对500多只股票进行每日预测(其中大多数股票甚至没有在任何新闻文章中提及),同时具有较低的复杂性。基于我们的算法,我们对交易策略进行了广泛的回溯测试。结果表明,与许多广泛使用的算法相比,我们的模型具有更好的准确率(55.7%)。基于我们模型的交易策略产生的回报率(56%)和夏普比率也远高于基准指数。
---
分类信息:

一级分类:Computer Science        计算机科学
二级分类:Machine Learning        机器学习
分类描述:Papers on all aspects of machine learning research (supervised, unsupervised, reinforcement learning, bandit problems, and so on) including also robustness, explanation, fairness, and methodology. cs.LG is also an appropriate primary category for applications of machine learning methods.
关于机器学习研究的所有方面的论文(有监督的,无监督的,强化学习,强盗问题,等等),包括健壮性,解释性,公平性和方法论。对于机器学习方法的应用,CS.LG也是一个合适的主要类别。
--
一级分类:Quantitative Finance        数量金融学
二级分类:Statistical Finance        统计金融
分类描述:Statistical, econometric and econophysics analyses with applications to financial markets and economic data
统计、计量经济学和经济物理学分析及其在金融市场和经济数据中的应用
--

---
PDF下载:
--> Stock_Market_Prediction_from_WSJ:_Text_Mining_via_Sparse_Matrix_Factorization.pdf (699.28 KB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:华尔街日报 股市预测 稀疏矩阵 文本挖掘 华尔街

沙发
能者818 在职认证  发表于 2022-5-6 09:31:01
《华尔街日报》的股市预测:基于稀疏矩阵分解的文本挖掘Felix Ming Fai Wong,Liu Zhenming,Mung Chiang PrincetonUniversitymwthree@princeton.edu, zhenming@cs.princeton.edu, chiangm@princeton.eduAbstract-我们再次讨论了基于新闻文章预测股价方向性波动的问题:我们的算法使用《华尔街日报》的每日文章预测当天的收盘价。我们提出了auni fied潜在空间模型来描述股票价格和新闻文章之间的“共同运动”。与许多现有方法不同,我们的新模型能够同时利用相关性:(a)股票价格之间的相关性,(b)新闻文章之间的相关性,以及(c)股票价格和新闻文章之间的相关性。因此,我们的模型能够对500多只股票进行每日预测(其中大多数股票甚至没有在任何新闻文章中提及),同时具有较低的复杂性。基于我们的算法,我们对交易策略进行了广泛的回溯测试。结果表明,与许多广泛使用的算法相比,我们的模型具有更高的准确率(55.7%)。基于我们模型的交易策略产生的回报率(56%)和利差也远高于基准指数。I.简介金融市场算法交易的一个主要目标是预测在当前交易日结束时,随着算法不断接收到新的市场信息,股票价格是上涨还是下跌。问题的一个变体是基于新闻文章构建有效的预测算法。理解这个问题很重要,有两个原因:(1)更好的解决方案有助于我们更深入地了解金融市场对新闻的反应,这是金融领域一个长期存在的问题[1-3]。(2) 它在机器学习中提出了一个独特的挑战,时间序列分析与文本信息检索相结合。

藤椅
nandehutu2022 在职认证  发表于 2022-5-6 09:31:06
虽然人们对基于新闻的股价预测进行了相当广泛的研究,但在同时利用(1)股价之间的相关性,(2)新闻文章之间的相关性,以及(3)股价与新闻文章之间的相关性[4]方面的工作却少得多。在本文中,我们重新审视了基于新闻文章的股价预测问题。在每个交易日,我们向预测算法提供当天《华尔街日报》(WSJ)上出现的所有文章(在开盘前可用),然后我们要求算法预测标准普尔500指数、道琼斯工业平均指数(DJIA)和纳斯达克(Nasdaq)的每只股票是上涨还是下跌。我们的算法的准确率约为55%(基于≥ 10万个测试用例)。这应与预测精度低于51.5%的时间序列的“教科书模型”进行对比(见第五节)。我们还指出,我们需要算法来预测所有感兴趣的股票,而大多数股票在一篇典型的WSJNews论文中根本没有提及。另一方面,大多数现有的基于新闻的预测算法只能预测新闻中明确提到的股票。最后,当我们使用该算法构建投资组合时,我们发现我们的投资组合收益率与许多标准指数相比有实质性的提高(见图4(b))。表现出人意料。我们对算法的性能感到非常惊讶,原因如下。(1) 我们的算法以最少的数据运行。这里,我们只使用每日开盘价和收盘价以及《华尔街日报》的新闻文章。很明显,华尔街上所有认真的交易员都可以访问这两部分信息,以及更多信息。

板凳
何人来此 在职认证  发表于 2022-5-6 09:31:10
根据有效市场假说,基于我们的数据集很难找到套利(事实上,有效市场假说解释了为什么“教科书模型”的准确率低于51.5%)。因此,我们对算法的性能很感兴趣。市场似乎也不像人们想象的那么有效。(2) 我们的模型很自然,但似乎以前从未研究过。正如我们将在第四节中看到的,我们的模型很自然地捕捉到了股票价格变动和新闻报道之间的相关性。虽然基于新闻的股价预测问题已经得到了深入研究[4],但我们在现有文献中还没有看到类似的模型。第七节还将我们的模型与一些重要的现有方法进行了比较。(3) 我们的算法是健壮的。《华尔街日报》的许多文章都是前一天发生的事件(而不是报道一夜之间形成的新闻故事)。直觉上,市场应该能够立即吸收信息,因此“旧新闻”应该被排除在预测算法之外。我们的算法不尝试过滤任何新闻,因为判断新闻文章的新鲜度似乎非常困难,但即使大部分输入不是新闻,我们的算法仍然可以做出有价值的预测。我们的方法。我们现在概述我们的解决方案。我们建立了一个新的潜在因素模型来解释股票价格和新闻。我们的模型源于时间序列分析和信息检索中的直截了当的想法:当我们研究多个股票价格的CO运动时,我们注意到价格运动可以嵌入一个低维空间。

报纸
何人来此 在职认证  发表于 2022-5-6 09:31:15
可以使用标准技术(如奇异值分解)来“提取”低维空间。另一方面,当我们分析新闻文章中的文本时,将每篇文章嵌入潜在空间也是标准的,使用的技术包括概率潜在语义分析或潜在Dirichlet分配[5]。我们在这里的关键观察是,股价和金融新闻应该“共享”相同的潜在空间。例如,空间坐标可以表示股票和新闻文章在不同行业(如技术、能源)和/或主题(如社会、政治)上的权重。那么,如果一篇新鲜新闻文章是关于“原油”的,我们应该会看到在“能源部门”方向权重更高的股票价格的更大波动。因此,我们的方法产生了一个更简单、更易于解释的模型。但即使在这个简化的模型中,我们也面临着严重的过度配置问题:我们使用了六年的每日交易数据。因此,总共只有大约1500个交易日。另一方面,我们需要预测500只左右的股票。当我们的潜在空间只有10维时,我们已经有了5000个参数。在这种情况下,需要适当的正则化。最后,我们的推理问题涉及非凸优化。我们使用交替方向乘子法(ADMM)[6]来解决这个问题。在这里,ADMM解决方案中的变量是矩阵,因此我们需要更通用的ADMM版本。虽然广义分析是相当超前的,但它似乎没有出现在文献中。这种对广义ADMM的分析可能具有独立的意义。综上所述,1)我们提出了一个统一的、自然的模型来利用股价波动和新闻报道之间的相关性。

地板
何人来此 在职认证  发表于 2022-5-6 09:31:25
这个模型允许我们预测所有感兴趣的股票的价格,即使大多数股票在新闻中没有提及。2) 我们开发了适当的规则化推理机制来解决数据匹配问题。3) 我们进行了大量的回溯测试实验,以验证我们算法的有效性。我们还将我们的算法与许多广泛使用的模型进行了比较,并观察到性能显著提高。二、表示法和初步假设有n个股票,m个单词和s+1天(索引ast=0,1,…,s)。然后我们定义了以下变量:oxit:股票i在t天的收盘价,oyjt:单词j在t天的强度,orit=log西溪,t-1.: 在t天记录股票i的返还≥ 1.使用报纸文本的股市预测问题公式如下:对于给定的t天,使用历史数据[rit],[yjt](对于t)≤ t) 今天早上的报纸[yjt]预测[rit],对于所有i和j。在本文中,我们计算yjt作为包含单词j的报纸文章数量的z分数,相对于前几天的文章计数。为了减少噪声,可以从给定[xi,t]的[rit]中恢复额外的阈值[xit]-1] 这是众所周知的。包括删除负值或低于3个标准差的值的步骤。数据集。我们使用了近六年的股票数据和《华尔街日报》的报纸文本。我们确定了553只股票,这些股票在2008年1月1日至2013年9月30日期间交易,并在该期间至少在标准普尔500指数、道琼斯工业平均指数或纳斯达克股票指数中上市。然后我们从CRSP下载了这些股票的开盘价和收盘价。其他股票信息从CompuStat下载。对于文本数据,我们下载了《华尔街日报》印刷版在同一时期发表的所有文章的全文。

7
mingdashike22 在职认证  发表于 2022-5-6 09:31:29
我们计算了每天提到频率最高的1000个单词和553只股票的公司名称的文档数量。在申请了一份禁止入内名单并删除了提及次数太少的公司名称后,我们得到了一份1354个单词的名单。三、 稀疏矩阵分解模型利用矩阵分解技术的最新进展进行协作过滤[7],我们提出了一个统一的框架,其中包括(1)历史股价,(2)不同股票之间的相关性,(3)预测股价变动的报纸内容。我们的技术基础是一个潜在因素模型,该模型描述了一只股票(例如,它是一只能源股)和一天的平均投资者情绪(例如,美国的经济增长变得更加强劲,因此能源需求预计将增加),并且一只股票在某一天的价格是该股票的潜在特征和当天投资者情绪的函数。而非维向量i是一个负的股票交易空间∈ Rd+和交易日由另一个特征向量vt描述∈ Rd.现在,如果已知weassume ui和vt,我们将t天的日志返回^rit建模为特征向量^rit=uTivt+的内积,哪里 是一个噪音术语。在当前设置中,我们只能通过yt=[yjt]描述的当天早上的报纸文章来传递VT∈ Rm+,所以我们可以自然地假设线性变换W∈ Rd×mto将yt映射到vt,即vt=W yt。然后,对数回归预测可以表示为^rit=uTiW yt。(1) 我们的目标是利用s天的历史数据学习特征向量UIW和mappingW。用矩阵形式书写:让R=[rit]∈ Rn×s,U=[U··un]T∈ Rn×d,Y=[Y··ys]∈ Rm×s,我们的目标是≥0,WkR- UW Y kF。

8
mingdashike22 在职认证  发表于 2022-5-6 09:31:32
(2) 注:此处,U行是股票的潜在变量,W Y列是股票分割的潜在变量。我们调整股票分割的价格,但在我们的评估中不考虑股息。CRSP,证券价格研究中心。芝加哥大学商学院,2014年。经允许使用。好的。www.crsp。内西卡哥。教育新闻。我们允许U和W Y中的一个是负面的,以反映新闻可能带来负面情绪的事实,而我们强制另一个是非负面的,以控制模型的复杂性。此外,当U和W Y都为负值时,模型的可解释性变差。注:我们的公式与标准矩阵分解问题类似,只是我们添加了矩阵Y。一旦我们解出了U和W,我们就可以通过^xit=xi,t来预测第t天的价格^xit-1exp(^rit)=xi,t-1expuTiW yt考虑到前一天的价格,xi,t-1和相应的晨报文字矢量yt。过度装修。我们现在要解决过度装修的问题。在这里,我们为我们的模型引入了以下两个额外的要求:1)我们要求模型能够生成一个预测的log-returns矩阵^R=[^rit],该矩阵接近R,同时具有低秩;2)稀疏,因为我们预期许多词与股市预测无关(一个特征选择问题),并且每个选择的词与很少的因素相关。如果我们设置了 s、 第二个要求促使我们在优化公式中引入稀疏群套索[8]正则化项。更具体地说,特征选择意味着我们只希望W的所有列数(每列对应一个单词)为非零,这可以通过引入正则化项λPmj=1kWjk来实现,其中Wjdenotes是W的第j列,λ是正则化参数。

9
mingdashike22 在职认证  发表于 2022-5-6 09:31:37
另一方面,每个单词都与很少的因素相关联,这意味着对于每个相关的单词,我们希望它的列本身是稀疏的。这可以通过引入正则化项uPnj=1kWjk=ukW k来诱导,其中u是另一个正则化参数,而kW kis则以元素为单位。因此,我们的优化问题就变成了SMINIMIZEU,WkR- UW Y kF+λmXj=1kWjk+ukW k受U影响≥ 0.(3)我们注意到,我们还研究了其他正则化方法,例如正则化和普通群套索,但它们的性能并不优于基线算法。由于篇幅的限制,本文着重于理解当前方法的性能。四、 优化算法我们的问题是双凸的,即在U或WB中都是凸的,但不是联合的。据观察,ADMM可以有效地解决此类问题[9]。在这里,我们研究如何在我们的环境中应用这些技术。我们重写了优化问题,用指示函数代替非负约束,并引入辅助变量a和B:minimizeA,B,U,WkR- ABY kF+λmXj=1kWjk+ukW k+I+(U)受制于A=U,B=W,(4)其中I+(U)=0,如果U≥ 0和I+(U)=∞ 否则我们引入了拉格朗日乘子C和D,并公式化了问题的增广拉格朗日:Lρ(A,B,U,W,C,D)=kR- (mx+wjk+kfi)+1kCT(A)- U)+ trDT(B)- W)+ρkA- UkF+ρkB- W kF。

10
nandehutu2022 在职认证  发表于 2022-5-6 09:31:42
(5) 使用ADMM,我们迭代地更新变量A,B,U,W,C,D,这样在每次迭代中(将G+表示为某个变量G的更新值):A+=argminALρ(A,B,U,W,C,D)B+=argminBLρ(A+,B,U,W,C,D)U+=argminULρ(A+,B+,U,W,C,D)W+=argminWLρ(A+,B+,B+,U,C,D)C+=C+ρ(A+)+- U+D+=D+ρ(B)+- W+。算法1列出了ADMM优化中涉及的步骤,本节剩余部分将详细说明更新步骤。算法1(3)的ADMM优化。输入:R,Y,λ,u,ρ输出:U,WinInitialize A,B,C,DrepeatA← (RYTBT)- C+ρU)(由YTBT+ρI编写)-1B← 解决方案ρATAB(Y-YT)+B=ρ(ATRYT)- D) +吴←A+ρC+对于j=1到m的情况←kwk- λρkwk+w、 式中w=ρsgn(v)(|v|- u/ρ)+,v=Bj+Dj/ρ结束← C+Aρ- U) D← D+ρ(B)- W)在利用kGkF=tr(GTG)这一事实达到收敛或最大迭代之前,我们用矩阵迹表示改进的拉格朗日函数:Lρ=tr(R)- ABY)T(R)- ABY)+ λmXj=1kWjk+ukW k+I+(U)+trCT(A)- U)+ trDT(B)- W)+ρtr(A)- U) T(A)- U)+ρtr(B)- W)T(B)- W),然后我们展开并取导数,如下所示。A.我们有LρA=tr(YTBataby)A.-· 2.tr(RTABY)A+tr(CTA)A+ρtr(ATA)A.-ρ· 2tr(UTA)A=ABY YTBT- RYTBT+C+ρA- ρU。通过将导数设置为0,最佳A*满足感*= (RYTBT)- C+ρU)(由YTBT+ρI编写)-1.更新B.同样,LρB=tr(YTBataby)B-· 2.tr(RTABY)B+tr(DTB)B+ρtr(BTB)B-ρ· 2tr(WTB)B、 然后设置0并重新排列,我们有ρATAB*(Y-YT)+B*=ρ(ATRYT)- D) +W.因此B*可通过求解上述形式的Sylvestermatrix方程AXB+X=C来计算。求解矩阵方程AXB+X=C。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-4 11:04