|
[19] 表明专栏作家的报道风格与市场表现有因果关系。W–uthrich等人[20],Lavrenko等人[21],Fung等人[22],Schumaker和Chen[23],Zhang和Skiena[24]使用新闻媒体预测股票运动机器学习和/或数据挖掘技术。除了使用新闻,还研究了其他文本源,如公司公告[25,26]、在线论坛[27]、博客[24]和在线社交媒体[24,28]。参见[4]了解全面调查。与现有方法的比较。大致来说,上面讨论的大多数预测算法都遵循相同的规则:首先,算法基于新闻文章构造特征向量。下一步,算法将侧重于预测新闻中提到的股票或公司的子集。考虑了不同的特征向量,例如,[21]使用一袋词模型,而[24]从文本中提取情感。此外,大多数“现成”的机器学习解决方案,如广义线性模型[3]、朴素贝叶斯分类器[21]和支持向量机[23]都在文献中进行了研究。我们的方法与现有的方法有两个不同之处:(1)没有NLP。与[3,23,25]不同的是,我们不会试图用诸如感知分析和命名实体识别等技术来解读或理解新闻文章。通过这种方式,我们的预测算法的架构变得更简单(因此具有更低的方差)。(2) 利用股票之间的相关性。Lavrenko等人[21],Fung等人[22]也在不使用NLP的情况下进行预测,但所有这些算法都没有利用不同股票之间可能存在的相关性。目前尚不清楚这些算法如何在不大幅增加模型复杂度的情况下用于预测大量股票。八、结论在本文中,我们重新探讨了挖掘文本数据以预测股市的问题。
|