[量化金融] CNNPred：基于CNN的股市预测，使用多个数据源 [推广有奖]

21楼

可人4

发表于 2022-6-10 23:28:43 |只看作者 |坛友微信交流群

因此，最初的每日特征、历史记录的日期和收集数据的市场构成了输入张量的三个维度。假设我们的数据集包括不同的市场、每个市场的k个特征以及我们的conv3×1最大池2×1输入60×82特征图60×1×8特征图58×1×8特征图29×1×8特征图27×1×8特征图13×1×8隐藏单元104输出1×82最大池2×1平台连接图4：二维CNNpredgoal的图形可视化是基于过去j天预测t天。图5显示了如何表示一个数据样本。v1、t-j、1…vi、t-j、1v1、t-1、1…vi、t-1、1市场预测日特征1K……it-1t-j……图5：基于k个主要特征、i个相关市场和预测日前j天的3D CNNpred中输入数据的表示每日特征提取：3D CNNpred中的第一层滤波器定义为一组1×1卷积滤波器，而主要特征是沿张量的深度表示的。图6显示了1×1过滤器的工作原理。这一层过滤器负责将通过输入张量深度可用的基本特征子集组合成一组更高级别的特征。该层将输入张量转换为另一张量，该张量的宽度和高度相同，但其深度等于第一层的1×1卷积滤波器的数量。与2D CNNpred一样，该网络具有作为特征选择/提取算法的能力。w1Filterkv1，t-j，1…vi，t-j，1v1，t-1,1…vi，t-1,1市场末日特征1K……it-1t-j…v1，t-1…vj，t-1v1，t-i…vj，t-i1…图6：对3D输入张量的第一部分应用1×1滤波器。持续特征提取：除了日常特征外，3D CNNpredsinput数据还提供其他市场的信息。

使用道具举报

22楼

nandehutu2022

发表于 2022-6-10 23:28:46 |只看作者 |坛友微信交流群

与2D CNNpred一样，下四层致力于提取更高级别的特征，及时总结数据的变化模式。然而，在3D CNNpred中，这是对一系列市场的预测，而不是一个。因此，第二卷积层中滤波器的宽度是以覆盖所有相关市场的方式确定的。与2D CNNpred相同，出于同样的原因，过滤器的高度选择为3，以覆盖三个连续的时间单位。使用此设置，第二卷积层中的滤波器大小为3×市场数。接下来的三层与2D CNNpred的层一样，定义为2×1最大池层，另一个3×1卷积层随后是最终的2×1最大池层。最终预测：与2D CNNpred相同，在3D CNNpred中，关注持续时间特征提取阶段的输出，并用于产生最终结果。3D CNNpred的示例配置：在我们的实验中，3D CNNpred的输入是一个60×5的矩阵，深度为82。第一个卷积层使用八个滤波器执行1×1卷积运算，然后是一个卷积层，其中有八个3×5滤波器，然后是2×1最大池层。然后，另一个卷积层利用八个3×1滤波器，然后再由一个2×1最大池层生成最终的104个特征。最后，一个完全连接的层将104个神经元转换为1个神经元，并产生最终输出。图7显示了该过程的图形可视化。Conv3×5Conv3×1maxpool2×1输入60×5×82特征映射60×5×8特征映射58×1×8特征映射29×1×8特征映射27×1×8特征映射13×1×8隐藏单元104输出1 conv1×1maxpool2×1平台连接图7:3D-CNNpred5的图形可视化。

使用道具举报

23楼

何人来此

发表于 2022-6-10 23:28:50 |只看作者 |坛友微信交流群

如前所述，我们的目标是开发一个预测股票市场价格或指数运动方向的模型。我们运用我们的方法预测了标准普尔500指数、纳斯达克指数、道琼斯工业平均指数、纽约证券交易所指数和罗素市场指数的走势。对于这个预测任务，我们使用82个特征来表示每个市场的每一天。其中一些特征是特定于市场的，而其他特征是一般的经济特征，并针对数据集中的每个市场进行复制。这组丰富的特征可以分为八个不同的组，即原始特征、技术指标、经济数据、世界股市指数、美元汇率。S、美元兑其他货币、大宗商品、美国大公司的数据。S、市场和未来合同。我们在此简要解释了我们的功能集的不同组，有关它们的更多详细信息，请参见附录一。o基本功能：收盘价和预计将发生的星期几是本工作中使用的基本功能。o技术指标：技术分析师使用股票历史数据中的技术指标，如价格、成交量等，来分析价格的短期变动。它们在股票市场研究中很常见。移动平均线就是这类特征的例子经济数据：经济数据反映一个国家的经济状况是否良好。除了其他影响因素外，投资者通常会查看这些指标，以了解股市的未来。来自国库券的信息属于这一类。o世界股票市场：通常，由于经济全球化的现象，世界各地的股票市场都会相互影响。

使用道具举报

24楼

能者818

发表于 2022-6-10 23:28:53 |只看作者 |坛友微信交流群

当我们考虑到不同国家的时间差异时，我们会更加理解这种联系，这使得我们能够通过监测其他国家的市场来获取有关一个国家市场未来的信息。例如，中国、日本和韩国等其他国家股市对美国市场的影响美国汇率：有一些公司从其他国家进口他们的产品或将他们的产品出口到其他国家。在这些情况下，美国对加拿大元和欧洲欧元等其他货币的价值在股票价格以及整个市场的波动中发挥着重要作用大宗商品：影响股市的另一个信息来源是黄金、白银、石油等大宗商品的价格。此类信息可以反映全球市场的观点。这意味着有关商品价格的信息可以有助于预测股票价格的波动美国大公司：股市指数是根据不同股票计算的。在这一计算中，每只股票的权重与其在市场中的份额相匹配。换句话说，在预测股市指数方面，大公司比小公司更重要。例如埃克森美孚公司（ExxonMobilCorporation）和苹果公司（Apple Inc.）的期货合约：期货合约是指协议的一方应该在未来交付股票、商品等的合约。这些合同显示了商品未来的预期价值。投资者倾向于购买预期价值高于当前价值的股票。例如，标准普尔500指数期货、道琼斯指数期货和纳斯达克期货价格可能会影响标准普尔500指数和其他指数的当前价格。6.

使用道具举报

25楼

何人来此

发表于 2022-6-10 23:28:56 |只看作者 |坛友微信交流群

实验设置和结果在本节中，我们描述了用于评估模型的设置，包括数据集、网络参数、评估方法和基线算法。然后，报告评估结果。标准普尔股票市场中有505家公司的名称说明和P 500指数30家美国主要公司的道琼斯工业平均指数纳斯达克普通公司综合指数纳斯达克股票市场中有纽约证券交易所普通公司综合指数纽约证券交易所2000年美国2000家小公司指数表2：使用指标说明6.1。数据收集和准备本工作中使用的数据集包括标准普尔500指数、纳斯达克综合指数、道琼斯工业平均指数、纽约证券交易所综合指数和罗素2000指数的每日收盘方向。表2显示了有关它们的更多信息。每个样本有82个已经解释过的特征，其指定标签根据等式5确定。值得一提的是，对于每个指数，只有技术指标和原始特征是唯一的，而其他特征，如美国大公司或商品价格，在不同的部门之间是常见的。目标=1 closer+1>Closet0 else（5），其中Closet指t日的收盘价。该数据为2010年1月至2017年11月期间的数据。前60%的数据用于训练模型，后20%形成验证数据，最后20%为测试数据。不同的功能可能有不同的范围。学习算法处理不同范围的特征通常令人困惑。通常，这里的数据规范化的目标是将所有特征的值映射到一个公共范围，它通常会提高预测模型的性能。

使用道具举报

26楼

nandehutu2022

发表于 2022-6-10 23:28:59 |只看作者 |坛友微信交流群

我们使用公式6对输入数据进行规格化，其中xnew是规格化特征向量，xold是原始特征向量，(R)x和σ是平均值和标准参数值filter size{8，8，8}激活函数RELU sigmodoptimizer AdamDropout rate 0.1批次大小128表3：原始特征的CNNdeviation参数。xnew=xold- (R)xσ（6）6.2。评估方法需要评估指标来比较我们的方法和其他方法的结果。准确度是该领域常用的指标之一。然而，在不平衡的数据集中，它可能偏向于倾向于预测更频繁类的模型。为了解决这个问题，我们报告了宏观平均F-测度，即两类中每一类的F-测度的平均值（Gunduz et al.，2017；¨Ozg¨ur et al.，2005）。6.3. 网络参数已经开发了许多深度学习软件包和软件。在这项工作中，Keras（Chollet et al.，2015）被用于实施CNN。除最后一层外，所有层的激活功能都是RELU。CNN参数的完整描述如表3.6.4所示。基线算法我们将建议方法的性能与以下研究中应用的算法的性能进行比较。

使用道具举报

27楼

何人来此

发表于 2022-6-10 23:29:03 |只看作者 |坛友微信交流群

在所有的基线算法中，使用了原论文中报告的相同设置。指标描述简单移动平均指数指数移动平均动量%K随机%K随机%D随机%DRSI相对强度指数MACD移动平均收敛散度%R Larry Williams%R\\D（累积\\分布）振荡商品渠道指数表4：技术指标o第一个基线算法为（Zhong&Enke，2017）中报告的算法。在该算法中，使用PCA将初始数据映射到新的特征空间，然后将得到的数据表示用于训练浅层神经网络进行预测第二条基线基于（Kara et al.，2011）中建议的方法，其中表4中报告的技术指标用于训练浅层ANN进行预测第三种基线算法是具有二维输入的CNN（Gunduz et al.，2017）。首先，对特征进行聚类并相应地重新排序。然后，数据的结果表示由具有特定结构的CNN用于预测。6.5. 结果本节解释了五个不同实验的结果。由于其中一个基线算法使用PCA进行降维，因此测试了具有不同数量主成分的算法的性能。在orderAlgorithm Explanation3D CNNpred我们的方法2D CNNpred我们的方法PCA+ANN（Zhong&Enke，2017）PCA作为降维，ANN作为分类技术（Kara et al.，2011）技术指标，ANN作为分类校正（Gunduz et al.，2017）CNN与纸质表格5中提到的结构：使用的算法描述，以使其他基线算法的情况相等，这些算法在相同的条件下进行了多次测试。然后，比较了算法的平均F-测度。

使用道具举报

28楼

kedemingshi

发表于 2022-6-10 23:29:06 |只看作者 |坛友微信交流群

有关所用符号的更多详细信息，请参见表5。表[6-10]总结了基准算法的结果以及我们建议的标准普尔500指数、道琼斯工业平均指数、纳斯达克综合指数、纽约证券交易所综合指数和罗素2000历史数据模型。每个表格包含特定市场的不同统计信息。结果包括F-测度的平均值，以及不同运行中预测的最佳F-测度和F-测度的标准偏差。产生的F-测度的标准偏差表明了模型产生的结果在多大程度上在其平均值上摇摆不定。标准差较低的模型更稳健。此外，还报告了2D CNNpred和3D CNNpred的P值，以显示差异是否显著。为了总结和比较不同算法的性能，图8.7显示了它们在5个市场指数中的平均结果。讨论从结果中可以明显看出，2D CNNpred和3D CNNpred在统计上都优于其他基线算法。我们模型的度量值与仅使用十个技术指标的基线算法之间的差异是显而易见的。

使用道具举报