楼主: mingdashike22
815 25

[量化金融] 挖掘股票非法内幕交易:一种积极的方法 [推广有奖]

11
可人4 在职认证  发表于 2022-6-10 05:42:35
[9] 虽然他们的工作目的是使用LSTM RNN预测股票价格,但我们使用交易量数据预测股票市场交易量,以通过我们提出的异常算法预测非法内幕交易。通过分析数据,我们认识到,在非法内幕交易的情况下,交易量是算法考虑的更好的候选者,因为S股的价格可能比S股低很多,但S股的交易量正是S股。此外,LSTM RNN的输出包括四种离散信号(时间序列):基于整个历史数据的实际数据(交易量)、窗口预测信号(下一窗口的交易量)、日间预测信号(下一天的交易量)和信号(下一窗口的交易量)。对于异常检测,我们使用归一化互相关来衡量具有不同时滞的给定离散信号之间的相似性。我们将连续几天的交易量表示为离散信号。所生成的四种离散信号和先前生成的非法内幕交易模式通过所提出的异常检测和预测算法(异常)进行传递。我们将其命名为异常,因为它有助于发现异常信号(时间序列)。异常算法的参数为C、M、W、P和数据。定义选定的公司,Mde定义LSTM RNN的特定应用程序(即三种技术之一),W定义窗口数量,是非法内幕案件的提取模式(即地面真相),数据是一个多维数组,表示LSTMRNN预测的股票交易量数据。

12
mingdashike22 在职认证  发表于 2022-6-10 05:42:38
下面介绍了异常算法。对于c中的每个公司c,LSTM RNN中的每个特定方式m,以及windowsW中的每个窗口w,将信号与非法内幕交易模式或异常模式进行比较,通过将整个时间序列划分为窗口并进一步将窗口划分为天来发现其相似性。使用归一化互相关(NCC)将预测信号(LSTM RNN的输出)与实际信号(历史数据中的实际股票交易量)和欺诈/异常信号/模式(发现的非法内幕交易模式)进行比较,归一化互相关(NCC)将信号实际归一化为同一标度,然后比较信号以查看它们的相关性有多强。此外,NCC通过考虑不同的日滞后来测量两个离散信号的相关性。Herdeay滞后指的是,与其他信号相比,其中一个离散信号在信号的开始/结束处有一些缺失值。换言之,daylags意味着信号可能不完全垂直对齐,因为在几天内可能会有一些间隙。第四节介绍了使用LSTM RNN的三种预测技术和NCC的详细信息。这里是我们提出的异常检测算法,该算法将预测和实际时间序列与异常时间序列模式进行可视化和匹配。B、 数据美国证券交易委员会在其网站上公布委员会在联邦法院提起的所有诉讼【15】。这包括所有类型的股市操纵指控。此外,特塞克和联邦调查局还在其网站上发布了一些著名的非法内幕交易案件和相关新闻稿【16】、【17】。这些是我们研究的主要数据来源。

13
可人4 在职认证  发表于 2022-6-10 05:42:41
我们编写了一个基于Python的webcrawler,从1996年初到2018年,它在与诉讼相关的新闻稿Sarchive中爬行,并以纯文本的形式下载和存储。我们总共发现7988个案例,其中605个案例在发布标题中删除了关键字“insider”,1142个案例在发布正文中有关键字,1222个案例在发布标题或正文中有关键字,525个案例在发布标题和正文中都有关键字。因此,大约15%的案件是非法内幕交易相关指控,其余是其他类型的欺诈相关指控。根据关键词“内部人”,我们将所有案件标记为内部案件或非内部案件。然后利用这些数据,我们构建了一个分类程序,用于对可用的非法内幕交易相关文档进行分类,使我们能够对未来的数据(例如社交网络帖子)进行分类。我们还为分析师生成了基于树的可视化,以了解案件如何归入非法内幕交易类别以及事件和行为之间的相关性。从实际情况的可视化来看,我们能够深入到诉讼发布中并检索相关属性(例如,公司名称、非法身份证名称、内幕人士了解私人信息的日期、公开日期以及非法收益的数量等)(应该注意的是,当前此过程是手动的,将作为未来工作的一部分调查自动化解决方案)。这项工作的另一个数据来源是Yahoo Finance的历史股票交易量(即选定公司的选定日交易量数据)[14]。

14
何人来此 在职认证  发表于 2022-6-10 05:42:45
我们收集了过去几年十家不同公司的数千(14842)个时间序列数据(当时公开的所有数据),用于实验。在这十家公司中,有九家涉及历史上的非法交易案件:富国银行、英国石油公司、GTx、甲骨文公司、美国半导体公司、Spectrum Pharmaceuticals、Allscripts Healthcare Solutions Inc、康宝莱有限公司、Evercore股份有限公司。第十家公司是谷歌的母公司Alphabet Inc.,成立于2015年,目前尚未报告非法内幕交易案件。选择Alphabet的所有公开可用时间序列存量数据,并用于验证异常模式,以查看Alphabet股份有限公司的任何窗口是否与我们在实验中探索的任何异常模式相匹配。我们使用了交易量数据功能,因为我们发现交易量比任何其他可用功能都更具影响力。此外,我们将交易量数据转换为相对于窗口开始日期或序列的变化百分比,以更好地解释结果。例如,如果窗口的前三天(大小为50天)的交易量为100、120和115,则输入神经网络的实际数据为0。20,和。15(即相对于100的百分比变化,100是当前窗口第1天的交易量)。四、 实验结果以下部分代表了响应图1所示的我们提出的体系结构的实验步骤和结果。A、 诉讼分类和视觉分析第一个实验是使用自然语言处理(NLP)和基于决策树的方法对大量未结构化文本数据进行预处理。它的主要目的是帮助分析员理解数据。

15
mingdashike22 在职认证  发表于 2022-6-10 05:42:48
我们的第一次尝试是从文本中找出鉴别特征,以帮助区分案件档案中的内幕交易案件。有必要指出的是,最初我们将所有案件标记为在案件标题或正文中包含insider关键字的内幕案件。我们标记所有案例并生成特征向量(一个矩阵,其中列包含特征/标记,行包含按案例标记/特征频率)。之后,我们运行extra-Trees算法对特征进行排序。额外树(ET)算法,也称为极端随机树,是一种基于集成树的方法,与随机森林算法相比,随机性更进一步。这里,根据variableindex和spliting值,也以极其随机的方式选择spliting属性,以便随机化树,树的结构与学习样本无关【19】。此外,极端随机树算法在一些使用公共数据集的欺诈/异常检测研究中显示了积极的结果。我们将ET算法的biasedparameter设置为最大值,以便将内部案例正确分类为与非内部类相对应的类别,从而赋予其更高的优先级。我们从中发现的一些区别特征如下:内部人、内部人、朋友、同学、非公开、链接等。我们还运行TF IDF来查找案例中罕见的特征。此外,考虑到计算TF-IDF需要相当于数据集大小的内存量。我们使用Apache Spark工具,可以将工作分发到多台商品机器,并将结果收集回主节点,以返回累积的结果。该工具还允许我们创建一个数据帧(数据容器),如果数据大小超过RAM的容量,则使用磁盘来保存剩余的数据。

16
kedemingshi 在职认证  发表于 2022-6-10 05:42:51
因此,当处理时间不是主要问题时,我们可以使用一台商品机器(12GB RAM和一个核心i7处理器)进行此实验。但是,当TF-IDF的特征向量很大和/或处理速度更快时,借助Apache Spark,这很容易扩展到多个节点。TFIDF算法得出的几乎所有顶级结果都只返回人名作为最重要的特征,而不是重要的非法内幕交易关键字,这些关键字被额外树算法发现是最有用的特征。因此,我们只保留了ET算法识别的特征,丢弃了特征等级为零的所有其他特征(即,在分类过程中没有贡献,信息增益为零)。之后,我们制作了一个新的特征向量,其中包含比以前更小的过滤特征(即减少特征),并且可以在商品笔记本电脑上使用。我们使用决策树算法(decision treealgorithm)处理来自诉讼案例的数据(即简化的特征向量),并根据树的节点和边可视化重要的文本特征及其关系。这有助于分析员了解内幕案件、相关方等的重要性。开发的模型还可用于将新的未标记案件或其他来源的新闻文章分类为内幕与其他案件分类。我们希望在今后的工作中加入更多的数据源。图2和图3显示了部分图2。决策树顶部显示决策路径的部分。图3:。决策树中间显示决策路径的部分。对约简后的特征运行决策树算法生成的树。这些特征(1526个特征)是使用额外的树算法重新选择的。

17
可人4 在职认证  发表于 2022-6-10 05:42:54
通过检查树,我们可以看到,非公开、朋友、提议、试用等内部人及其变体(如内部人)等特征在决策中起着关键作用。这些特征可以在排名特征列表的上部找到。通过分析,我们还发现,在大多数情况下,信息是由朋友、同事和亲戚在社交或工作中泄露的。蓝色节点表示内部类,棕色节点表示非内部类,白色节点(可以是内部类或非内部类)表示特定示例的决策路径。简言之,决策树是一个过滤器(或漏斗),用于缩小欺诈分析师可能需要考虑的诉讼案件数量。此外,从这些已发现的案例中,可以生成非法内幕交易模式,以便对未来的案例进行分类。TF-IDF排名靠前的人物主要是人名:多诺万、阿贝、帕特尔、斯特菲斯和基思。然而,遗憾的是,我们没有关于这些人的更多信息。未来,我们希望调查其他数据源(如社交媒体)的合并情况,这将提供更多关于所发生情况的见解。B、 预测公司层面的股票交易量为了预测股票交易量,我们使用了深度学习技术LSTM RNN,并借助后端的张量流和Keras作为包装。输入层由50个神经元组成,对应于窗口大小。换言之,每一个神经元每天都要摄入一定量的储备。然后将该输入层馈入一个50个神经元的LSTM层,该LSTM层与另一个100个神经元的LSTM层相连。最后一层LSTM连接到1个神经元的完全连接的正常层,具有线性化功能。此激活函数用于预测下一时间步。

18
nandehutu2022 在职认证  发表于 2022-6-10 05:42:57
本实验的其他配置为:辍学=。2,损耗=mse,优化=rmsprop,历元=1,批量大小=512。rmspropoptimizer通过使用权重最近梯度的阿朗宁平均值(即,平均变化/更新作为收集的新数据点)来划分权重的学习率。回想一下,我们在三个不同的图4中应用了LSTM RNN。基于窗口的预测。方式。图4是基于窗口的预测方法的可视化,其中对于窗口w的预测,仅使用窗口w-1。x轴表示时间序列。这里我们有两个时间序列,每个由50天组成。Y轴表示从窗口开始日起股票交易量变化的百分比,这意味着任何窗口开始日的Y值为零。此外,图5是基于日期的预测的可视化,其中窗口中的所有前一天都被考虑用于对第二天进行预测,并且知识库在每一天之后都会根据真实的观察结果进行更新。图6是基于序列的预测的可视化,其中在进行预测时考虑了整个历史(所有窗口)。图5之后。基于日期的预测。图6:。基于整个历史的预测。股票交易量预测完成后,我们将预测数据(即LSTMRN的输出)转发给异常算法,以多维数组的形式进行异常检测。LSTM RNN的输出是我们应用LSTM RNN的三种不同方式的三个离散信号。C、 异常检测和预测我们的最后一个实验是将我们提出的异常算法用于比较不同的离散信号。在此阶段,我们编写了一个Matlab脚本来实现该算法。对于离散信号的比较,我们使用归一化互相关(NCC)。

19
可人4 在职认证  发表于 2022-6-10 05:43:00
相关性表示信号的相似性,广泛用于信号比较的各种应用(如语音识别)。在此设置中,我们使用Matlabs互相关的规范化版本,而不是互相关的标准版本,因为我们需要知道同一尺度下不同时间序列(即不同的最小值和最大值)的信号之间的相似性(-1到1)。互相关公式为:Corrx,y=N-1Xn=0x[n]y[n](1)在我们的实验中,x和y是时间序列数据的向量,由确定的连续天数(即窗口)的股票交易量组成,其中nre表示序列中的天数。因此,互相关(Corr)仅仅是两个信号或时间序列的相关元素的标量倍数之和,其中值越高,它们的相关性或相似性就越高。但相比之下,这些公司的交易量范围不同(例如,富国银行的最大交易量为254575800,而Evercore股份有限公司的最大交易量仅为4345100)。由于被比较的信号具有不同的能量水平或能力值,我们采用了非标准化版本的互相关(NCC),首先将其转换为相同的尺度,然后计算相关性。归一化互相关(NCC)公式如下:Corr normx,y=PN-1n=0x[n]y[n]p(PN-1n=0x[n]x[n]PN-1n=0y【n】y【n】)(2)这里的命名部分与之前完全相同(公式1),为了规范化的目的,使用两个参与信号的能量水平因子进行缩放。在Matlab中,它是一个内置功能,名为xcorr。

20
可人4 在职认证  发表于 2022-6-10 05:43:03
要应用normalize选项,我们需要将参数coeff与信号的参数一起传递。图8告诉我们,图7中的两个时间序列在day lag-7(峰值位置)最相似,相关值为。由于相关性的最大值为1(当它们完全相同时),所以这个值为。667告诉我们,它们不是那么相似。如果我们想得到NCR值在图表中最高的实际日期(如图7),我们可以通过观察数据使用公式(3):day=WindowsSize+(w* 窗口大小)+d(3)对于我们的实验,窗口大小=50。图的顶部提到了wand d的值(图7-12),p表示比较中的图案数。例如,使用方程式3计算图7中NCR最高的日期如下:日期=50+(2*50)+10图7。异常时间序列(基于窗口)。图8:。NCR(基于窗口)。=这是整个时间序列开始的第160天。从图9可以清楚地看到,predictedresult与实际结果几乎相似。图10是图9中上述信号之间的相关性,它告诉我们时间序列或信号在Day lag 1时几乎相似,相关值为。这里的day lag 1表示如果我们将实际信号右移1天,那么它将给我们一个相关值。我们得到了989。图11和图12是整个基于时间序列的预测的可视化和相关性。然而,虽然结果似乎很有希望,但我们只使用了一小部分窗口。未来,我们计划尝试更长时间的运行,其中窗口的数量随着数据点的增加而增加,这也将帮助我们更好地了解实际数据和预测数据的某些峰值之间的差距。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-10 17:02