楼主: 大多数88
1076 11

[量化金融] 利用高频数据的价格变动对股票进行聚类分析 [推广有奖]

  • 0关注
  • 3粉丝

会员

学术权威

67%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
70.8997
学术水平
0 点
热心指数
4 点
信用等级
0 点
经验
23294 点
帖子
3809
精华
0
在线时间
0 小时
注册时间
2022-2-24
最后登录
2022-4-15

楼主
大多数88 在职认证  发表于 2022-6-9 20:54:31 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Cluster analysis of stocks using price movements of high frequency data
  from National Stock Exchange》
---
作者:
Charu Sharma (Shiv Nadar University, UP), Amber Habib (Shiv Nadar
  University, UP), Sunil Bowry (Shiv Nadar University, UP)
---
最新提交年份:
2018
---
英文摘要:
  This paper aims to develop new techniques to describe joint behavior of stocks, beyond regression and correlation. For example, we want to identify the clusters of the stocks that move together. Our work is based on applying Kernel Principal Component Analysis(KPCA) and Functional Principal Component Analysis(FPCA) to high frequency data from NSE. Since we dealt with high frequency data with a tick size of 30 seconds, FPCA seems to be an ideal choice. FPCA is a functional variant of PCA where each sample point is considered to be a function in Hilbert space L^2. On the other hand, KPCA is an extension of PCA using kernel methods. Results obtained from FPCA and Gaussian Kernel PCA seems to be in synergy but with a lag. There were two prominent clusters that showed up in our analysis, one corresponding to the banking sector and another corresponding to the IT sector. The other smaller clusters were seen from the automobile industry and the energy sector. IT sector was seen interacting with these small clusters. The learning gained from these interactions is substantial as one can use it significantly to develop trading strategies for intraday traders.
---
中文摘要:
本文旨在开发新的技术来描述股票的联合行为,超越回归和相关性。例如,我们想要识别一起移动的股票集群。我们的工作基于将核主成分分析(KPCA)和功能主成分分析(FPCA)应用于NSE的高频数据。由于我们处理的高频数据的刻度大小为30秒,FPCA似乎是一个理想的选择。FPCA是PCA的一个函数变体,其中每个采样点被视为希尔伯特空间L^2中的一个函数。另一方面,KPCA是使用核方法对PCA的扩展。从FPCA和高斯核PCA得到的结果似乎是协同的,但有滞后性。在我们的分析中,有两个突出的集群,一个对应于银行业,另一个对应于IT业。其他较小的集群来自汽车行业和能源部门。IT部门被视为与这些小型集群相互作用。从这些互动中获得的知识是非常重要的,因为人们可以利用这些知识为日内交易者制定交易策略。
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:Statistical Finance        统计金融
分类描述:Statistical, econometric and econophysics analyses with applications to financial markets and economic data
统计、计量经济学和经济物理学分析及其在金融市场和经济数据中的应用
--
一级分类:Statistics        统计学
二级分类:Computation        计算
分类描述:Algorithms, Simulation, Visualization
算法、模拟、可视化
--

---
PDF下载:
--> Cluster_analysis_of_stocks_using_price_movements_of_high_frequency_data_from_Nat.pdf (1.12 MB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:高频数据 价格变动 聚类分析 Quantitative Econophysics

沙发
可人4 在职认证  发表于 2022-6-9 20:54:37
标题:利用国家证券交易所高频数据的价格变动对股票进行聚类分析。摘要:本文旨在开发新的技术来描述股票的联合行为,超越回归和相关性。例如,我们想要识别一起移动的股票集群。我们的工作基于将核主成分分析(KPCA)和功能主成分分析(FPCA)应用于NSE的高频数据。由于我们处理的高频数据的刻度大小为30秒,FPCA似乎是一个理想的选择。FPCA是PCA的一种功能变体,其中每个采样点被视为希尔伯特空间中的一个函数. 另一方面,KPCA是使用核方法对PCA的扩展。从FPCA和高斯核PCA得到的结果似乎是协同的,但有滞后性。在我们的分析中,有两个突出的集群,一个对应于银行业,另一个对应于IT业。其他较小的集群来自汽车行业和能源部门。IT部门被视为与这些小型集群相互作用。从这些互动中获得的知识是非常重要的,因为人们可以利用这些知识为日内交易者制定交易策略。关键词:金融数学、统计学、高频交易、大数据分析、人工智能。作者:Charu Sharma,博士生,助理教授,希夫纳达尔大学自然科学学院,UP;Amber Habib教授,Shiv Nadar大学自然科学学院教授,UP;Sunil Bowry教授,Shiv Nadar大学管理与创业学院教授,UP。地址:查鲁·夏尔马,A111D,Shiv Nadar大学,NH91,Tehsil Dadri,Gautam Buddha Nagar,Uttar Pradesh–201314。电话:+91-9911750311,电子邮件:charu。sharma@snu.edu.in我

藤椅
kedemingshi 在职认证  发表于 2022-6-9 20:54:40
简介根据英国布鲁克·诺特斯公司(Brookernotes)的一份报告,在所有在线交易股票的人中,大约三分之一来自亚洲。事实上,在亚洲320万贸易商中,有57万人的总部位于印度。有鉴于此,需要逐点了解股票之间的相互作用。在影响股票价格变动的各种因素中,其他股票价格变动是主要影响因素之一。多年来。研究人员使用了回归分析和相关性等技术来了解股票的共同走势,但也使用了日收益率。在本文中,我们试图利用股票之间的相互作用,在逐笔交易的水平上,每一笔交易都是一个30秒的标记。我们使用的技术是著名的分类技术主成分分析的扩展。此外,当工作数据集中的样本点可以视为函数时,可以考虑使用PCA的函数模拟,称为函数PCA,而不是使用常规PCA进行分类。在过去的二十年中,函数数据分析领域取得了巨大的发展。函数数据分析是统计学的一个分支,处理将每个样本点视为函数的数据。在过去二十年中,Ramsay和Silverman2-7在FDA领域展示了许多实际应用。由于我们处理的是高频数据,因此我们可以将样本点视为函数,而不是一组离散的值,因此FPCA看起来是对股票进行分类的好选择。本文使用的第二种技术是基于核的主成分分析(KPCA)。该方法用于利用任何数据的非线性。

板凳
何人来此 在职认证  发表于 2022-6-9 20:54:43
将数据集移动到更高维空间,在该空间中,新的点集服从线性,因此可以在此新的点集上执行PCA。二、主成分分析、FPCA、KPCA主成分分析是卡尔·皮尔逊在20世纪初引入的。主成分分析是一种数据约简和分类技术。在这种技术下,如果我们有n个具有k个特征的样本点(通常k>n),那么我们的目标是找到与这些n个样本点在特征空间中的线性跨度相对应的子空间的基础. 很明显,该子空间的维数将小于或等于n。此外,我们希望将基本元素按顺序放置,以便第一个基本元素是导致样本点之间差异的主要因素,第二个基本元素是下一个主要因素,依此类推。在寻找这样一个基的过程中,发现基元素只是特征空间中协方差矩阵的特征向量。这样就可以对协方差矩阵进行奇异值分解,找到其特征向量和相应的特征值。这些基本要素被称为主成分。现在,如果可以将特征视为一个连续统,例如,以固定的时间间隔(每秒或每分钟)测量的量,那么可以将数据视为平滑函数,而不是离散函数。在这种情况下,我们的n个采样点可以被视为n个函数,如果假设这些函数在 , 然后,再次在中找到这些n个采样点的线性范围的基础.当然,基本元素必须满足与主成分分析相同的顺序。PCA的这种变体称为FPCA。在我们的情况下,因为我们正在处理每30秒采集的高频数据;因此,使用FPCA似乎是合理的。一旦我们得到了基础,我们就把数据表示为主成分的线性组合。

报纸
何人来此 在职认证  发表于 2022-6-9 20:54:46
然后,我们使用k-means聚类等聚类算法将数据分为不同的组。然而,K均值聚类有时无法考虑数据的非线性(若存在)。因此,我们尝试的下一种方法是PCA的非线性扩展,称为核主成分分析(KPCA)。这里的想法是,如果数据在   然而,在更高的维度中,它几乎总是可以线性分离的。定义地图      这样我们在这张地图下的数据在. 我们通过应用带高斯核的FPCA和KPCA对数据进行了分析,并总结了获得的结果。三、 数据描述我们从国家证券交易所(National Stock Exchange)选取了2014年的逐笔数据。我们从当年在CNX100指数中上市的股票开始。最初,CNX100指数中列出的100只股票均被挑选,但在分析过程中,由于数据值不足或数据缺失,有11只股票下跌。CNX100指数,由Nifty50和CNX Nifty初级股组成。表1给出了组成的详细信息。此外,市场上午9点开放,营业时间至下午4点,但活跃交易时段为9:30至3:30。考虑到这一点,在我们的分析中,我们每天6小时从上午9:30到下午3:30采集数据。每30秒被视为一个滴答声,因此每天我们每只股票有720个滴答声点。

地板
kedemingshi 在职认证  发表于 2022-6-9 20:54:50
对于每种股票,计算每30秒的成交量加权平均价格(VWAP),并用于进一步分析。行业类型CNX100的库存数量工业制造水泥和水泥产品服务Sautomobileconsumer Goodspharma金融服务EnergyMetalstelecomconstructionchemicalsittable 1:指数CNX100的组成,2014年考虑的股票数量2014年活跃交易日数每个股票的每日滴答数数据量1,46,74320表2:数据摘要IV.方法和分析过去,许多研究人员使用相关系数来了解股票之间的网络。我们以同样的方式开始分析。一次抽取两只股票,并计算2014年每个工作日每3916对股票的Spearman秩相关系数。每天有720只蜱。图1给出了这些相关系数的样本。图1给出了每个月第一个交易日各股票之间的相关系数。表3总结了图1。对于这些对中的大多数,观察到相关系数小于0.5,事实上它们低至0.2。该分析的一个关键观察结果是,12次中有8次,相关系数的最大值虽然很小,但出现在PNB和巴罗达银行之间。两家国有跨国银行甚至在30秒的刻度上携手前行。我们通过每天运行k-means算法229天来进一步研究这一点,以距离度量为     . 在计算了每3916对的汉明距离之后。相同长度的两个向量之间的汉明距离是对应值不同的位置数。

7
大多数88 在职认证  发表于 2022-6-9 20:54:53
在我们的例子中,它给出了两支股票在特定日期处于不同集群中的次数。然后,我们选择在一起的p%(从90%到50%)的配对,并在它们之间标记一条边。这样就建立了股票内部的网络。图2给出了突出的子图。图1:每月第一个交易日的相关系数矩阵,以图像的形式显示。灰度图像表示的每一对之间的相关系数,从黑到白,从最小到最大。相关系数>0.5DayCorrelation coefficientno of pairs with correlation coefficient>0.5DayCorrelation coefficientno of pairs with correlation coefficient>0.6maxminJan 120140.2796-0.1351Feb 3,20140.3913-0.1845Mar 3,20140.4828-0.2005Apr 1,20140.6639-0.153May 2,20140.5162-0.1552Jun 2,20140.4596-0.1532Jul,20140.4029-0.1196Aug 120140.4951-0.1489 20140.4045-0.1535Oct 1.3941-0.144120140.3662-0.1798Dec 1,20140.381-0.1339表3:每月第一个交易日对应的3916对相关系数汇总。图2:在汉明距离相关系数法的情况下发现的网络(a)<30%,即至少70%的股票在一起,类似地(b)<45%。很明显,PNB和巴罗达银行这两家国有银行在相当长的一段时间内都在手拉手,229天中有162天~ 71%的时间。Axis Bank和Yes Bank的情况类似,229-57%中有131家。虽然这些数字不太令人印象深刻,但我们仍然可以将这些对在同一集群中的出现与它们来自的行业联系起来。然后,我们使用高斯核和  每229个工作日的数据。

8
可人4 在职认证  发表于 2022-6-9 20:54:56
选取解释变异性至少为75%到92%的主成分,并对其应用聚类程序。对于每229天,我们使用k均值聚类将所有89只股票放在不同的聚类中。同样,汉明距离用于以类似的方式形成图形。图3和图4给出了不同p%的显著子图。所有编程都是在Matlab和R中完成的。特别是对于FPCA,我们使用了Matlab包fdaM“http://www.psych.mcgill.ca/misc/fda/downloads/FDAfuns/Matlab/“.图3:在海明距离(a)<20%,即超过80%的股票在一起的情况下,在FPCA中发现的网络,类似地(b)<30%(c)<40%(d)<50%KPCA,90%togetherFPCA,80%togetherFPCA,>70%togetherFPCA,60%togetherFPCA,50%togetherKPCA,85%togetherKPCA,80%togetherKPCA,75%togetherKPCA,70%togetherFPCA图4:在汉明距离(a)<10%的情况下发现的网络,即超过90%的股票在一起,类似地,在所有三种方法的情况下,也计算对应于关系强度的(b)<15%(c)<20%(d)<25%(d)<30%P值。我们进行了假设检验,以检验两支股票在同一组中的上市次数比例。表4总结了根据KPCA方法获得的与单尾检验相对应的p值,两种股票在一起的时间比例为80%,而它们在一起的时间比例超过80%。表5比较了不同方法的p值。S1S2编号。

9
何人来此 在职认证  发表于 2022-6-9 20:54:59
同一集群中的时间KPCAz统计KPCAp值KPCAPNBANK of Baroda4.9230985734.25923E-07ICIAXIS Bank3.1058474220.000948673TCSInfy3.6014613720.000158217TCSIPWRO2.4450288220.007242028TCSTechm2.4450288220.007242028InfyWipro2.4450288220.007242028InfyTechm3.1058474220.000948673表4:考虑KPCA的7个最强对的假设检验。检验:单尾检验,两支股票合在一起的比例为80%,而它们合在一起的比例超过80%。S1S2秩相关系数fpcakpcano。这对夫妇在同一个集群中的天数。这对夫妇在同一个集群中的天数。日数对位于Baroda4.03E-015.901E-051.49E-14ICICIAxis银行9.31E-019.09E-10TCSInfy5.75E-11TCSIPWRO2.72E-08TCSCTECHM2.72E-08InfyWipro2.72E-08InfyWipro2.72E-08InfyTechm9.09E-10Yes银行轴线银行8.02E-03HINDPETROBPCL1.70E-029.86E-01TAMTRDRTATAMOTORSTABLE 5:对10个显著对进行假设检验,样本量229。检验:单尾检验,两支股票在一起的比例为70%,而在一起的比例超过70%。考虑到2014年是一个特殊的年份,印度在4月和5月举行了大选,因此单独研究这段时间也是合理的。我们决定从2014年3月开始选取数据,因为已经举行了促销集会,持续到2014年5月。利用这组数据,使用所有三种不同的方法重复相同的步骤,该分析的主要特征总结如下:  同样的网络也出现了,这一次,他们的联系更加紧密。图5给出了在同一集群中发现一对在一起的百分比。表6还显示了对应于前10对的p值。

10
何人来此 在职认证  发表于 2022-6-9 20:55:03
  正如前面的分析所示,与银行部门相对应的网络再次成为一个独立的网络。  然而,IT网络被视为与不同部门的股票相互作用。图5:所有89种库存均以行和列的形式列出,每一对的颜色代表百分比() 这两个人在同一个集群中。配色方案:红色:   绿色:     蓝色:     和白色:   . (a) 秩相关,2014年数据(b)FPCA,2014年数据(c)KPCA,2014年数据(d)秩相关,2014年3月-2014年5月数据(e)FPCA,2014年3月-2014年5月数据(f)KPCA,2014年3月-2014年5月数据AB cde f[0,40%[40,60%[60,80%[80,100%]S2Rank correlation coefficiencefpcakpcano。这对夫妇在同一个集群中的天数。这对夫妇在同一个集群中的天数。日数对位于Baroda1.84E-013.10E-021.91E-05ICIAXIS银行1.84E-011.43E-02TCSInfy3.98E-012.56E-04TCSIPWRO9.12E-012.56E-04TCSCTECHM9.96E-016.04E-03InfyWipro8.48E-018.08E-04INFYETCHM9.99E-018.08E-04Yes银行轴线银行1.00E+003.98E-01INDPROBCL2.81E-015.26E-01TAMTRRDVRTATAMOTORS7.60E-011.00E+00表6:10对显著对的假设检验,样本量46,2014年3月至2014年5月。检验:单尾检验,两支股票合在一起的比例为70%,而它们合在一起的比例超过了70%。结论本文的目的是研究股票之间的相互作用,我们选择30秒作为刻度大小,并研究了2014年在CNX100上市的100支股票中的89支股票的行为。如果相关系数实际上无法提供详细的图像,则使用高斯核的KPCA可以以更高的功率深入了解这一级别的分析。一些行业被视为紧密联系在一起并在一起发展。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-3 01:00