楼主: 可人4
1435 20

[量化金融] 金融数据聚类分析方法综述 [推广有奖]

11
mingdashike22 在职认证  发表于 2022-5-30 12:24:42
例如,[17]使用了从晨星(Morningstar)获得的数据,包括904只不同的基金,这些基金分为七个不同的投资目标:全球债券、增长型、中小企业、纽约市、加州市政、州市政和国家市政。每只基金有28个财务变量,在分析之前都进行了归一化处理。同时,[9]使用了1000份包含财务报表的文件的综合数据集。在[21]中,作者使用了标准普尔500指数历史股票数据集。每天有500只股票,每只股票是一个长度为l的序列,其中l≤  在[7]中,他们分析了91只不同股票的股价数据集,这些数据可以在link上找到http://finance.yahoo.com.数据涵盖三年;1999年11月1日至2001年11月1日。此外,我们还使用k-means和基于密度的聚类方法分析了两个金融数据集:德国信用卡和客户流失。这两个数据集均由UCI机器学习库提供【22】。德国信贷数据集包含由7个数字属性和13个名义属性描述的客户,这些属性表示良好或不良的信贷风险。数据包含1000个样本案例。搅动数据集是人工的,但据称与真实世界的测量结果相似。它涉及电信客户流失,包含5个标称属性、15个数字属性和3333个示例。我们分析数据集时不借助于名义属性,原因有几个,例如,数字属性是在商业活动或商业市场内部获取的,而名义属性是由市场专家定义的外部概念表示的,其重要性没有得到保证。

12
mingdashike22 在职认证  发表于 2022-5-30 12:24:45
此外,名义属性通常是层次依赖的,可能会丢失,而数据挖掘模型应该能够绕过这些可选约束来理解示例案例的结构。B、 用于评估聚类方法的标准取决于每种方法。例如,[17]使用公式(1)应用k的相关值,然后讨论运行k-means算法对共同基金进行分类得到的结果。[7] 使用股票i的标准化变化Pi(t)来克服时间的离散本质和处理偏差或第一个价格差异的困难,因为可能的股票价格范围很广。外部聚类静态数据(如熵和纯度)用于定义行业内的紧密度,内部统计数据(如分离度和轮廓系数)用于判断行业之间的分离程度。[9] 没有给出聚类标准,但声称他们的工作是构建稳健财务报表异常检测系统的第一步,但这在很大程度上取决于运营商对流程的监控。在本文中,我们使用著名的内部标准来评估聚类行为。

13
何人来此 在职认证  发表于 2022-5-30 12:24:49
Davies Bouldin指数(DBI)[23]被用作聚类的第一个内部标准,其定义如下:DBI=1NDii=1N∑其中,N是集群数量,Di是集群CI的紧密性标准,采用最坏情况,定义为:Di=maxj;我≠ jRi,ji,其中i和j是聚类指数,Ri,jis是两个聚类紧密度和两个中心松散度之和之间比率的总结评估。Skis是由k索引的簇的平均内部欧氏距离,Mi、jis是两个簇之间的欧氏距离。Si=1TiXj- Ai2j=1Ti∑2Mi,j=Ai- aj2其中是clusterCi的质心,tii是ci的大小,xi是分配给ci的n维特征向量。DBI值越小,聚类效率越高。Dunn指数(DI)用作聚类的第二个内部标准,其定义为:DI=min1≤我≤Nmin1≤j≤N、 j≠iδ(Ai,Aj)max1≤k≤。Δk=最大x,y∈Ckx公司- yandδ(Ai,Aj)是簇之间的最近距离δ(Ai,Aj)=minxi∈Ci,xj∈Cj,i≠ jxi公司- 与DBI一样,DI越大,集群效果越好。它评估簇间和簇内距离。然而,与DBI一样,最佳聚类会丢失有关数据集的最一般结构信息。DBI和DI之间的主要区别在于,DBI表示平均紧密度,而DI是最坏情况的指示器。C、 划分方法正如【17】具有不同投资目标的集团共同基金一样,他们声称聚类分析能够解释未知结构数据集之间的非线性结构关系。

14
可人4 在职认证  发表于 2022-5-30 12:24:52
他们发现,超过40%的共同基金不属于其规定的类别,尽管规定的类别非常多;三个小组非常重要。聚类有助于根据金融数据的特征而不是标签(例如名义标签(客户性别、居住区域、收入或上次交易的成功率等))简化金融数据分类问题。此外,可能缺少或未提供标称标签。因此,我们的工作是理解没有给定类别标签的金融数据分类的详细结构。我们给出了标准化和非标准化两个数据集(德国信贷数据集和客户流失数据集)的K均值聚类的DBI和DI,以找出给定数据集的最佳K值。为了避免信息过度拟合和失去通用性,我们测试了从2到20的k。我们将属性值标准化为介于[0:1]之间,以避免大规模属性支配数据集特征。x’=x- xminxmax- xmin其中xmax和xmin是重缩放属性的最大值和最小值。从图II可以看出,k=12是DBI的最佳值,k=8是原始德国信贷数据集DI的最佳值,k=8是DBI和DI的标准化德国信贷数据集的最佳值。从结果可以看出,由于聚类原始数据集的DI约为0,因此属性尺度会影响聚类评价。归一化统一了平均紧密度和最坏情况的结果。从图III可以看出,对于原始客户流失数据集,DBI的k=12是最佳的,DI的k=17是最佳的。k=2是DBI和DI对归一化数据集的最佳值。

15
可人4 在职认证  发表于 2022-5-30 12:24:55
我们再次注意到,归一化统一了最佳聚类方案,而原始属性尺度给出了两个聚类解决方案。图五显示,标准化的德国信贷数据集具有良好的密度分布。当MinPts=10时,通过将可达距离设置为0.33,将数据集划分为23个基于密度的聚类和1个噪声聚类。有841个有效示例和159个噪声示例。当MinPts=20时,在相同的可达距离下,将数据集划分为15个密度闭簇和1个噪声簇。有681个有效示例和319个噪声示例。尽管从表III可以看到密度分布的可视化,但与K-means聚类相比,聚类存在较大比例的噪声和较大的DBI值以及较低的DI值。我们可以得出结论,德国信用数据集更适合基于质心的聚类,而不是基于密度的聚类。图二:。K-means聚类德国数据集的DBI和DI图III.K-means聚类客户数据集的DBI和DI图IV.原始德国信贷数据集的可达性图图V.规范化德国数据集的可达性图表III.规范化德国信贷数据集的DBSCAN聚类可达性distanceMinPtsNoiseDBIDI0.33No2.5290.236Yes2.8430.0330.33No2.4650.250Yes2.7930.020图六显示,原始客户流失数据集不能基于密度划分为集群;整个数据集作为一个整体运行。图六、原始客户流失数据集的可达性图七。规范化客户流失数据集的可达性图(图七)显示,当MinPts=10或20时,主要有两个谷,这表明客户流失数据集中有两个激励集群。从表IV中可以看出,无噪声示例的DBSCAN获得良好的DBI,而有噪声示例的DBI较差。

16
何人来此 在职认证  发表于 2022-5-30 12:24:58
然而,DBSCAN聚类再次遭受了很大比例的噪声,其中有980多个噪声示例(约占噪声的30%)。对于金融数据集,噪声应非常小,记录的数据应普遍可信。金融数据集通常不是密度分布的,因此,基于密度的聚类是不合适的。表IV.针对客户流失数据的DBSCAN聚类和DBI可伸缩距离Minptsnoisedbidi0.32No1.5960.182Yes3.5680.1060.33No1.5720.195Yes4.4350.080D。数据流聚类在[9]中,作者使用在线进化聚类来更新参数:聚类数和聚类半径。两个级别的异常检测具有不同的财务报表特征。第一级基于与账户相关的内部信息,例如设备、员工等。对于这两个参数的每一个组合,至少会创建一个集群。但作者并没有给出一个很好的理由。第二级基于文档类型。然而,不同类型之间的距离不同,这也是专家的先验知识。创建新簇的阈值由第一级专家确定,第二级由预定义距离确定。监控过程中,专家也会大量批准或不批准文件。作者将他们的方法归类为异常检测的第一步。他们致力于减少对专家的依赖,并在未来的工作中结合离线和在线方法。在[7]中,作者对基于时间的标准化股票市场数据使用了层次聚集聚类。

17
nandehutu2022 在职认证  发表于 2022-5-30 12:25:01
选择百分比变化作为一个很好的比较指标,并使用基于时间的归一化来消除股市的整体趋势,提高异常值造成的准确性。如果所有项目的平均归一化距离超过指定阈值,则该方法将所有项目作为异常值删除,这需要领域专家知识。此外,时间序列的相关度是预先确定的。作者发现,完全链接和沃德的方法通过更好的纯度和过滤出较少的异常股票表现得相当好。通过处理异常值,总体纯度仅下降约6%,作者声称,鉴于股票的历史价格记录,时间序列聚类可以确定行业分类。然而,我们注意到,数据流聚类需要太多的先验知识或领域知识,甚至需要对单个领域的不同特性进行大量调整。不同领域的聚类方法本质上是不同的。因此,聚类是理解金融时间序列分类的一种很好的方法,但在逻辑上并不清晰和有效。由于与时间相关的特性,距离度量变得更加复杂,因为聚类无法在示例之间智能地缩放与时间相关的影响。专家们必须确定,例如周期长度等。递归神经网络[24]和高斯过程[25]是更有前景的方法,更有可能处理时间序列或周期性金融数据分类。五、 结论和未来的工作表明,基于密度的聚类不适合金融数据集。

18
kedemingshi 在职认证  发表于 2022-5-30 12:25:05
具有较高DI或较低DBI的基于归一化质心的聚类提供了最佳的聚类数,有助于理解金融数据分类。原始属性尺度不能反映行为相似性,因为欧几里德距离由大规模属性决定,最佳平均紧密度不能通过偏离最坏情况来指示最佳情况。然而,我们仍然发现了一些限制,例如,K-means聚类倾向于找到球形聚类,基于质心的聚类不处理噪声等。这项工作可以看作是使用聚类研究金融数据集结构的第一步。我们将在金融数据集上进一步应用其他技术。这包括:(1)发现其他基于质心的金融数据集聚类方法。(2) 找出标称属性是否重要,并引入其他标准来评估集群。(3) 引入加权欧几里德距离代替标准欧几里德距离对基于质心的聚类进行重新评估,以克服K均值的局限性。(4) 引入并比较不同类型的非线性分类器,以增强查全率和准确性,提高结果的预测性和可解释性。这些技术包括决策树、非线性支持向量机、不同结构的神经网络和具有不同核函数的高斯过程等。参考文献[1]A.Weigend,“金融中的数据挖掘:来自NNCM-96后金融建模和数据分析计算机密集型方法教学研讨会的报告”,第四届资本市场神经网络国际会议NNCM-961997,第399-411页。[2] P-N.Tan、M.Steinbach和V。

19
何人来此 在职认证  发表于 2022-5-30 12:25:09
Kumar,《数据挖掘导论》,Addison-Wesley,2006年,pp.150-172[3]J.R.Quinlan,“学习函数的一阶定义”,人工智能研究杂志。,第5卷,1996年,第139-161页[4]N.克里斯蒂亚尼尼,J-S.泰勒,支持向量机和其他基于核的学习方法简介。剑桥大学出版社,2000年。[5] J.Han和M.Kamber,《数据挖掘:概念和技术》。摩根·考夫曼出版社,第二版,2005年11月。[6] T.M.Cover,P.E.Hart,“最近邻模式分类”,《基于知识的系统杂志》,第8卷第6期,1995年,第373-389页[7]T.Wittman。(2002年12月)。金融数据的时间序列聚类和关联分析。可访问:http://www.math。加州大学洛杉矶分校。埃杜/~维特曼/论文/项目。pdf。[8] H.Bensmail,R.P.DeGennaro。(2004年9月)。分析估算财务数据:聚类分析的新方法。网址:http://www.frbattlanta。org/filelegacydocs/wp0420。pdf。[9] S.Omanovic,Z.Avdagic,S.Konjicija,“用于财务报表异常检测的在线演化聚类”,信息、通信和自动化技术国际研讨会,2009年国际会计准则委员会。二十二、 2009年,第1-4页。[10] P.Langley、W.Iba、K.Thompson,“贝叶斯分类器分析”,第十届全国人工智能会议,1992年,第223-228页。[11] R.A.Bourne,S.Parsons,“最大熵和可变强度默认值”,第16届国际人工智能联合会议,IJCAI 99,瑞典斯德哥尔摩,1992年7月31日至8月6日,pp.50-55【12】N-A.Le Khac,M.T.Kechadi,“数据挖掘在反洗钱检测中的应用:案例研究”。

20
能者818 在职认证  发表于 2022-5-30 12:25:12
第十届IEEE数据挖掘国际会议研讨会,澳大利亚悉尼,2010年12月14日。第577-584页【13】S.R.Eddy,“什么是动态规划?”,《自然生物技术》,2004年第22卷,第909-910页。[14] R.S.Sutton,“通过时间差异的方法学习预测”。机器学习,第3卷,1988年。pp.9–44【15】H.Wenying,“强调奇异点检测的小波回归”,美国德克萨斯州山姆休斯顿州立大学数学与统计系硕士论文,2003【16】J.A.Hartigan,“聚类算法”,Wiley 1975【17】A.Marathe A,HA。肖基,“利用集群对共同基金进行分类”,《金融和会计定量分析进展》,第7卷,1999年,第199-211页。[18] M.Ankerst、M.M.Breunig、H-P.Kriegel、J.Sander,“光学:确定聚类结构的排序点”。ACM SIGMOD数据管理国际会议”,1999年。第49-60页。[19] M.Ester,H-P.Kriegel,J.Sander,X.Xu,“在有噪声的大型空间数据库中发现群集的基于密度的算法”,第二届知识发现和数据挖掘国际会议(KDD-96)。1996年,第226–231页【20】N.Kasabov,“不断发展的连接主义体系”,施普林格·维拉格(Springer Verlag)伦敦-柏林-海德堡,2003年,第40–42页。[21]M.Gavrilov、D.Angelov、P.Indyk和R.Motwani。“挖掘股市:哪项措施最好?”过程。《KDD 2000》,第487-496页。[22]Hans Hofmann教授,Statlog(德国信贷数据)数据集,C.L.Blake和C.J.Merz,客户流失数据集,UCI机器学习数据库库[23]Davies,D.L。;Bouldin,D.W.(1979年)。“集群分离措施”。模式分析和机器智能IEEE交易(2):224。[24]马丁·T·哈根、H·B·D.和马克·比尔。神经网络设计。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-3 03:28