楼主: 能者818
1157 13

[量化金融] 金融数据聚类分析方法综述 [推广有奖]

11
可人4 在职认证  发表于 2022-5-26 18:27:50
例如,[17]使用了从晨星(Morningstar)获得的数据,包括904只不同的基金,这些基金分为七个不同的投资目标:全球债券、增长型、中小企业、纽约市、加州市政、州市政和国家市政。每只基金有28个财务变量,在分析之前都进行了归一化处理。同时,[9]使用了1000份包含财务报表的文件的综合数据集。在[21]中,作者使用了标准普尔500指数历史股票数据集。每天有500只股票,每只股票是一个长度为l的序列,其中l≤  在[7]中,他们分析了91只不同股票的股价数据集,这些数据可以在link上找到http://finance.yahoo.com.数据涵盖三年;1999年11月1日至2001年11月1日。此外,我们还使用k-means和基于密度的聚类方法分析了两个金融数据集:德国信用卡和客户流失。这两个数据集均由UCI机器学习库提供【22】。德国信贷数据集包含由7个数字属性和13个名义属性描述的客户,这些属性表示良好或不良的信贷风险。数据包含1000个样本案例。搅动数据集是人工的,但据称与真实世界的测量结果相似。它涉及电信客户流失,包含5个标称属性、15个数字属性和3333个示例。我们分析数据集时不借助于名义属性,原因有几个,例如,数字属性是在商业活动或商业市场内部获取的,而名义属性是由市场专家定义的外部概念表示的,其重要性没有得到保证。

12
能者818 在职认证  发表于 2022-5-26 18:27:55
此外,名义属性通常是层次依赖的,可能会丢失,而数据挖掘模型应该能够绕过这些可选约束来理解示例案例的结构。B、 用于评估聚类方法的标准取决于每种方法。例如,[17]使用公式(1)应用k的相关值,然后讨论运行k-means算法对共同基金进行分类得到的结果。[7] 使用股票i的标准化变化Pi(t)来克服时间的离散本质和处理偏差或第一个价格差异的困难,因为可能的股票价格范围很广。外部聚类静态数据(如熵和纯度)用于定义行业内的紧密度,内部统计数据(如分离度和轮廓系数)用于判断行业之间的分离程度。[9] 没有给出聚类标准,但声称他们的工作是构建稳健财务报表异常检测系统的第一步,但这在很大程度上取决于运营商对流程的监控。在本文中,我们使用著名的内部标准来评估聚类行为。

13
能者818 在职认证  发表于 2022-5-26 18:27:58
Davies Bouldin指数(DBI)[23]被用作聚类的第一个内部标准,其定义如下:DBI=1NDii=1N∑其中,N是集群数量,Di是集群CI的紧密性标准,采用最坏情况,定义为:Di=maxj;我≠ jRi,ji,其中i和j是聚类指数,Ri,jis是两个聚类紧密度和两个中心松散度之和之间比率的总结评估。Skis是由k索引的簇的平均内部欧氏距离,Mi、jis是两个簇之间的欧氏距离。Si=1TiXj- Ai2j=1Ti∑2Mi,j=Ai- aj2其中是clusterCi的质心,tii是ci的大小,xi是分配给ci的n维特征向量。DBI值越小,聚类效率越高。Dunn指数(DI)用作聚类的第二个内部标准,其定义为:DI=min1≤我≤Nmin1≤j≤N、 j≠iδ(Ai,Aj)max1≤k≤。Δk=最大x,y∈Ckx公司- yandδ(Ai,Aj)是簇之间的最近距离δ(Ai,Aj)=minxi∈Ci,xj∈Cj,i≠ jxi公司- 与DBI一样,DI越大,集群效果越好。它评估簇间和簇内距离。然而,与DBI一样,最佳聚类会丢失有关数据集的最一般结构信息。DBI和DI之间的主要区别在于,DBI表示平均紧密度,而DI是最坏情况的指示器。C、 划分方法正如【17】具有不同投资目标的集团共同基金一样,他们声称聚类分析能够解释未知结构数据集之间的非线性结构关系。

14
能者818 在职认证  发表于 2022-5-26 18:28:03
他们发现,超过40%的共同基金不属于其规定的类别,尽管规定的类别非常多;三个小组非常重要。聚类有助于根据金融数据的特征而不是标签(例如名义标签(客户性别、居住区域、收入或上次交易的成功率等))简化金融数据分类问题。此外,可能缺少或未提供标称标签。因此,我们的工作是理解没有给定类别标签的金融数据分类的详细结构。我们给出了标准化和非标准化两个数据集(德国信贷数据集和客户流失数据集)的K均值聚类的DBI和DI,以找出给定数据集的最佳K值。为了避免信息过度拟合和失去通用性,我们测试了从2到20的k。我们将属性值标准化为介于[0:1]之间,以避免大规模属性支配数据集特征。x’=x- xminxmax- xmin其中xmax和xmin是重缩放属性的最大值和最小值。从图II可以看出,k=12是DBI的最佳值,k=8是原始德国信贷数据集DI的最佳值,k=8是DBI和DI的标准化德国信贷数据集的最佳值。从结果可以看出,由于聚类原始数据集的DI约为0,因此属性尺度会影响聚类评价。归一化统一了平均紧密度和最坏情况的结果。从图III可以看出,对于原始客户流失数据集,DBI的k=12是最佳的,DI的k=17是最佳的。k=2是DBI和DI对归一化数据集的最佳值。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-4-12 06:15