楼主: 能者818
648 13

[量化金融] 金融数据聚类分析方法综述 [推广有奖]

  • 0关注
  • 6粉丝

会员

学术权威

79%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
35.3298
学术水平
0 点
热心指数
1 点
信用等级
0 点
经验
24952 点
帖子
4198
精华
0
在线时间
0 小时
注册时间
2022-2-24
最后登录
2022-4-15

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Clustering Approaches for Financial Data Analysis: a Survey》
---
作者:
Fan Cai, Nhien-An Le-Khac, Tahar Kechadi
---
最新提交年份:
2016
---
英文摘要:
  Nowadays, financial data analysis is becoming increasingly important in the business market. As companies collect more and more data from daily operations, they expect to extract useful knowledge from existing collected data to help make reasonable decisions for new customer requests, e.g. user credit category, confidence of expected return, etc. Banking and financial institutes have applied different data mining techniques to enhance their business performance. Among these techniques, clustering has been considered as a significant method to capture the natural structure of data. However, there are not many studies on clustering approaches for financial data analysis. In this paper, we evaluate different clustering algorithms for analysing different financial datasets varied from time series to transactions. We also discuss the advantages and disadvantages of each method to enhance the understanding of inner structure of financial datasets as well as the capability of each clustering method in this context.
---
中文摘要:
如今,财务数据分析在商业市场中变得越来越重要。随着公司从日常运营中收集越来越多的数据,他们希望从现有收集的数据中提取有用的知识,以帮助对新客户的请求做出合理的决策,例如用户信用类别、预期回报的信心等。银行和金融机构已应用不同的数据挖掘技术来提高其业务绩效。在这些技术中,聚类被认为是捕获数据自然结构的重要方法。然而,对于财务数据聚类分析方法的研究并不多。在本文中,我们评估了用于分析不同金融数据集(从时间序列到交易)的不同聚类算法。我们还讨论了每种方法的优缺点,以增强对金融数据集内部结构的理解,以及在这种情况下每种聚类方法的能力。
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:General Finance        一般财务
分类描述:Development of general quantitative methodologies with applications in finance
通用定量方法的发展及其在金融中的应用
--

---
PDF下载:
--> Clustering_Approaches_for_Financial_Data_Analysis:_a_Survey.pdf (776.18 KB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:分析方法 聚类分析 金融数据 Quantitative Applications

沙发
可人4 在职认证  发表于 2022-5-26 18:27:21 |只看作者 |坛友微信交流群
摘要当今,财务数据分析在商业市场中变得越来越重要。随着公司从日常运营中收集越来越多的数据,他们希望从现有收集的数据中提取有用的知识,以帮助对新客户的请求做出合理的决策,例如用户信用类别、预期回报的信心等。银行和金融机构已应用不同的数据挖掘技术来提高其业务绩效。在这些技术中,聚类被认为是捕获数据自然结构的重要方法。然而,对于财务数据聚类分析方法的研究并不多。在本文中,我们评估了用于分析不同金融数据集(从时间序列到交易)的不同聚类算法。我们还讨论了每种方法的优缺点,以增强对金融数据集内部结构的理解,以及在这种情况下每种聚类方法的能力。关键词聚类;划分聚类;基于密度的聚类;金融数据集I.简介今天,我们有大量的金融数据集。更快、更便宜的存储技术使我们能够存储更多的数据。由于数据源的规模很大,人类分析师不可能提供有助于决策过程的有趣信息(或模式)。全球竞争、动态市场以及信息和通信技术的快速发展是当今金融业面临的一些主要挑战。例如,金融机构不断需要更多的数据分析,数据分析变得越来越庞大和复杂。

使用道具

藤椅
能者818 在职认证  发表于 2022-5-26 18:27:24 |只看作者 |坛友微信交流群
随着可用数据量的不断增加,我们处理数据的能力变得越来越困难。因此,从这些数据集中高效地发现有用的知识正成为一项挑战和巨大的经济需求。另一方面,数据挖掘(DM)是从大型数据集(数据库或数据)中提取有用的、通常是以前未知的信息,即所谓的知识的过程。这些挖掘出来的知识可用于各种应用,如市场分析、欺诈检测、客户保留等。最近,DM被证明非常有效,N-A.Le Khac:爱尔兰都柏林大学计算机科学与信息学院(通讯作者:an。lekhac@lucd.ie)。F、 Cai:爱尔兰都柏林大学学院计算机科学与信息学院(caifan。home@gmail.com)。M-T.Kechadi:爱尔兰都柏林大学学院计算机科学与信息学院(塔哈尔)。kechadi@ucd.ie)。分析金融数据集有利可图[1]。然而,挖掘财务数据带来了特殊的挑战;复杂性、外部因素、机密性、异质性和规模。数据挖掘者面临的挑战是在趋势有效的时候快速找到它们,以及识别趋势不再有效的时间。此外,设计一个适当的过程来发现财务数据中的有价值的知识是一项非常复杂的任务。文献中提出了不同的数据挖掘技术,用于各种金融应用中的数据分析。例如,在股票选择中使用了决策树[2]和一阶学习[3]。神经网络【4】和支持向量机【5】技术用于预测破产,最近邻分类【6】用于欺诈检测。

使用道具

板凳
何人来此 在职认证  发表于 2022-5-26 18:27:27 |只看作者 |坛友微信交流群
用户还使用这些技术来分析金融时间序列【7】、估算金融数据【8】、异常值检测【9】等。然而,与分类和回归等其他技术相比,该领域应用的聚类技术并不多【2】。在本文中,我们调查了不同的聚类算法,用于分析各种应用的不同金融数据集;信用卡欺诈检测、投资交易、股票市场等。我们讨论了每种方法的优缺点,以更好地理解金融数据集的内部结构以及每种聚类方法在这方面的能力。换句话说,本研究的目的是概述基本聚类方法是如何应用于财务数据分析的。本文的其余部分组织如下。在第二节中,我们简要介绍了文献中可以找到的不同金融数据挖掘技术。第三节简要介绍了该领域中使用的不同聚类技术。我们在第四节中评估并讨论了这些聚类方法的优缺点。我们在第五节第二节中总结并讨论了一些未来的方向。关联规则关联规则是一种被称为关联分析的数据挖掘技术,它有助于发现隐藏在大型数据集中的有趣关系。这些关系可以用关联规则或频繁项集集的形式表示[2]。该技术可应用于金融、地球科学、生物信息学、医学诊断、web挖掘和科学计算等不同领域的数据分析。

使用道具

报纸
kedemingshi 在职认证  发表于 2022-5-26 18:27:30 |只看作者 |坛友微信交流群
在金融领域,关联分析被用于包括金融数据分析的方法:调查范·蔡、恩扬·安勒·卡克、M-Tahar Kechadi、都柏林大学学院计算机科学与信息学院、IrelandTcustomer profiling,从公司现有的客户数据库中构建不同群体的概况。从这个过程中获得的信息有助于了解业务绩效、制定新的营销计划、分析风险和修订公司客户政策。此外,贷款支付预测、客户信用政策分析、营销和客户关怀也可以进行关联分析,以识别重要因素并消除不相关因素。B、 分类分类是另一种DM方法,它将对象指定给预定义的类别之一。它使用训练示例,例如输入和输出目标对,来找到适当的目标函数,也就是非正式的分类模型。分类模型对于描述和预测建模都很有用[2]。在金融领域,分类方法还通过构建预测模型(其中预测值是分类的)用于客户分析。金融市场风险、信用评分/评级、投资组合管理和交易也将此方法应用于将类似数据分组。分类是计算金融学中重要的分析方法之一。基于规则的方法[2][3]可用于股票选择。此外,破产预测可以使用其几何方法[4][5],其中分类函数用一组通过优化某些错误标准构建的决策边界来表示。

使用道具

地板
能者818 在职认证  发表于 2022-5-26 18:27:33 |只看作者 |坛友微信交流群
其他方法,如Na"ive Bayes分类器【10】、最大熵分类器【11】被应用于债券评级,基于原型的分类方法(如最近邻分类)也被用于欺诈检测。C、 与聚类分类类似,聚类分析将相似的数据对象分组为聚类[2],然而,这些类或聚类并没有事先定义。通常情况下,聚类分析是数据汇总等其他目的的有用起点。数据对象集群可以看作是数据压缩的一种形式。不同的领域可以将聚类技术应用于分析数据,如生物学、信息检索、医学等。在商业和金融领域,可以使用聚类将客户划分为多个组,以进行额外的分析和营销活动。由于聚类通常用于数据汇总或压缩,与分类和关联分析相比,使用该技术的金融应用并不多。我们将在第III.D节中介绍一些方法。其他方法可应用于金融数据集的其他挖掘技术分为三类:优化、回归和模拟。例如,投资组合选择、风险管理和资产负债管理可以使用不同的优化技术,如遗传算法【12】、动态规划【13】、强化学习【14】等。此外,线性回归【2】和小波回归【15】是财务预测领域的常用方法,期权定价与股票预测。三、 聚类方法A。

使用道具

7
何人来此 在职认证  发表于 2022-5-26 18:27:37 |只看作者 |坛友微信交流群
划分方法K-均值聚类【16】方法旨在将n个观察到的示例划分为K个聚类。每个示例都属于一个集群。所有的例子都被同等重要地对待,因此平均值被视为群中观测值的质心。对于预定的k,算法通过在两个步骤之间交替进行:分配步骤和更新步骤。分配步骤将每个示例分配给其最近的簇(质心)。更新步骤使用赋值步骤的结果计算新形成簇的新平均值(质心)。k-means算法在实际应用中收敛速度很快,但最优k值事先未知。在[17]中,作者使用k-means算法对共同基金进行分类。创建的集群根据自己宣布的投资目标进行分配,并进行比较,以解释预期和财务特征之间的差异。此外,为了确定团簇数(k),作者应用哈提根理论,通过计算以下公式:()1011111>--×##$%&&&\'(-∑∑+==knESSESSkiki(1),其中k是k个簇的结果,ESS表示平方和,n是数据集的大小。簇的数目是最小k,因此(1)为假。B、 基于密度的另一种聚类方法是基于密度的[2],它不通过平均质心来划分样本空间,而是使用基于密度的信息,通过这种信息可以正确地对杂乱、轮廓不规则但分布均匀的数据集进行聚类。光学【18】是一种基于密度的聚类技术,用于深入了解数据集的密度分布。它弥补了k-means算法在如何选择k值方面的不足。

使用道具

8
kedemingshi 在职认证  发表于 2022-5-26 18:27:40 |只看作者 |坛友微信交流群
光学技术为研究基于密度的簇的大小提供了一个视角。与基于质心的聚类不同,OPTICS从第一步开始就不会显式生成数据集的聚类。相反,它根据密度分布创建示例的增强排序。这种聚类排序可用于广泛的基于密度的聚类,如DBSCAN。此外,光学技术可以通过集群可达图(18)以图形方式提供数据集的密度信息,这使得用户能够理解数据集基于密度的结构。图I.二维数据集样本和相应的可达性图图I给出了二维数据集的可达性图,谷数表明有3个基于密度的聚类。然而,光学需要一些先验知识,例如邻域半径(ε)和ε内的最小对象数(MinPts),通过这些先验知识,可以直接定义密度可达、密度连通、簇和噪声,如【18】所示。DBSCAN[19]基于任意核心对象的密度连通范围,其中包含ε-邻域中的MinPts对象。在光学中,不会从一开始就记录簇成员身份,而是记录对象聚集的顺序。该信息由两个值组成:核心距离和可达距离。有关DBSCAN和光学有序数据集的更多详细信息,请参见[18]。

使用道具

9
大多数88 在职认证  发表于 2022-5-26 18:27:44 |只看作者 |坛友微信交流群
对象的核心距离p定义为:核心- Distanceε,MinPts(p)=未定义,如果相邻ε(p)<minptsmimpts- dis tan ce(p),否则对象的可达距离q w.r.t对象o定义为:可达性- 距离ε,MinPts(q,o)=未定义,如果相邻ε(o)<MinPtsmax(核心- 距离(o),距离(o,q)),否则“#$%%”,因为可达性图对输入参数不敏感,[18]建议值应为“大”足以在没有未定义示例和可达性图看起来不参差不齐的情况下产生良好的结果。实验表明,当ε足够大时,MinPts使用10到20之间的值总是能获得良好的结果。简而言之,可达图是理解基于密度的金融数据结构的一种非常直观的方法。其一般形状与使用的参数无关。C、 数据流聚类[9]采用了在线进化方法来检测财务报表的异常情况。在线进化方法【20】是一种对数据流进行聚类的动态技术。该方法通过计算实例与现有聚类中心之间的距离,动态增加聚类数。如果此距离高于阈值,则会创建一个新集群,并通过示例进行初始化。该聚类算法可以概括为三个主要步骤:(1)计算数据对象xi到所有现有聚类中心CcJ之间的距离DiJ,找到最小距离Dik,并将其与聚类中心Ck的半径Rk进行比较。(2) 如果Dik<Rk,则xi属于聚类Ck,否则找到最近的聚类Ca,并根据阈值δ评估Sa=直径+Ra。(3) 如果Sa>δ,则为xi创建一个新集群,否则xi属于集群Ca,并更新Ra=Sa/2。

使用道具

10
可人4 在职认证  发表于 2022-5-26 18:27:48 |只看作者 |坛友微信交流群
在该算法中,簇的数目不是预定义的。然而,距离计算和阈值需要专家提供先验知识,新形成的簇的标记也需要专家提供先验知识。[21]应用层次聚集聚类方法分析股市数据。提出了一种有效的聚类相似度度量方法;层次凝聚聚类方法的一个关键问题。两个簇C={C1,C2,…Ck}和C\'={C\'1,C\'2…C\'k}之间的相似性定义如下:KCCSimcSimjiij/)\',(max()\'(∑=其中JIJIJICCCCSIM“2”)(+∩=作者还提到,还应采用一些预处理技术,如映射、降维和归一化,以提高性能。此外,他们使用精确召回方法[21]来提高聚类质量。[7] 还应用了[21]的方法来分析金融数据,即股票市场。此外,作者定义了一种新的基于时间段的距离度量来处理时间序列数据。具体而言,库存i和库存j之间的距离由以下公式给出:2),(jiPPjid-=其中100()()()1()(×)-+=tstststPiiiisi(t)是t时的股票价值i。作者指出,过滤异常值后,由归一化百分比变化提供的层次聚集聚类给出了最佳结果。然而,异常值的识别需要一个先验阈值。此外,作者将神经网络和关联分析与聚类技术相结合,对股市数据集进行分析。四、 评估和分析A.数据集本节讨论了不同的财务数据集。根据作者的方法选择了一些THRI,j=Si+SjMi,j。

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-11-5 12:48