楼主: 大多数88
1605 59

[量化金融] 学习型行业:基础知识驱动的行业重新分类项目 [推广有奖]

21
nandehutu2022 在职认证  发表于 2022-6-25 06:08:52
此外,支持向量聚类并不能保证所有数据点的聚类分配,离群值仍然无法分类。然后将该方法与K均值聚类和自组织特征图(SOFM)方法进行比较,发现基于均值和标准误差指数评估的方法表现更好。尽管在作者的样本案例研究中似乎是一种很有前途的方法,但支持向量聚类算法的聚类数参数化及其对异常值的处理并不能使其适用于市场细分问题。基于购买的市场细分方法的作者应用遗传算法对一组客户的交易性购买数据进行聚类,最终目标是训练一个RFM(Recent,Frequency,Monetary Value)模型。使用遗传算法和成本函数来评估信息的真实性,根据客户的购买数据将客户细分为独特的群体。遗传算法的迭代和随机行为确保了结果聚类分配非常稳定,同时在质心初始化方面也不可变。然而,与前面讨论的支持向量聚类方法一样,这种方法受到聚类计数所需的先验规定以及本质上不具有层次性的阻碍。摩根士丹利资本国际公司(MSCI)-摩根士丹利资本国际公司(Morgan Stanley Capital International),2019Hicks,2011Hrazdil等人,2013Wang等人,2018Huang等人,2007Tsai等人,2004SIT FE 800-特殊研究问题7第3章。文献回顾了解了部门Weerawarana、Zhu、He3.3经济部门与基本面数据之间的关系转型经济中资本结构的决定因素提供了对传统最优资本结构教条与转型经济中公司的现实行为的对比的深入定量分析。

22
nandehutu2022 在职认证  发表于 2022-6-25 06:08:55
研究结果表明,虽然一些传统资本结构理论确实适用于转型经济体,但这些传统理论并不能很好地描述大部分资本结构。相反,作者发现,法律制度、股东权力和人口统计以及公司治理方面的差异为资本结构中观察到的差异提供了一个更好的解释框架。中国上市公司资本结构的决定因素分析了中国公司的资本结构,为美国大型发达经济体提供了更好的代表。作者给出的结果与Delcoure的结果相呼应,认为传统理论不能完全描述中国资本结构的分布。此外,作者还提到了影响资本结构的无数其他因素,类似于德尔库尔。这项工作证实,在转型经济体中观察到的资本结构决定因素的动态可移植到更大、更成熟的经济体中。如上文第3.1节所述,现有的分区启发式算法没有表现出很强的时间稳定性。因此,为了避免在设计新的部门划分启发式方案时与不断变化的市场动态发生冲突,我们假设将市场视为不断过渡的市场是有益的。在这种假设下,Delcoure的发现可以应用于我们的预期启发式,从而产生巨大影响。

23
kedemingshi 在职认证  发表于 2022-6-25 06:08:58
作者的发现表明,我们应关注上述因素的决定因素,以最好地捕捉特定公司的特质动态,而不是关注传统的绩效指标,如资产回报率。根据莫迪利亚尼-米勒理论的假设(无税收、破产成本、代理成本和不对称信息),资本结构无关原则规定,在一个有效的市场中,企业的价值不受该企业融资方式的影响。然而,考虑到现实世界中违反了理论宇宙的所有条件,这导致了人们深刻认识到资本结构是确定价值的唯一最重要的决定因素。根据企业价值源自公司内在经济运营领域的观察,资本结构无关原则——与违反莫迪利亚尼-米勒宇宙假设相结合——意味着资本结构受公司真实经济领域特质的支配。鉴于违反Modigliani-Miller理论宇宙条件的确切量化程度本质上特定于给定的经济领域,我们假设,反映资本结构的公司基本面,尤其是那些符合莫迪利安尼-米勒宇宙条件的特定组成部分,将是公司真正潜在经济领域的最佳描述符。Delcoure 2007Chen 2004Modigliani et al.1958 Vernimmen et al.20058 FE 800-特殊研究问题SITWeerawarana,Zhu,他学习了第4章。模型数据第4章模型数据在本节中,我们描述了项目中使用的数据源,并确定了在我们的部门分类启发式中使用的特定特征。

24
大多数88 在职认证  发表于 2022-6-25 06:09:01
此外,我们还描述了我们将用于评估最终结果的基准行业分类范围。本节开始讨论我们的第一个研究目标RG-1。RG-1利用数据驱动算法得出真正客观的分类启发式。4.1基本面数据概述在上一节(见第8页)中,我们探讨了违反莫迪利安尼-米勒理论普遍条件对资本结构无关性原则的影响,以及对转型经济体和成熟经济体资本结构决定因素动态的观察。这一分析的逻辑推论是,反映资本结构的基本面数据——尤其是那些符合莫迪利亚尼-米勒宇宙条件的数据——是公司经济领域的最佳描述。基于这一结论,我们将表10-K中的收益数据确定为我们的模型输入数据。从2010年到2017年,标准普尔500指数中的362家公司每年都通过沃顿研究数据服务公司(theWharton Research data Services Cloud,以下简称WRDS)从Compustat数据库中检索到这些数据。4.2特征选择鉴于收益报告的可变性,我们从年度资产负债表、损益表和现金流量表中确定了15个特定特征,这些特征保证了数据集中所有公司都存在。除了在所有公司中都很常见外,它们还因与公司资本结构相关或直接相关而被孤立。总资产应收款现金及等价物存货销售成本营业现金流营业收入折旧、折耗及摊销利息支出营业外收入/支出所得税广告费用研发费用表4.1:各公司从表10-K中选择的模型输入数据特征。美国

25
大多数88 在职认证  发表于 2022-6-25 06:09:04
证券交易委员会2019标准普尔全球市场情报2019华顿商学院1993年IT FE 800-特殊研究问题9第4章。模型数据学习部门Weerawarana,Zhu,He图4.1:输入数据公司(n=362)在基准领域各部门的分布(即GICS标准普尔500分类)。4.3基准行业范围为了评估我们最终学到的行业范围并全面解决RG-3问题,我们确定GICS标准普尔500分类(以下简称基准行业)为我们的基准。不幸的是,我们的基准universeis的完整部门分配数据集是专有的。因此,我们无法整理历史部门分配,仅限于输入数据空间中公司的最新部门分配。由于我们的数据在时间上的一致性存在差异,我们决定只利用最新的可用数据进行我们所学的部门宇宙演化。也就是说,除非另有说明,否则我们仅在本项目的其余部分使用2017年10-K表格数据所暗示的学习领域作业。图4.1显示了我们输入数据中362家公司在基准领域各个部门的分布情况。MSCI-摩根士丹利资本国际201910 FE 800-特殊研究问题Sitwearawarana,Zhu,他学习了部门第5章。学习方法调查第5章学习方法调查在本章中,我们概述了理想候选分类算法的一组理想特征和期望行为,并对潜在的无监督学习方法进行了调查。

26
mingdashike22 在职认证  发表于 2022-6-25 06:09:07
然后,我们根据我们的选择标准对这些调查方法进行评估,并确定最佳方法。5.1评估标准尽管不完全客观,但现有的分类启发式方法有一系列令人满意的行为,我们希望用我们的候选聚类算法复制这些行为。此外,我们希望通过使用高度非参数的学习方法,在保持新启发式的客观性和稳定性的同时,复制这种行为。特别是,我们对保持currentschemes的嵌套层次聚类行为非常感兴趣。也就是说,能够将市场划分为多个部门,然后将这些部门划分为多个子部门。此外,最好能够在更大的市场背景下确定这些嵌套的子部门,而不是对特定部门进行独立分析。此外,我们还希望在保持稳定性的同时改变算法的结果扇区数。也就是说,如果我们从最初产生四个部门的启发式中请求两个部门,那么这两个部门将是最初四个部门的某种组合,而不是一个全新的细分文件。这种行为反映了现实世界,在现实世界中,经济部门往往表现出嵌套,而不是独立的集群。最后,根据RG-1(见第2.2节),我们非常积极地设计一种启发式方法,该方法要么是完全非参数化的,要么是用高度客观的定量推导标准进行参数化的。

27
大多数88 在职认证  发表于 2022-6-25 06:09:10
除了保持结果的数学客观性外,非参数方法将确保在最终学习的领域中不会引入任何个人偏见,无论是显性的还是隐性的。5.2候选学习方法根据上述要求,我们评估了三大类聚类算法。我们从上述需求的角度对每种集群技术进行了经验评估。5.2.1 K-均值聚类K-均值聚类是一种将n维数据划分为一组K个不同聚类的方法。基本算法如下:劳埃德1982SIT FE 800-特殊研究问题11第5章。学习方法调查学习领域Weerawarana,Zhu,HeLet C,C,CK=K个可能的聚类集W(CK)=聚类中观测值的成对差异的度量xij=坐标为x的聚类i中的jthfeature=> W(Ck)=Ck | Xi,i∈CkpXj=1(xij- xij)=> K-均值聚类=最小值,。。。,CkKXk=1W(Ck)=最小值,。。。,CkKXk=1 | Ck | Xi,i∈CkpXj=1(xij- xij)注意,在上述算法中,K-means聚类过程在初始化时需要两组参数。首先,它需要目标簇的数目K,以及簇质心的一组随机初始化| CkPi∈Ckxij。根据上文详述的约束条件,这种高水平的参数化,再加上K的不同值之间的分配明显缺乏一致性,使得这一系列算法不太适合部门分类任务。5.2.2支持向量分类支持向量分类基于在高维特征空间中查找一组超平面的概念,该超平面可以将一组数据最佳地划分为多个类。数据被映射到更高维空间,以确保在簇的划分中正交超平面。

28
何人来此 在职认证  发表于 2022-6-25 06:09:14
支持向量分类目标函数概述如下:极小化、a、αR-Xiαi(R- ||xi- a | |)受αi影响≥ 0(R- ||xi- a | |)=0 i(KKT条件),如文献所示,通过检查目标函数,很明显,支持向量分类在用于优化的核上参数化,以及在模型训练期间使用的特定损失函数。此外,该模型还优化到固定数量的部门,而不是动态数量。因此,根据评估标准,这种方法也不合适。5.2.3层次聚类分析层次聚类是一种贪婪算法,它寻求按照聚集或分裂方法构建聚类。凝聚聚类是自下而上的,每个观察值都从自己的聚类开始,而分裂聚类是自上而下的,所有观察值都从一个聚类开始,并在每个级别递归执行拆分。该算法输出的聚类由两个模型设置决定;距离度量(即计算观测值之间成对距离的算法)和链接方法,该方法规定了控制整组观测值不相似性的算法,作为这些集合中观测值成对距离的函数。这种方法的显著优点是完全具有相加的层次结构,组按照评估标准进行嵌套。此外,该方法是完全非参数的,唯一的例外是选择链接和距离度量。此外,随着扇区数的变化,它非常稳定。

29
大多数88 在职认证  发表于 2022-6-25 06:09:17
这是算法greedynature的直接结果,因为它不会在每次提取新的聚类时重新计算层次,而只是更改同一层次的提取级别。根据本章详述的对不同学习方法家族的评估,我们选择分层聚类作为我们学习领域分类启发式的基础。Ben Hur et al.2001 Ward et al.196312 FE 800-特殊研究问题SITWeerawarana,Zhu,他学习了第6章。层次聚类模型第6章层次聚类模型在前一章中,我们评估了主要的学习方法家族,并确定层次聚类分析(以下简称HCA)算法是最符合项目研究目标的方法。在这里,我们概述了我们将HCA应用于模型输入数据的具体方法,并构建了待评估候选宇宙的搜索空间,完全解决了RG-1.6.1 HCA概述。如第5.2.3节所述,层次聚类是一种贪婪的学习算法,旨在构建一个聚类层次。该算法的贪婪性质导致任何给定模型的计算复杂度极高,但其解非常稳定。此外,由于算法的持久层次性,提取变量分类是一个O(1)复杂度操作。我们的启发式算法的主要要求之一是能够创建具有不同扇区数的扇区宇宙。因此,我们选择使用聚集方法进行聚类。

30
大多数88 在职认证  发表于 2022-6-25 06:09:20
也就是说,我们使用自下而上的HCA模型,每个公司从自己的部门开始,通过合并现有的集群对,在树的每个后续步骤中衍生出更大的集群。任何给定的HCA算法树都由两个不同的设置参数化;距离度量和链接方法。为了了解HCA驱动的分类启发式可能产生的潜在候选宇宙,我们依次分析了这些模型设置:6.1.1距离度量距离度量是对观测值之间距离的度量。此设置主要影响簇的形状。由于我们的模型输入数据完全以货币单位(即美元)为单位,因此我们不打算改变美元价值计量所反映的现有财富指标。因此,我们选择使用`(即欧几里德)距离度量进行启发式。设p,q=笛卡尔坐标p=(p,…,pn)和q=(q,…,qn),其中{p,q}∈ Rn×2Let dist(p,q)=`(即欧几里德)点p和q之间的距离=> dist(p,q)=dist(q,p)=p(p- q) +(p- q) +··+(pn- qn)=VuTunxi=1(pi- qi)SIT FE 800-特殊研究问题13第6章。层次聚类模型学习部门Weerawarana、Zhu、He6.1.2链接方法控制HCA算法行为的第二个设置是选择链接方法。这种联系是对观测集之间距离的测量,是观测值之间成对距离的函数。我们在HCA模型中评估了四种主要的链接方法选择:设A、B、C、X、Y=集合(即。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-6 10:31