楼主: nandehutu2022
1592 37

[量化金融] 统计行业分类 [推广有奖]

  • 0关注
  • 5粉丝

会员

学术权威

74%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
69.2521
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
24246 点
帖子
4004
精华
0
在线时间
1 小时
注册时间
2022-2-24
最后登录
2022-4-20

楼主
nandehutu2022 在职认证  发表于 2022-5-25 10:36:32 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Statistical Industry Classification》
---
作者:
Zura Kakushadze and Willie Yu
---
最新提交年份:
2018
---
英文摘要:
  We give complete algorithms and source code for constructing (multilevel) statistical industry classifications, including methods for fixing the number of clusters at each level (and the number of levels). Under the hood there are clustering algorithms (e.g., k-means). However, what should we cluster? Correlations? Returns? The answer turns out to be neither and our backtests suggest that these details make a sizable difference. We also give an algorithm and source code for building \"hybrid\" industry classifications by improving off-the-shelf \"fundamental\" industry classifications by applying our statistical industry classification methods to them. The presentation is intended to be pedagogical and geared toward practical applications in quantitative trading.
---
中文摘要:
我们给出了构建(多级)统计行业分类的完整算法和源代码,包括确定每个级别的集群数量(以及级别数量)的方法。在引擎盖下有聚类算法(例如,k-means)。然而,我们应该将什么进行集群?相关性?退货?答案是两者都不是,我们的回溯测试表明,这些细节产生了很大的不同。通过将我们的统计行业分类方法应用于现成的“基本”行业分类,我们还提供了构建“混合”行业分类的算法和源代码。本演示文稿旨在进行教学,并面向定量交易的实际应用。
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:Portfolio Management        项目组合管理
分类描述:Security selection and optimization, capital allocation, investment strategies and performance measurement
证券选择与优化、资本配置、投资策略与绩效评价
--
一级分类:Quantitative Finance        数量金融学
二级分类:Statistical Finance        统计金融
分类描述:Statistical, econometric and econophysics analyses with applications to financial markets and economic data
统计、计量经济学和经济物理学分析及其在金融市场和经济数据中的应用
--

---
PDF下载:
--> Statistical_Industry_Classification.pdf (412.39 KB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:行业分类 计行业 Quantitative Applications correlations

沙发
何人来此 在职认证  发表于 2022-5-25 10:36:38
统计行业分类Zura Kakushadze§+1 and Willie Yu]2§QuantigicrSolutions LLC1127 High Ridge Road#135,Stamford,CT 06905+第比利斯自由大学商学院和物理学院240,David Agmashenebeli Alley,第比利斯,0159,佐治亚州]计算生物学中心,杜克国立医学院8 College Road,新加坡169857(2016年6月29日)摘要我们提供了构建(多级)统计行业分类的完整算法和源代码,包括在每个级别上划分集群数量(以及级别数量)的方法。在引擎盖下有聚类算法(例如,k-means)。然而,我们应该将什么进行集群?相关性?退货?答案是两者都不是,我们的背景测试表明,这些细节造成了很大的差异。我们还提供了一种算法和源代码,用于通过将我们的统计行业分类方法应用于现有的“基本”行业分类,从而改进“混合”行业分类。本演示文稿旨在进行教学,面向定量交易的实际应用。Zura Kakushadze博士是QuantigicrSolutions LLC的总裁,也是第比利斯自由大学的全职教授。电子邮件:zura@quantigic.comWillie余博士是杜克国立大学医学院的研究员。电子邮件:willie。yu@dukenus.edu.sgDISCLAIMER:通讯作者使用此地址的目的仅是按照出版物惯例表明其专业职责。特别是,本文件的内容并非投资、法律、税务或任何其他此类建议,也不代表QuantigicSolutions LLC(网站www.quantigic)的观点。com或其任何附属公司。1简介和总结行业分类,如GIC、BIC、ICB、NAICS、SIC等广泛用于定量交易。

藤椅
大多数88 在职认证  发表于 2022-5-25 10:36:41
他们根据某种相似性标准将股票分为篮子,例如行业。一般而言,人们预计(或希望)这些篮子中的股票平均应具有较高的相关性。这是有价值的信息,可以以各种方式使用。E、 例如,我们可以建立一个简单的均值回归统计套利策略,其中我们假设给定行业中的股票一起移动,在所述行业中横向降低股票回报,做空具有正剩余回报的股票,做多具有负剩余回报的股票,一些权重通常不均匀。行业也可用作多因素风险模型中的风险因素。上述“基本”行业分类基于基于基本/经济数据将公司分组在一起(见第2节),预计这将在更长的持有期限内增加价值。与量化交易策略相关的较短持有区间如何?除了大量市场参与者使用此类行业分类来套利错误定价之外,我们如何知道他们在短期内与纯粹的统计方法具有竞争力?现代定量交易在很大程度上依赖于数据挖掘、机器学习、聚类算法等统计方法,这已不是什么秘密。然而,毕竟,定量交易是一个秘密领域,关于如何在实践中进行的资源充其量也很匮乏。这些说明的目的是讨论一个系统的量化框架,旨在以“教学”的方式,仅基于股票收益率,无其他无关数据,构建我们所称的统计行业分类。在引擎盖下,我们有聚类算法。然而,选择一种聚类算法是不够的,我们会发现有些算法比其他算法更有效。

板凳
大多数88 在职认证  发表于 2022-5-25 10:36:46
E、 g.我们应该把什么聚在一起?相关性?退货?答案是两者都不是,而是源于定量交易学费,这在机器学习书籍中是不可能找到的。我们讨论了构建统计行业分类的各种细微差别,正是这些细微差别造成了巨大的差异。定量交易是关于细节的。考虑统计行业分类的一个动机是,除了证明它们不同于“基本”行业分类,并且在定量交易中广泛使用之外,还有一个原因是“基本”行业分类不可用(或质量不高)。这可能发生在新兴或较小的市场,甚至在美国。如果基础交易组合相对较小,且“基本”行业分类产生的碎片太多,以下我们将这些称为“基本”行业分类(见下文)。更一般地说,一种方法是采用加权回归,而不是贬低,并且有多种方法来确定上述权重。关于教学讨论,请参见,例如(Kakushadze,2015a)。有关多因素风险模型的讨论和文献,请参见,例如(Grinold和Kahn,2000)。这一非常相关的原因不应低估,尽管它具有“行为”性质。因此,我们不知道有另一篇文章在短期内讨论了本文的内容。分组。然而,也许一个同样重要(如果不是更重要的话)的动机是将这些方法应用于股票以外的“工具”的回报,例如量化交易alphas,对于这些工具,没有“基本”行业分类的模拟(Kakushadze和Yu,2017)。下面我们将记住这一点。在第2节中,我们简要回顾了(二元)“基本”行业分类的一些一般性,以建立进一步讨论的框架。

报纸
可人4 在职认证  发表于 2022-5-25 10:36:49
接下来,在第3节中,我们将讨论集群问题。我们讨论了为什么聚类相关性是次优的,以及为什么直接聚类返回是次优的。我们认为,在聚类之前,应该对返回进行规范化,并为这种规范化给出明确的规定。然后,我们讨论了如何构建单层次和多层次(层次-例如,BICS有三个层次:部门、行业和子行业)统计行业分类以及一些调整(例如,在粒度较低的层次上,横截面降低回报)。许多聚类算法(如k-means)都是不确定的。这可能会令人讨厌。我们给出了一个从多个样本中聚合分类的明确规定,这实际上提高了稳定性和性能。我们讨论了“自下而上”(最细粒度到最小粒度级别)、“自上而下”(最细粒度到最大粒度级别)和“松弛”(层次聚集)聚类算法,以及它们的“优”和“缺点”。在第4节中,我们利用(Kakushadze,2015b)中所述的日内Alpha和回溯测试程序,通过使用构建异质风险模型的多层统计行业分类,讨论了第3节和后续章节中各种算法的详细回溯测试。回溯测试明确地表明,回归时间序列中存在着超越简单主成分分析所捕获的结构,聚类增加了价值。然而,由于任何纯统计算法固有的样本外不稳定性,集群在性能方面仍无法与“基本”行业分类相竞争。在第5节中,我们更进一步,给出了使用(Kakushadze和Yu,2016b)中讨论的方法,包括(Roy和Vetterli,2007)中定义的eRank(有效等级)在每个级别上确定集群数量的处方。

地板
nandehutu2022 在职认证  发表于 2022-5-25 10:36:53
我们还将讨论一种确定等级数量的启发式方法,尽管我们在经验上观察到等级数量不如集群数量具有影响力,至少在我们的回溯测试中是如此。在第6节中,我们进一步阐述了这一点。在第6节中,我们给出了一种算法,通过在此讨论的统计行业分类算法,在最粒度级别上进一步聚类大型子行业(使用BICS命名法),从而改进“基本”行业分类,从而提高粒度和性能。我们在第7节简要总结并概述一些想法。我们在附录A(多级“自下而上”聚类、动态聚类数)、附录B(多级“自上而下”聚类)和附录C(“松弛”聚类)中给出了我们算法的R源代码。附录D包含法律术语。优化alpha投资组合中的权重有其自身的细微差别(Kakushadze和Yu,2017);然而,我们在这里讨论的方法很容易移植到alpha返回,因为它们是纯统计的。在这里,我们根据股票回报率对其进行了回溯测试(见下文),因为历史数据已经可用。Alpha返回时间序列是高度专有的,因此发布回测是不可行的。2行业分类行业分类基于相似性标准:股票在“集团”或“集群”中的成员资格,如部门、行业、子行业等——不同的行业分类方案的名称不同。通常使用的行业分类,如GIC、BIC、ICB、NAICS、SIC等,基于基本/经济数据(如公司的产品和服务,以及更广泛的收入来源、供应商、竞争对手、合作伙伴等)。

7
nandehutu2022 在职认证  发表于 2022-5-25 10:36:57
此类行业分类基本上独立于定价数据,如果构建良好,往往在样本之外相当稳定,因为公司很少跳转行业。行业分类可以由单个级别组成:N个标记为I=1,N分为K个“组”——我们一般称之为“簇”——标记为A=1,K、 我们有一个映射G:{1,…,N}7→ {1,…,K}在簇和“簇”之间。更一般地说,我们可以有一个多层次的层次结构。我们可以通过股票示意性地表示这一点→ 一级“集群”→二级“集群”→ ··· → P级“集群”。让我们用u=1,…,标记这些P水平,P1级是粒度最大的一级,N个股票被分组为K个“集群”。1级“簇”依次分组为KLevel-2“簇”,其中K<K,依此类推,P级颗粒最小。因此,将BICSA作为一个示例,它有一个三级层次结构:股票→ 子行业→ 行业→ 部门。(此处,“子行业”是粒度最大的级别,而“部门”是粒度最小的级别。)因此,我们有:N个股票,标记为i=1,NK标记为A=1,KF标记为a=1的行业,F和用α=1标记的L扇区,五十、 设G为股票和子行业之间的地图,S为子行业和行业之间的地图,W为行业和部门之间的地图:G:{1,…,N}7→ {1,…,K}(1)S:{1,…,K}7→ {1,…,F}(2)W:{1,…,F}7→ {1。

8
可人4 在职认证  发表于 2022-5-25 10:37:00
(3)这种“二元”行业分类(通常为P级)的美妙之处在于,“集群”(在BIC、子行业、行业和部门的情况下)可用于识别股票收益率样本相关矩阵ψij中的块(子矩阵)。E、 对于子行业,二元矩阵δg(i)定义了此类块。然而,不同行业分类的绩效存在差异。在这里,我们假设每个股票都属于一个且仅属于一个“集群”。一般来说,这一假设可以放宽,从而允许属于多个子行业、行业、部门等的“企业集团”。然而,我们在这里不需要这样做。假定此层次结构树中的分支具有相等的长度。一般来说,我们可以有长度不均匀的分支。然而,通过允许单个元素(包括单个股票)“集群”,较短的分支始终可以延伸到最长分支的长度。彭博社行业分类系统。这在构建投资组合优化的风险模型时很有用(Kakushadze,2015b)。3统计聚类如果我们无法获得基于基本数据的行业分类,或者我们希望交易的股票领域无法获得该分类,那该怎么办?我们能否根据定价数据(即直接从股票收益率)建立行业分类?毕竟,从直觉上看,回报的时间序列包含了有关股票相关性的信息。我们能否将其提取出来并转化为行业分类?答案是肯定的,但这很棘手。关键问题是,在样本外,股票之间的相关性通常非常不稳定。基于股票回报率构建行业分类的天真尝试可能会产生绩效不佳的行业分类。

9
能者818 在职认证  发表于 2022-5-25 10:37:04
我们在这里的目标是讨论如何通过建立基于聚类数量(而非收益)的统计行业分类来缓解样本外的不稳定性。但首先让我们讨论集群本身。3.1 K-meansA流行的聚类算法是K-means(Steinhaus,1957),(Lloyd,1957),(Forgy,1965),(MacQueen,1967),(Hartigan,1975),(Hartigan and Wong,1979),(Lloyd,1982)。k-均值背后的基本思想是将N个观测值划分为k个聚类,每个观测值都属于具有最近均值的聚类。每个观测值实际上是一个d向量,所以我们有一个N×d矩阵Xis,i=1,N、 s=1,d、 设K簇,Ca={i | i∈ Ca},a=1,K、 则K表示尝试最小化eg=KXa=1Xi∈CadXs=1(Xis- Yas)(4)其中Yas=纳西族∈CaXis(5)是簇中心(即横截面平均数),na=| Ca |是簇Ca中的元素数。在(4)中,“贴近度”的度量被选择为Rd中点之间的欧氏距离,尽管其他度量是可能的。k-means的一个“缺点”是它不是一个确定性算法。一般来说,g在(4)中存在大量的局部极小值,该算法只保证收敛到局部极小值,而不是全局极小值。作为一种迭代算法,k-means从初始迭代的一组随机或用户定义的中心开始。然而,正如我们将看到的,这个“缺点”实际上增加了价值。商用行业分类,如GIC和ICB,成本不菲。美国证券交易委员会(SEC)免费提供基本的SIC数据,但只能通过公司名称,不能通过股票代码。下载这些数据并将其转换为现实行业分类需要付出相当大的努力。

10
何人来此 在职认证  发表于 2022-5-25 10:37:07
或者,可以从商业供应商处购买。在本文中,“横截面”指的是“超过指数i”。3.2什么是聚类?那么,我们应该聚集什么来构建统计行业分类?一、 例如,我们应该选择什么作为我们的矩阵Xisin(4)?以某种方式使用配对股票相关性是很诱人的。然而,基于股票收益率时间序列计算的样本相关矩阵ψij在样本外非常不稳定。那个么,若WeiIdentity XIS和基础股票收益的时间序列相一致呢?设Risbe为股票收益率,其中s=1,d现在被解释为标记时间序列中的观察值(例如,交易日)。此外,对于不确定性,让s=1对应于最近的观察结果。现在,我们可以通过对Xis=Ris应用k均值来建立统计行业分类。从直觉上看,这是有道理的:我们是根据收益率与所属集群的中心(即在集群横截面平均值内)的接近程度来对股票进行聚类的。然而,这是一个次优的选择。事实上,这可以通过观察到,在股票回报的情况下,先验地,没有理由用等权重计算中心Yasin(5)。我们可以把集群看作是股票投资组合,而Yasas则是这些投资组合的回报。因此,基于财务直觉,我们可能希望用非均匀权重构建这些投资组合。此外,进一步反思后,很明显,聚类回报的意义不如一开始可能出现的意义。事实上,股票波动率是高度可变的,其横截面分布甚至不是准正态分布,而是高度偏斜的,在高端有一个长尾巴——这大致是对数正态分布。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-7 14:07