楼主: 何人来此
288 19

[量化金融] 开源基础行业分类 [推广有奖]

  • 0关注
  • 4粉丝

会员

学术权威

78%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
62.7954
学术水平
1 点
热心指数
6 点
信用等级
0 点
经验
24608 点
帖子
4133
精华
0
在线时间
0 小时
注册时间
2022-2-24
最后登录
2022-4-15

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Open Source Fundamental Industry Classification》
---
作者:
Zura Kakushadze and Willie Yu
---
最新提交年份:
2017
---
英文摘要:
  We provide complete source code for building a fundamental industry classification based on publically available and freely downloadable data. We compare various fundamental industry classifications by running a horserace of short-horizon trading signals (alphas) utilizing open source heterotic risk models (https://ssrn.com/abstract=2600798) built using such industry classifications. Our source code includes various stand-alone and portable modules, e.g., for downloading/parsing web data, etc.
---
中文摘要:
我们提供了完整的源代码,用于基于公开可用和免费下载的数据构建基本的行业分类。我们通过利用开源异质风险模型对短期交易信号(Alpha)进行赛马,比较各种基本行业分类(https://ssrn.com/abstract=2600798)使用此类行业分类构建。我们的源代码包括各种独立和便携式模块,例如用于下载/解析web数据等。
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:General Finance        一般财务
分类描述:Development of general quantitative methodologies with applications in finance
通用定量方法的发展及其在金融中的应用
--
一级分类:Quantitative Finance        数量金融学
二级分类:Computational Finance        计算金融学
分类描述:Computational methods, including Monte Carlo, PDE, lattice and other numerical methods with applications to financial modeling
计算方法,包括蒙特卡罗,偏微分方程,格子和其他数值方法,并应用于金融建模
--

---
PDF下载:
--> Open_Source_Fundamental_Industry_Classification.pdf (376.82 KB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:行业分类 Quantitative Applications Fundamental QUANTITATIV

沙发
mingdashike22 在职认证  发表于 2022-5-31 22:53:58 |只看作者 |坛友微信交流群
Zura Kakushadze§+1 and Willie YuP2§Quantigic(R)Solutions LLC,1127 High Ridge Road,135,Stamford,CT 06905+第比利斯自由大学商学院和物理学院240,David Agmashenebeli Alley,第比利斯,0159,乔治亚州计算生物学中心,Duke NUS Medical School 8 College Road,Singapore 169857 2017年4月16日;修订日期:2017年6月13日AbstractWe提供了完整的源代码,用于基于公开可用和免费下载的数据构建基本行业分类。我们通过利用开源异质风险模型对短期交易信号(Alpha)进行赛马,比较各种基本行业分类(https://ssrn.com/abstract=2600798)使用此类行业分类构建。我们的源代码包括各种独立和便携式模块,例如用于下载/解析web数据等。关键词:行业分类;基本的开源;源代码;股票;等级制度GICS;BICS;ICB;NAICS;碳化硅;TRBC;定量交易;交易信号;阿尔法风险模型;均值回归;优化;短期内;回溯测试;模拟downloadZura Kakushadze博士是Quantigic(R)Solutions LLC的总裁和联合创始人,也是第比利斯自由大学商学院和物理学院的全职教授。电子邮件:zura@quantigic.comWillie余博士是杜克国立大学医学院的研究员。电子邮件:willie。yu@duke-努斯。埃杜。sgDISCLAIMER:通讯作者使用此地址的目的仅限于按照出版物惯例表明其专业从属关系。特别是,本文件的内容不作为投资、法律、税务或任何其他此类建议,也不代表Quantigic(R)Solutions LLC网站www.Quantigic的观点。com或其任何其他附属公司。1.

使用道具

藤椅
何人来此 在职认证  发表于 2022-5-31 22:54:00 |只看作者 |坛友微信交流群
简介基本行业分类,如GICS、BICS、ICB、NAICS、SIC、TRBC等,广泛应用于各种领域,包括经济应用、一般人口和医疗保健相关研究,以及(定量)金融/交易(包括风险建模)。行业分类(即分类学)根据某种相似性标准或标准将公司分为多个篮子(例如行业),这些标准因分类而异。此类基本行业分类通常基于相关的基本/经济数据,如公司的产品和服务、收入来源、供应商、竞争对手、合作伙伴等。这些基本行业分类基本上独立于定价数据,如果构建良好,往往在样本外相当稳定,因为公司很少跳转行业。许多行业分类是商业开发的,获取此类数据与非平凡成本相关。即使是政府制定的分类,如NAICS或VEN SIC(见下文),也并非完全免费。这主要有两个原因。首先,简单地指定一个层次结构(例如,将部门、行业和子行业列为INBIC的完整列表)只是冰山一角;许多(合格的)工时需要分配给实际公司该结构中的术语(即,使用BICS术语,每个公司属于哪个部门、行业和子行业)。

使用道具

板凳
kedemingshi 在职认证  发表于 2022-5-31 22:54:04 |只看作者 |坛友微信交流群
其次,结果数据不一定(由政府机构)作为简单的一键/单文件下载提供。GICS=全球行业分类标准(按MSCI和标准普尔);BICS=彭博行业分类系统;ICB=行业分类基准(伦敦证券交易所FTSE);NAICS=北美行业分类系统(由墨西哥国家统计局、加拿大统计局(又称加拿大统计局)和美国管理和预算办公室制定);SIC=标准行业分类(由美国政府机构);TRBC=汤森路透商业分类。有关经济学、金融经济学和会计相关文献,请参见,例如,[克拉克,1989年],[科特曼和佩拉奇,1992年],[德拉维尼亚和波莱,2007年],[埃万杰利斯塔,2000年],[吉伯特等人,1971年],[赫斯顿和鲁文霍斯特,1994年],[希克斯,2011年],[希尔,1999年],[赫拉兹迪勒和斯科特,2013年],[赫拉兹迪勒和张,2012年],[基勒和菲利普斯,2009年],[科特,2001年],[克里希南和出版社,2002年],【Laestadius,2005】【Ojala,2005】【Pavitt,1984】【Peneder,2003】【Perry等人,1985】【Pol等人,2002】【Schr"oder&Yim,2012】【Scislaw,2015】。有关最近的审查,请参见,例如,【Phillips&Ormsby,2016年】。

使用道具

报纸
可人4 在职认证  发表于 2022-5-31 22:54:07 |只看作者 |坛友微信交流群
有关其他应用和更广泛的相关文献,请参见,例如,【Arbuckle,1997】【Boettcher,1999】【Bowker&Star,2000】【Guenther&Rosman,1994】【Katzen,1995】【Mross&McGuigan,2016】【Murphy,1998】【O\'Connor,2000】【Quint,1996】【Sabroski,2000】【Walker&Murphy,2001】。参见,例如,[\'t Mannetje&Kromhout,2003年]及其参考文献。有关文献,请参见,例如,[阿尔福德,1992年],[阿斯内斯等人,2014年],[阿斯内斯和史蒂文斯,1995年],[博吉拉等人,2003年],[卡哈特,1997年],[卡瓦利亚等人,2000年],[陈等人,2007年],[周等人,2012年],[钟等人,2014年],[Cizeau等人,2001年],[埃利奥特等人,2005年],[法玛和弗伦奇,1993年,1997年],[洪等人,2007年],[霍雷尔和梅拉兹,2009年],[卡勒和沃克林,1996年],[卡库沙泽,2015a,2016年],[金,1966年],[兰波尼,2014年],[纳迪格和克里格,2011年],[维莫肯,2011年],[杨等人,2006年]。有关定量金融中风险建模的应用,请参见,例如,【Grinold&Kahn,2000】、【Kakushadze,2015b】、【Kakushadze&Yu,2016a】。有关统计/数据挖掘相关方法,请参见,例如,[Baoit等人,2008年],[Hunink等人,2010年],[Kakushadze&Yu,2016b],[Mantegna,1999年],[Michichè等人,2005年],[Yaros&Imielinski,2015年],[Lee等人,2015年]。在本文中,我们填补了这一空白。我们提供开源代码,可直接从美国证券交易委员会(SEC)免费下载SIC数据,无需任何API、帐户、登录名、密码等。此外,由于该数据是由美国政府提供的,因此公众的下载不受任何限制。SEC提供的数据包括公司名称和SIC代码。SIC代码是对应于SIC层次结构(划分)的4位数字标识符→ MajorGroup公司→ 行业组→ 行业)。正如我们下面所讨论的,有一种高效快速的方法可以下载所有公司的SIC代码。

使用道具

地板
kedemingshi 在职认证  发表于 2022-5-31 22:54:10 |只看作者 |坛友微信交流群
然而,SEC不维护accurateticker数据。因此,从SEC网站下载的数据必须与股票行情匹配。最后,我们的代码将ticker与SIC代码匹配。基础SECdata中存在各种细微差别,例如SEC使用的SIC代码的特性,我们也会详细讨论这些特性。SIC并不是最好的分类。而且,与明显的误解相反,这并不是因为SIC不够“粒度”(或详细)。从表面上看,它比BICS更细粒度。然而,如上所述,层级结构本身只是冰山一角。可以说,更重要的是将公司分配到这样的层级制中。就SIC而言,显然该任务不一定总是遵循上述基于公司产品和服务、收入来源、供应商、竞争对手、合作伙伴等的标准。相反,似乎至少在某些情况下,此类任务是基于更肤浅的理由(例如,这可能是公司自己的评估等)。然而,SIC并不是一场“灾难”。它被学术界广泛使用(例如,见[Fama and French,1997]),定量交易员(通常更喜欢GIC和BIC等更稳健的行业分类)也可能在较小程度上使用,但仍在使用。对于(年轻但并非唯一)希望测试的研究人员来说,例如,一些涉及行业分类的交易想法,但不希望承诺昂贵的商业数据订阅,SIC可以是一个很好的zerothorder近似值,只要它是免费且容易获得的。我们的代码提供了这样的解决方案。我们量化了不同行业分类之间的比较,利用它们通过(开源)异质风险模型构建短期均值回归交易信号(Alpha)[Kakushadze,2015b]。

使用道具

7
可人4 在职认证  发表于 2022-5-31 22:54:13 |只看作者 |坛友微信交流群
我们发现,GIC的表现略优于BIC,SIC的表现更差,包括仅限于所谓的Fama French【1997】行业分类。其余部分组织如下。第2节讨论数据(下载)。第3节讨论了回溯测试。第4节简要总结。数据和源代码见附录。有一种方法可以通过证券交易委员会网站上的股票代码搜索公司。然而,许多股票行情缺失。我们讨论如何寻找所有上市和场外交易(OTC)美国股票。SIC数据可通过各种数据提供商获得;然而,大多数都不是免费的,也不是所有人都可以使用它们。2、数据(下载)2.1。SIC层次结构SIC结构有4个层次:划分→ 主要群体→ 行业组→ 工业此结构可从网站下载https://www.osha.gov/pls/imis/sic_manual.htmlof美国劳工部职业安全与健康管理局(OSHA)使用R职能sec。osha(),该函数输出一个以tab分隔的文件SIC。桌子txt,其中包含附录A中给出的SIC层次结构。更准确地说,在附录A中,为了便于阅读,数据用“>”分隔。此外,附录A包含SIC中没有的行(粗体斜体)。桌子txt和涉及SEC数据中存在的其他SIC代码,我们将在下面详细讨论。10个SIC分区由字符A到J标记。主要分组由2位数字代码XY标记,其中X和Y都可以取0到9的值。可以方便地使用4位代码XY00标记主要组。行业组由3位数字代码XYZ标记。与X和Y不同,Z只能取1到9之间的值。同样,通过4位代码XYZ0可以方便地标记行业组。因此,行业组XYZ0属于主要组XY00。

使用道具

8
kedemingshi 在职认证  发表于 2022-5-31 22:54:16 |只看作者 |坛友微信交流群
最后,行业用4位代码XYZW标记,其中W也取1到9之间的值。行业XYZW属于行业集团XYZ0。这是SIC层次结构。2.2。SEC数据下载SEC网站允许根据公司名称、CIK编号、股票代码等搜索数据(尽管如上所述,股票代码搜索不可靠)。幸运的是,我们还可以通过SIC代码进行搜索。我们可以采取两种方法。我们事先不知道SIC代码会在数据中出现什么。所以,我们可以扫描所有sic代码0100到9999。一旦我们拥有SEC使用的所有SIC代码,我们就可以将下载限制在这些预定义的SIC代码上,以减少下载时间。作为预防措施,我们可能希望定期运行完整扫描,以检查数据中是否出现新的SIC代码。美国证券交易委员会。全部的附录C中的sic()r函数下载数据。对于其第一个参数运行。全部的sic=T它下载所有sic代码0100至9999,而用于运行。全部的sic=F下载是本文附录C中的源代码不是为了“花哨”或速度优化或以任何其他方式编写的。其唯一目的是以简单易懂的方式说明正文中描述和/或讨论的算法。一些重要的法律术语见附录D。据SEC称,https://www.sec.gov/edgar/searchedgar/cik.htm:“中央索引键(CIK)用于美国证券交易委员会的计算机系统,以识别已向美国证券交易委员会提交信息披露的公司和个人。”有一些细微差别。E、 例如,通过扫描所有单ASCII和双ASCII字符以及非ASCII字符,自动按名称搜索可以捕获大多数文件管理者/公司。然而,由于可以扫描的页面数量受到限制,并且数据排序效率低下,这会相对快速地变得复杂。

使用道具

9
nandehutu2022 在职认证  发表于 2022-5-31 22:54:20 |只看作者 |坛友微信交流群
Asíes la vida…仅限于以制表符分隔的输入文件SIC中的SIC代码。代码。txt,其中包含SEC当前使用的SICcodes以及相应的行业名称。附录B包含此文件。这里有一些评论。因此,下载数据(输出文件SIC.Download.txt的第4列–见下文)中的一些实际行业名称(本质上)不同或不好。因此,SIC中的行业名称。代码。txt(附录B)基于https://www.sec.gov/info/edgar/siccodes.htmcombinedwithSIC中的那些。桌子txt(附录A)从OSHA下载(见上文)。美国证券交易委员会。全部的函数的作用是:输出一个以制表符分隔的文件sic。下载txt。第一列是CIK编号,第二列是公司名称,第三列是SIC代码,第四列是SEC数据中显示的行业名称(如上所述,它不一定与fileSIC.Codes.txt中相应的行业名称相同),第五列是位置代码(美国州、加拿大省、外国县等)。页面https://www.sec.gov/edgar/searchedgar/edgarstatecodes.htmcontains大多数位置代码。数据还包含传统位置代码(即E6、L4、I8、I9、E7、U2、L5和LO[“L-O”而不是L0=“L-zero”)。这些旧代码都有描述athttps://www.sec.gov/edgar/searchedgar/edgarstatecodes.htm.数据中还有一个代码是X9。只有两家公司有此代码,这些公司似乎是德国实体。如上所述,theOSHA下载SIC中不包括附录A中的某些条目(粗体斜体)。桌子txt。这些对应于SEC数据中存在的其他SIC代码。附录A通过修改SIC获得。桌子txt和这些附加代码。其中大多数都很好地符合SIC的层次结构。

使用道具

10
kedemingshi 在职认证  发表于 2022-5-31 22:54:23 |只看作者 |坛友微信交流群
几个潜在的问题:1)SIC代码=6025,只有一家公司,PNB BANCSHARES INC(CIK=0001230585);和2)SIC代码=9995。三个SIC代码0888、8880和8888不适用于上述4位数字体系,因此我们将它们附加在附录A的末尾。附录A中所有带有非OSHA SIC代码的行(即粗体斜体)都以我们的描述符“(SEC)”结尾。总体而言,SEC数据合理“干净”,除非手动处理上述故障。如果SIC代码的格式为XYZ0,则行业名称与相应的行业组名称相同。如果SIC代码的格式为XY00,则行业名称与相应的主要集团名称相同。E、 例如,SEC数据下载中一些定义明确的SIC代码被错误地标记为“未知”,等等https://www.sec.gov/info/edgar/siccodes.htm缺少SIC代码0888、1044、6025、6120。E、 g.,对于Microsoft Corporation,我们有以下数据:CIK=0000789019,公司名称=MICROSOFTCORP,SIC代码=7372,行业名称=服务预包装软件,位置代码=WA。也就是说,CYBERMIND AG(CIK=0001135128)和KPMG DEUTSCHE TREUHAND GESELLSCHAFT AG(CIK=0001184474)。这些公司并没有SIC代码,但有些公司有遗留的位置代码。此外,请参见https://www.sec.gov/fast-answers/answers-blankcheckhtm.html对于“空白支票”(SIC代码=6770)。2.3。在实际的定量金融/交易应用程序中,与股票匹配将SIC代码分配给公司名称只是部分有用,因为大多数(例如定价)数据都是由股票报价人标记的。所以,我们需要匹配SIC文件中的数据。下载txt发送到tickers。这是在R functionsec中完成的。sic()在附录C中。它的唯一参数是incl.otc,这是函数sec的第二个参数。全部的sic()(见上文)。对于incl.otc=F仅在美国上市。

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-11-8 05:19