楼主: nandehutu2022
1288 22

[量化金融] 使用概念级层次结构构建业务分类法 [推广有奖]

  • 0关注
  • 5粉丝

会员

学术权威

74%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
68.4190
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
24246 点
帖子
4004
精华
0
在线时间
1 小时
注册时间
2022-2-24
最后登录
2022-4-20

楼主
nandehutu2022 在职认证  发表于 2022-6-24 05:35:58 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Business Taxonomy Construction Using Concept-Level Hierarchical
  Clustering》
---
作者:
Haodong Bai and Frank Z. Xing and Erik Cambria and Win-Bin Huang
---
最新提交年份:
2019
---
英文摘要:
  Business taxonomies are indispensable tools for investors to do equity research and make professional decisions. However, to identify the structure of industry sectors in an emerging market is challenging for two reasons. First, existing taxonomies are designed for mature markets, which may not be the appropriate classification for small companies with innovative business models. Second, emerging markets are fast-developing, thus the static business taxonomies cannot promptly reflect the new features. In this article, we propose a new method to construct business taxonomies automatically from the content of corporate annual reports. Extracted concepts are hierarchically clustered using greedy affinity propagation. Our method requires less supervision and is able to discover new terms. Experiments and evaluation on the Chinese National Equities Exchange and Quotations (NEEQ) market show several advantages of the business taxonomy we build. Our results provide an effective tool for understanding and investing in the new growth companies.
---
中文摘要:
商业分类法是投资者进行股票研究和做出专业决策不可或缺的工具。然而,由于两个原因,确定新兴市场的行业部门结构具有挑战性。首先,现有的分类法是为成熟市场设计的,对于具有创新商业模式的小公司来说,这可能不是合适的分类。其次,新兴市场正在快速发展,因此静态业务分类法无法及时反映新特性。在本文中,我们提出了一种从企业年度报告的内容自动构建业务分类的新方法。提取的概念使用贪婪的亲和传播进行分层聚类。我们的方法需要较少的监督,并且能够发现新的术语。在中国全国股票交易所(NEEQ)市场上的实验和评估显示了我们构建的业务分类法的一些优势。我们的研究结果为理解和投资新成长公司提供了有效的工具。
---
分类信息:

一级分类:Computer Science        计算机科学
二级分类:Computation and Language        计算与语言
分类描述:Covers natural language processing. Roughly includes material in ACM Subject Class I.2.7. Note that work on artificial languages (programming languages, logics, formal systems) that does not explicitly address natural-language issues broadly construed (natural-language processing, computational linguistics, speech, text retrieval, etc.) is not appropriate for this area.
涵盖自然语言处理。大致包括ACM科目I.2.7类的材料。请注意,人工语言(编程语言、逻辑学、形式系统)的工作,如果没有明确地解决广义的自然语言问题(自然语言处理、计算语言学、语音、文本检索等),就不适合这个领域。
--
一级分类:Quantitative Finance        数量金融学
二级分类:Portfolio Management        项目组合管理
分类描述:Security selection and optimization, capital allocation, investment strategies and performance measurement
证券选择与优化、资本配置、投资策略与绩效评价
--

---
PDF下载:
--> Business_Taxonomy_Construction_Using_Concept-Level_Hierarchical_Clustering.pdf (675.98 KB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:业务分类 层次结构 分类法 Hierarchical Quantitative

沙发
nandehutu2022 在职认证  发表于 2022-6-24 05:36:02
业务分类法构建使用概念级层次聚类白浩东,+Frank Z.Xing,Erik Cambria,Win Bin Huang+*+北京大学信息管理系南洋理工大学计算机科学与工程学院{hbai,huangwb}@北京大学。埃杜。cn,{zxing001,坎布里亚}@南洋理工大学。埃杜。sgAbstractBusiness分类法是投资者进行股票研究和做出专业决策不可或缺的工具。然而,由于两个原因,确定新兴市场中的行业部门结构是一项挑战。首先,现有的分类法是为成熟市场设计的,对于具有创新商业模式的小公司来说,这可能并不合适。其次,新兴市场正在快速发展,因此静态业务分类法无法及时反映新特性。在本文中,我们提出了一种从公司年度报告的内容自动构建业务分类的新方法。Extractedconcepts使用greedyaf-inity传播进行分层聚类。我们的方法需要较少的监督,并且能够发现新的术语。在中国全国股票交易所(NEEQ)市场上的实验和评估显示了我们构建的业务分类法的几个优点。我们的研究结果为理解和投资新成长公司提供了有效的工具。1简介业务分类法是投资活动的重要知识管理工具。在比较金融市场上不同的权益资产时,投资者倾向于根据公司的主要业务部门、市场表现和生产的产品对公司进行分类。

藤椅
能者818 在职认证  发表于 2022-6-24 05:36:05
为了发现在不同行业具有巨大增长潜力的公司,只有同一行业的公司才会采用类似的下游分析标准,如财务报表分析、盈利预测、价格收益估值等【Alford,1992年】。为此,准确的公司分类对于成功的投资至关重要。因此,ZF和金融机构以及大公司开发了大量不同的业务分类法,这些分类法通常适用范围广、粒度粗且几乎是静态的。然而,这些功能不适用于小型和初创公司。*通讯作者:黄文斌这些公司通常发展迅速,业务动态变化,专注于特定业务。因此,传统的业务分类法无法反映整个景观和新兴业务。除了传统的商业分类法之外,中国股市还有另一种称为“概念股票”的知识管理工具(概 念股)”. 然而,研究团队和媒体对这些概念标签进行了总结,这意味着它们已经吸引了很多注意力,并且过度代表了蓝筹股。此外,概念标签既没有系统性,也没有层次性。通华顺的“概念板”就是这样一套流行的标签。对于小型和初创公司来说,目前的情况是,这些公司的估值必须依赖于从国内主要“A”股市场转移过来的概念标签,而这些概念标签并不恰当地描述小型公司。在中国证券交易所(NEEQ)上市的公司就是典型的例子。

板凳
可人4 在职认证  发表于 2022-6-24 05:36:08
与那些“A”股公司相比,新兴市场上市公司更依赖于不恰当的概念标签,因为它们没有得到广泛认可的市值或企业倍数。出于上述原因,迫切需要一种更灵活的业务分类法,以帮助小公司和新公司做出投资决策。该分类法可以为数千家具有创新商业模式的不同公司提供基准。与概念标签相比,业务分类法不仅有助于调查特定公司,而且有助于了解公司之间的关系。目前已经有大量关于自动分类法构建(ATC)的研究,用于网络搜索【Liu等人,2012年】、问答和反馈【Sadikov等人,2010年】、广告和推荐系统以及知识组织【Zhang等人,2018年】等应用。然而,很少有人关注商业分类体系的构建。另一方面,利用自然语言处理(NLP)或文本挖掘支持投资的研究要么改进现有的分类法【Hoberg和Phillips,2016年】,要么使用其他数学工具表达行业结构【Xing等人,2019年】。http://q.10jqka.com.cn/gn/TheNEEQ是一种场外交易(OTC)系统,用于交易未在深圳或上海证券交易所上市的上市有限公司的股份,因此被称为“新三板”(新三板)”.与之前的研究不同,本文提出了一种新方法,从头构建业务分类法。该方法从公司年度报告中提取概念级术语,并计算不同术语之间的相似度。该方法基于相似矩阵,将聚类项递归到不同的地层中。我们的贡献有三个方面:1。

报纸
nandehutu2022 在职认证  发表于 2022-6-24 05:36:11
据我们所知,我们率先将自动分类法构建用于业务分类和投资目的。使用概念级术语而不是关键字,该方法需要低水平的监督,因为我们利用语言知识和统计模型来提取和比较术语。需要有鼻子的术语或它们的关系。2、我们使用积极和未标记学习(PU学习)来进一步减轻标记索引词的工作量。因此,该方法显示了其识别细粒度概念和从自然语言中发现新术语的能力。3、我们将NEEQ年报数据集公诸于众,这样研究人员就可以在该数据集上对他们的区域经济学构建方法进行基准测试,或者跟进其他文本挖掘任务。本文的其余部分组织如下:第2节从两条文献线索阐述了相关工作:业务分类系统和自动分类结构研究;第3节概述了框架并介绍了算法的细节;第4节介绍了实验结果;第4.2节评估NEEQ市场构建的分类法,并进行案例研究;最后,第5节对研究进行了总结,并提出了未来的发展方向。2相关工作2.1业务分类系统业务分类系统或行业分类方案是市场研究的基本工具。根据最近的一次审查【Phillips和Ormsby,2016年】,公司按照其相似的制造工艺、最终产品和目标市场进行分组和组织。投资者利用业务分类系统进行基准测试、发现潜在竞争对手、评估销售业绩和编制行业指数。

地板
何人来此 在职认证  发表于 2022-6-24 05:36:14
主流商业分类系统可根据其开发人员和用途分为三类:政府统计机构开发经济活动衡量系统,商业信息供应商开发引导投资者的系统,学术研究人员研究此类系统在会计和金融中的使用。使用最广泛的例子来自商业信息生产者,如全球行业分类标准(GICS)和汤姆森路透社商业分类(TRBC),因为它们被集成到流行的商业数据库中。早期研究【Bhojraj和Lee,2002年】也支持可从以下链接下载数据集:http://github.com/SenticNet/neeq-annual-reports/.theGICS准确地对市场进行分类。因此,中国金融市场上使用的一些业务分类系统是根据GIC改编的,如SWSCL分类标准和官方NEEQ分类指南。然而,在NEEQ市场上使用这些系统时发现了许多问题。首先,采用自上而下的方法设计,这些系统在最终级别的公司数量不平衡。在预先定义的结构中,许多类别包含具有不同业务的公司。其次,小公司仍处于探索其商业战略的初级阶段。因此,一家公司的业务通常可以跨越系统中的几个域,而只能划分为一个单独的类。这导致该公司在其他班级缺席。最后,同样重要的是,频繁修改此类系统的成本高昂,会让投资者感到困惑。关于将NLP和文本挖掘用于财务预测和投资活动的文献正在不断增加【Xing等人,】。Hoberg和Phillips根据业务分类,使用10-K语料库构建了两个系统。

7
kedemingshi 在职认证  发表于 2022-6-24 05:36:17
第一种方法是根据公司的产品描述和公司网络结构的相似程度来发现公司之间的竞争关系【Hoberg和Phillips,2010年】。第二类公司首先对公司产品进行文本描述,然后将传统的商业分类模式映射到新构建的商业分类模式【Hoberg和Phillips,】。这两项研究都侧重于改进现有的分类系统。因此,公司商业模式的细节并未披露,分类结果仍然相当粗糙。具有更详细信息的分类法,例如关于产品的分类法【Aanen等人,2015年】,不适用于行业划分。在这项研究中,我们打破了刻板印象,采用完全数据驱动的方法来构建基于公司文本描述的分类系统。因此,与业务相关的概念和术语更加详细,信息更加丰富。2.2自动分类法构建分类法定义为一种语义层次结构,通过is-a关系组织概念【Wang等人,2017年】。由于is-a关系是人类认知结构中最重要的关系,因此从自然语言构建分类法是本体学习任务的基础。在常见情况下,ATC遵循一条从自然语言中提取关系并归纳分类结构的流程。关系提取可以是基于模式的,也可以是统计的。赫斯特(Hearst,1992)的一项基于模式的先驱研究提出,使用手工制作的词汇模式,如“A是A B”和“A是B”来发现is关系。以下研究提出了更多的句法模式【Navigli et al.,2011;Luu et al.,2014】,例如,“A,包括B”,“A是B的类型/种类”等。可以通过增强多个这样的规则来提高性能【Vivaldi et al.,2001】。

8
kedemingshi 在职认证  发表于 2022-6-24 05:36:21
基于模式的方法featurehttp://www.swsindex.com/pdf/swhylfsm.pdf/,于2019-04-03访问。http://www.neeq.com.cn/fenglei/hyfl.html/,2019-04-03访问。精度高,但召回率低。这是因为这些模式的精确匹配对语料库中包含的关系的覆盖率较低。这个问题在我们的研究中更为严重,因为商业描述通常不包含上述语言模式中的解释性从句。统计模型检查任何两个术语之间的关系,即首先提取所有候选术语,并建立模型预测关系类型或两个术语之间是否存在“is-a”关系。术语提取步骤可以通过有监督或无监督的机器学习算法来实现。在前一种情况下,将需要更多的真术语标签,而在后一种情况下,使用TF-IDF、主题建模(LDA)[Bakalov等人,2012年]或TextRank模型,仅将最小努力值作为阈值术语。对于关系预测模型,无监督方法利用信息,如共现频率分析、术语包容【de Knijff et al.,2013】、基于词包的余弦相似度和单词嵌入相似度【Fu et al.,2017】来发现分类关系【Wang et al.,2017】。监督方法需要对一组已知关系进行归纳推理,这种推理更加精确,但在很大程度上依赖于群体关系和种子关系【Zhang等人,2018年】。在某些情况下,监督方法的召回率很低。显然,在精确性和召回率之间存在着权衡。分类法的归纳是指基于从上一步提取的关系集来生成类似于图的结构的过程。最佳分类法需要一些特征,例如没有冗余边和概念术语循环【Luu等人,2014年】。

9
nandehutu2022 在职认证  发表于 2022-6-24 05:36:24
最重要的目标是上下关系的正确性:可比术语应属于同一级别。实际上,业务分类法应该提供与投资活动相关的必要知识和业务见解。为了实现这些,当前的方法要么使用聚类,要么使用从图中引入树结构的算法。聚类方法假设聚合词共享相同的超词。通过递归选择代表性术语,层次聚类可以生成分层树结构【de Knijff et al.,2013;Meijer et al.,2014】。另一方面,术语关系可以组织为有向图。然后,任务就变成了从图中删除树结构[Choi等人,2011年]。在本研究中,我们使用弱监督统计方法进行关系提取和贪婪层次结构完整性传播(GHAP)构建新的分类法,并将公司与叶后代层联系起来。3方法学我们的方法可以分为三个阶段:数据预处理、概念级分类法构建,以及根据已建立的分类法对企业进行分类和标记。图1提供了拟议方法的概述。因为我们使用的语料库是中文的,所以数据预处理阶段包括对每个中文单词进行分词和词性标注。我们使用HIT开发的LTP Cloudtools来完成此阶段。

10
mingdashike22 在职认证  发表于 2022-6-24 05:36:27
分类学构建阶段使用半监督learninghttp://www.ltp-cloud.com/Table1:用于培训术语提取器的概念级功能。特征计算方法名称概念互信息MI(t)=Pi,jp(i,j)×log[p(i,j)/(p(i)p(j))]。右侧熵RE(t)=Pip(t,i | t)×log(p(t,i | t))。左侧熵LE(t)=Pip(i,t | t)×log(p(i,t | t))。概念TF——所有文件中的总术语频率。概念IDF所有文件的总体反向文件频率。其次是单词的二元特征,后面是否有“工业”的概念(行业)” 或“businessscope(业务)”.以下单词的二进制特征是否符合“running”的概念(从事)”.行业TF所有行业类别中的概念频率分布。Industry IDF所有行业类别中的反向文档频率分布。行业概念熵指数(t)=-Pi(T Ft,i/T Ft)×log(T Ft,i/T Ft)。classi fier【du Plessis等人,2014年】,以减少标记术语的劳动力。在筛选出候选概念术语后,我们从分类器中获得最终术语。相似度计算基于信息科学中的共现分析思想。然后,GHAP将相似度矩阵作为输入,构建多层次的术语结构。公司分类阶段将包含子级术语的所有公司映射到分类。3.1概念提取和术语相似性NLP中的一个基本挑战是对短语和多词表达式中的语义成分进行建模。之前的研究【Cambria和White,2014年】建议将概念视为意义的原子单位,这将在下游应用中产生更强大的表达能力和更准确的结果。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-9 08:48