楼主: nandehutu2022
1364 22

[量化金融] 使用概念级层次结构构建业务分类法 [推广有奖]

11
nandehutu2022 在职认证  发表于 2022-6-24 05:36:30
与使用关键字的ATC研究不同【Liu等人,2012年】,我们在业务分类中考虑概念级术语。我们观察到,两种类型的模板共同涵盖了业务领域中的大多数概念,即名词短语和形容短语。对于第一类,我们主要考虑“863中文词组”中的Non-type词组标记。此外,我们还包括汉语数字和动词,这些数字和动词在形态上无法识别,因此无法确保较高的召回率。对于第二种类型,我们同时考虑依赖搜索结果。选择那些只包含依赖关系“ATT”(汉语语法中的定语关系类型)的短语作为概念词候选词。候选术语由表1中列出的概念级特征和类似的词级特征串联而成。这些特征旨在包括基于of ficialneeq分类指南的统计信息和行业相关信息,因为术语频率在不同行业文本中的分布对于术语的辨别力至关重要。数字出现在名词短语中,如“第三方支付”(第三方支付)”.WordSegmentation&LabelingPhase&WordFeatureExtractionSemi SupervisedClassifica>onfor Ter m CandidatesTerm SimilarityCalculationer m ClusteringCorporate Term MappingDataPreprocessingConcept level分类法构建CorporateCategorization归纳构建术语关系图1:拟议方法概述,显示每个模块中使用的关键技术。半监督分类器构建为支持向量机(SVM),在PU学习框架下具有概率输出【du Plessis等人,2014年】。PU Learnings针对实际问题进行了校准,其中负面案例的标签无法访问。阳性病例的标签成本高昂,而且很难穷尽,因此大多数数据都没有标签。

12
可人4 在职认证  发表于 2022-6-24 05:36:33
通过对SVM的经验风险最小化问题的分析,证明了PU学习等效于成本敏感分类,其中成本比c/cx是类别优先级π和标记样本比例η的函数【du Plessis等人,2014】:c/cx=2π(1- η)η. (1) 我们使用scikit学习包实现了基于RBF核的代价敏感支持向量机,并从数据集中估计概率参数。在实验中,我们使用PU学习的双重问题设置,其中只有一小部分负面案例被标记。如果术语候选词包含非索引词列表中的单词,则可以进行检查。我们通过添加106个特定领域的单词,将通用停止词列表调整为特定业务领域。添加的词语包括业务领域中的常见词语,如“corporate(集 团)”, “公司(公司)” 还有“销售”之类的行动词(销售)”, “利润(盈利)”, “领先(领先)”, “趋势(趋势)” 等等。在使用negativelabels进行培训后,分类员从候选术语中生成实际术语集。通过整合包含词级相似度来计算术语相似度。更具体地说,我们将两个单词的相似度定义为它们的共现频率除以它们在文档中出现频率的调和平均值。iss(w,w)=2×dct(w∩ w) ×dct(w)×dct(w)dct(w)+dct(w),(2),其中dct(·)表示文档计数。然后,我们在两个术语中对齐对应的单词,并使用最佳匹配的平均相似度作为术语之间的相似度。由于该方法是不对称的,我们将术语相似性定义为两个方向上的平均值:s(t→ t) =Pi∈tβimaxj∈ts(i,j)len(t)(3)s(t,t)=s(t→ t) +s(t→ t) (4)其中i是术语中的单词,j是术语t中的单词;len(t)表示t的长度。单词i的权重使用TFIDF信息:βi=log(ct(i))×log(Ndct(i))。

13
大多数88 在职认证  发表于 2022-6-24 05:36:37
(5) 其中N是文档总数。3.2分类归纳术语相似度矩阵衡量两个给定术语之间的语义关系,其中目标“is-a”关系就是其中之一。为了构建分类法,我们通过聚类从术语相似度矩阵中计算出关系矩阵,从而在保留强关系的同时修剪其他关系。我们利用贪婪层次af-finity传播(GHAP)[肖等人,2007],一种基于样本的聚类方法来构建三层上下关系。与Kmeans、GMM或DBSCAN等其他聚类方法相比,GHAP在构造聚类规则方面具有一定的优势。首先,GHAP质心是原型数据点,对上下义关系很重要。其次,GHAP不需要将簇数作为超参数输入。第三,GHAP的聚类结果对初始化状态不敏感。还值得一提的是,GHAP通常比HAP收敛更快,后者必须优化全局损失函数。该方法基于数据点之间的“消息传递”概念。对于每一层,我们迭代计算可用性矩阵A【αij】n×和责任矩阵R【ρij】n×n【Frey和Dueck,2007】,其中αii=ci+Xk6=imax(0,ρki)(6)αi6=jij=min【0,cj+ρjj+Xk】/∈{i,j}max(0,ρki)](7)ρij=sij- maxk6=j(αik+sik),(8)i和j是分类学术语;cj是选择术语j作为示例的首选项;n是该层中术语或示例术语的数量。二元样本向量随后获得为e=(diag(A)+diag(R)>0)。该分类法中的每个重要术语进一步对应于一组经营类似业务的公司。

14
kedemingshi 在职认证  发表于 2022-6-24 05:36:40
这种分类法与传统的业务分类系统的主要区别在于,一家公司可以映射到多个术语。这种假设是合理的,因为在现实世界中,公司可以跨多个行业部门开展业务。4实验和评估4.1数据和结果我们从新三板采集了10375家上市公司的21739份年度报告。这些报告的发布时间为三年,从2014年到2017年。原始报告采用PDF格式,语篇结构相对固定。我们使用表格分析文件并从“商业模式”部分提取文本。在手动清理丢失的案例后,我们最终获得了20040个业务模型描述,总计462 MB的文本数据。根据年度报告标准,描述包括行业信息、产品和服务、客户类型、关键资源、销售模式和收入构成。大多数描述由100到1000个汉字组成。我们从语料库中获得了64460个概念级术语候选词,并使用领域停止词列表将其中7078个标记为非术语。对成本敏感的SVM分类器输出2744个术语,这些术语被聚类为33个超词(见表2)。我们的调查表明,每个超词支配的子概念不超过20个,子概念不超过230个。考虑到平均项相似度等于0.15,大多数聚类显示出较高的类内相似度。

15
可人4 在职认证  发表于 2022-6-24 05:36:43
Wealso还观察到子概念和子概念的数量之间有很强的相关性,这表明整个分类法是平衡的。为了理解超名称中的分支结构,我们在表2“教育”的第二行展示了相对较小的祖先类别的结构(见图2)。本课程包含四个子概念:在线培训、专业培训、教育信息化和智慧教育。每个子概念也有几个下位词。由于篇幅有限,我们不能将所有教育行业公司都包括在内。相反,我们比较了一些流行的NEEQ分类标签和我们的方法产生的术语。http://tabula.technology/Table2:第一级超词统计。Hypernym intraclassimilarityno。子概念编号。子概念编号。

16
何人来此 在职认证  发表于 2022-6-24 05:36:46
ofcompaniesHealthcare公司医疗诊断服务 0.40 2 17 72教育教育 0.37 4 15 137照明照明灯具 0.36 4 34 147场游戏 0.34 3 3 156运输与物流物流运输 0.33 3 22 206医疗服务和设备医疗器械制造与医疗服务0.28 5 22 353五金件金属零部件制造 0.27 4 26 208软件和硬件第三方软硬件 0.27 4 51 525水泥产品金属混凝土产品 0.27 3 9 34汽车汽车 0.25 5 32 473电子元件电子原件制造 0.24 6 66 950电信通信及通信设备 0.24 6 60 903建筑建筑工程 0.24 7 59 433自动化和机器人技术自动化机器人 0.23 3 21 169信息系统与集成信息系统集成服务0.23 4 47 2416节能节能环保 0.23 6 49 265GIS服务地理信息服务 0.22 3 43 1601 IT基础设施和维护IT基础设施与运维0.22 4 32 252 OF家具日常办公用品 0.22 2 7 56数字媒体互联网数字媒体 0.22 5 6 92临床试验临床试验检测 0.21 3 18 216智能家居用品智能家居 0.21 9 49 1086园艺园林工程 0.20 14 106 825机械设备机械设备制造 0.20 8 67 377化学品化工产品 0.19 6 35 274塑料制品塑料制品 0.19 12 59 395互联网和在线广告互联网媒体广告 0.19 13 106 1097太阳能电池太阳能电池 0.18 19 188 1699电子商务平台电商平台 0.17 8 53 1568金融服务金融服务 0.17 10 78 2673外包咨询工程咨询承包 0.17 10 79 4154天然生物提取物天然植物提取物产品 0.16 18 125 1194电话小工具手机周边产品 0.16 20 223 88764.2定性评估和讨论我们通过人为评估,将构建的业务分类法的有效性与官方NEEQ分类指南进行基准测试。通常,传统业务分类系统中的子类比较粗糙。例如,许多在线教育或培训领域的公司被归类为“互联网软件和服务”,其范围明显更广;同样,一些公司被贴上“一般客户服务”的标签,提供的信息比“在线培训”的概念要少。

17
nandehutu2022 在职认证  发表于 2022-6-24 05:36:49
事实上,“互联网软件和服务”只是向在线教育公司展示了其产品的传播方式。然而,他们的客户、竞争对手和市场定位与传统教育公司相比更具可比性,但与SAPor腾讯等互联网软件提供商截然不同。从这个意义上讲,传统的商业分类系统通过将不同商业模式的公司分类在一起,从而误导投资者,为定价和研究提供了不准确的同行。相反,我们的方法提供了细粒度的概念级术语。公司的映射更加平衡:表2中的每一个子术语都围绕着十家公司进行管理。投资分析的另一个重要目的是发现新概念和市场趋势。新概念反映了行业将如何重新组织和发展在线教育培训专业培训教育信息智能教育在线教育服务在线教育平台在线培训服务专业技能培训培训咨询专业技能培训培训学前培训教育辅助教育信息服务教育信息咨询教育软件行业智能家庭行业智能教育云平台智能教育CampusServices图2:教育行业的三级分类系统。未来然而,传统业务分类系统更新频率较低,往往会隐藏新的业务概念。为新概念找到合适的位置也是一个挑战。我们注意到,企业主倾向于在自我描述中宣传热点概念。因为我们的方法知道公司年度报告的内容,所以可以在分类法构建过程中捕获新概念。例如,“在线培训”和“教育信息化”是教育领域的热门概念。

18
nandehutu2022 在职认证  发表于 2022-6-24 05:36:52
学前教育在中国也越来越流行,可能是由于儒家的育儿理念。这些事实在其他投资业务分类法中没有反映出来。总之,我们的方法允许显示传统业务分类法中不会出现的具体术语,并有助于发现新术语。因此,与静态手动设计的业务分类系统相比,构建的分类法在投资活动中具有一些特殊的优势,可以对现有的业务分类系统进行有意义的补充。5结论在本文中,我们提出了一种在弱监督和部分监督的情况下提取概念级术语的方法,并使用贪婪的层次结构完整性传播来构建这些术语的分类结构。由于业务文本具有不同的语言特征来表示“is-a”关系,因此这种方法在业务分类构建中的应用是新颖的。我们的方法在术语相似度计算和分类归纳方面都很快。在中国NEEQmarket上的实验表明,与传统的专家构建的系统相比,文本诱导的业务分类法具有许多优势,例如显示细粒度的概念和发现流行的业务概念。该方法为投资活动和行业研究提供了更好的工具。当然,构建的业务分类法并不完美。例如,“手机小玩意”的概念是巨大的,包括太多的公司。因此,Intra类的相似度也是该类的最低。这些观察结果表明,“手机小工具”不可能是整个类的一个很好的示例,类可能会受到进一步的划分。此外,超词之间的语义距离有不同的尺度:“医疗”和“医疗服务和设备”是可以合并的小而相关的概念。

19
能者818 在职认证  发表于 2022-6-24 05:36:55
最后,同一组公司之间的其他关系,例如供应链关系,不会被揭示出来。我们将在将来研究如何利用这些关系改进分类学。附录表3进一步提供了一些由我们的方法(GHAP)生成的标签术语与NEEQ术语不同的示例。有关完整的分类结构,请与作者联系。参考文献【Aanen等人,2015年】Steven S.Aanen、Damir Vandic、andFlavius Frasincar。电子商务环境中的自动化产品分类映射。《专家系统与应用》,42:1298–131320015。安德鲁·阿尔福德(Andrew W.Alford,1992)。可比较公司对价格收益估值方法准确性的影响。《会计研究杂志》,30(1):94–1081992年。【巴卡洛夫等人,2012年】安东·巴卡洛夫、安德鲁·麦卡勒姆、汉娜·M·瓦拉赫和大卫·M·米诺。分类的主题模型。2012年,ACM/IEEE-CS数字图书馆联合会议(JCDL),第237–240页。【Bhojraj和Lee,2002】Sanjeev Bhojraj和Charles M.C.Lee。谁是我的同龄人?选择可比公司的基于估值的方法。《会计研究杂志》,40(2):407–4392002。【Cambria和White,2014】Erik Cambria和Bebo White。跳跃nlp曲线:自然语言处理研究综述。IEEE计算智能杂志,9(2):48–572014。【Choi等人,2011年】Myung Jin Choi、Vincent Y.F.Tan、Animashree Anandkumar和Alan S.Willsky。学习潜在树图形模型。《机器学习研究杂志》,12:1771–18122011。【de Knijff等人,2013年】Jeroen de Knijff、Flavius Frasincar和Frederik Hogenboom。从文本学习领域分类法:包容方法与层次聚类。《数据与知识工程》,83:54–692013。【du Plessis等人,2014年】Marthinus Christoffel du Plessis、Gang Niu和Masashi Sugiyama。从积极和未标记数据中学习的分析。

20
kedemingshi 在职认证  发表于 2022-6-24 05:36:58
神经肽信息处理系统(NIPS)进展,第703–7112014页。【Frey和Dueck,2007】Brendan J.Frey和Delbert Dueck。通过在数据点之间传递消息进行聚类。《科学》,305(5814):972–9762007。【傅等人,2014】傅瑞吉、蒋国、秦兵、万湘车、王海峰和刘婷。通过单词嵌入学习语义。计算语言学协会(ACL)年会论文集,第1199-12092014页。[赫斯特,1992]马蒂·A·赫斯特。从大型文本语料库中自动获取下义词。《第14届计算语言学会议记录》(COLING),第2卷,539-5451992页。[霍伯格和菲利普斯,2010年]杰拉德·霍伯格和戈登·菲利普斯。合并和收购中的产品协同效应和竞争:基于文本的分析。《金融研究评论》,23(10):3773–38112010。[霍伯格和菲利普斯,2016年]杰拉德·霍伯格和戈登·菲利普斯。基于文本的网络产业和内生产品差异化。《政治经济学杂志》,124(5):1423–14652016年。[刘等人,2012年]刘雪清、宋阳秋、刘世霞和王海勋。从关键字自动构建分类法。《ACM SIGKDD知识发现与数据挖掘国际会议记录》,第1433-14412012页。【Luu等人,2014年】Anh Tuan Luu、Jung Jae Kim和SeeKiong Ng。使用句法上下文证据构建分类法。《自然语言处理经验方法会议记录》(EMNLP),第810–8192014页。【Meijer等人,2014年】Kevin Meijer、Flavius Frasincar和Frederik Hogenboom。从文本中提取领域分类的语义方法。《决策支持系统》,62:78–93,2014年。【Navigli等人,2011年】Roberto Navigli、Paola Velardi和Stefano Faralli。一种基于图的算法,用于从零开始归纳词汇分类。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-3-11 19:11