楼主: nandehutu2022
982 26

[量化金融] 一种双峰网络主题动力学建模方法 [推广有奖]

  • 0关注
  • 5粉丝

会员

学术权威

74%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
69.2521
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
24246 点
帖子
4004
精华
0
在线时间
1 小时
注册时间
2022-2-24
最后登录
2022-4-20

楼主
nandehutu2022 在职认证  发表于 2022-6-1 10:33:19 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《A Bimodal Network Approach to Model Topic Dynamics》
---
作者:
Luigi Di Caro, Marco Guerzoni, Massimiliano Nuccio, Giovanni Siragusa
---
最新提交年份:
2017
---
英文摘要:
  This paper presents an intertemporal bimodal network to analyze the evolution of the semantic content of a scientific field within the framework of topic modeling, namely using the Latent Dirichlet Allocation (LDA). The main contribution is the conceptualization of the topic dynamics and its formalization and codification into an algorithm. To benchmark the effectiveness of this approach, we propose three indexes which track the transformation of topics over time, their rate of birth and death, and the novelty of their content. Applying the LDA, we test the algorithm both on a controlled experiment and on a corpus of several thousands of scientific papers over a period of more than 100 years which account for the history of the economic thought.
---
中文摘要:
本文提出了一种跨时双峰网络,即利用潜在Dirichlet分配(LDA),在主题建模的框架内分析科学领域语义内容的演变。主要贡献是主题动态的概念化及其形式化和编码为算法。为了衡量这种方法的有效性,我们提出了三个指标,跟踪主题随时间的变化、主题的出生率和死亡率以及主题内容的新颖性。应用LDA,我们在一个对照实验和一个长达100多年的数千篇科学论文的语料库上测试了该算法,这些论文描述了经济思想的历史。
---
分类信息:

一级分类:Computer Science        计算机科学
二级分类:Computation and Language        计算与语言
分类描述:Covers natural language processing. Roughly includes material in ACM Subject Class I.2.7. Note that work on artificial languages (programming languages, logics, formal systems) that does not explicitly address natural-language issues broadly construed (natural-language processing, computational linguistics, speech, text retrieval, etc.) is not appropriate for this area.
涵盖自然语言处理。大致包括ACM科目I.2.7类的材料。请注意,人工语言(编程语言、逻辑学、形式系统)的工作,如果没有明确地解决广义的自然语言问题(自然语言处理、计算语言学、语音、文本检索等),就不适合这个领域。
--
一级分类:Economics        经济学
二级分类:General Economics        一般经济学
分类描述:General methodological, applied, and empirical contributions to economics.
对经济学的一般方法、应用和经验贡献。
--
一级分类:Quantitative Finance        数量金融学
二级分类:Economics        经济学
分类描述:q-fin.EC is an alias for econ.GN. Economics, including micro and macro economics, international economics, theory of the firm, labor economics, and other economic topics outside finance
q-fin.ec是econ.gn的别名。经济学,包括微观和宏观经济学、国际经济学、企业理论、劳动经济学和其他金融以外的经济专题
--

---
PDF下载:
-->
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:动力学 Contribution Quantitative Codification Computation

沙发
大多数88 在职认证  发表于 2022-6-1 10:33:23
建模主题动态的双模网络方法Luigi Di Caro1,3、Marco Guerzoni1,2、Massimiliano Nuccio1,2、Giovanni Siragusa1,3Despina、都灵大学意大利计算机科学系、都灵大学大数据实验室经济和统计系“Cognetti de Martiis”,ITALYABStracts本文提出了一个跨期双峰网络,以分析主题建模框架内科学领域语义内容的演变,即使用LatentDirichlet分配(LDA)。主要贡献是主题动态的概念化及其形式化和算法的协同。为了衡量这种方法的效果,我们提出了三个指标,跟踪主题随时间的变化、出生率和死亡率以及内容的新颖性。应用LDA,我们在一个对照实验和数千名科学家的语料库上测试了该算法,这些科学家在100多年的时间里记录了经济思想的历史。关键词:主题建模、LDA、双峰网络、主题动力学、经济思想1简介科学哲学中的一个关键问题在于理解学科内科学基础的演变。

藤椅
大多数88 在职认证  发表于 2022-6-1 10:33:27
继库恩(Kuhn)[1970年,第10页]之后,科学范式可以被认为是一套假设、合法的理论、方法和实验,这些都是足够新的,可以吸引一群学者,为一个领域做出贡献,并为不同的研究方向开辟足够的探索空间。我们要感谢JSTOR(www.JSTOR.org)为我们提供数据和大数据实验室(www.despena.unito.it)以及都灵大学计算机科学系的财政支持。传统观点认为,正如为硬科学和成熟科学所发展的那样,科学基础的演变包括“通过革命从一种范式到另一种范式的连续过渡”【库恩,1970年,第12页】。然而,一个科学领域通常由几个相互竞争或解决不同问题的研究范式组成,其中一个领域的革命必然涉及整个学科的影响和调整。此外,每一个新范式都承载着过去范式的现有知识遗产,这些知识往往被重新组合成新范式。社会科学尤其如此,在社会科学中,库尼斯意义上的明确科学范式的识别往往模糊不清,提及“研究传统”可能更为正确【劳丹,1978年】。然而,无论你称之为范式还是传统,不可否认的是,思维模式的存在对一种理论做出了合理的贡献。因此,我们可以假设,科学领域中知识的演变是在研究人员社区中产生的,这些研究人员共享语义来定义特定的研究问题、描述方法和确定结果。

板凳
能者818 在职认证  发表于 2022-6-1 10:33:30
因此,科学领域研究传统的异质性可以用语义分析来描述。某种程度上的词语共现揭示了一种潜在的认知模式,因此,它可以捕捉科学进化的本质,这种观点并不新鲜。尽管在程序设计方面存在困难,但第一次尝试可追溯到Callon等人的工作【1983年】,并在十年后第一次公开代码发布时重新定义【Vlieger和Leydesdorff,2011年,Leydesdorff和Welbers,2011年】。随着机器学习技术的不同,尤其是在无监督学习子领域,基于语义内容对科学进行分类的挑战再次出现【Leydesdorff和Nerghes,2015年】。主题建模包括一系列算法【Blei等人,2003年】,这些算法在通过降维从大型文本数据库中提取信息方面表现尤为突出。这一特征在地图科学【Suominenand Toivanen,2015年】或新闻【DiMaggio等人,2013年】中得到了明确认可。Alghamdi和Alfalqi【2015】回顾了主题建模的四种主要方法,包括潜在语义分析(LSA)、概率LSA、延迟Dirichelet分配(LDA)和相关主题模型(CTM)。【Blei等人,2003年】中提出的LDA是最常用的方法之一。LDA基于概率贝叶斯模型检索文本中的潜在模式,其中每个文档都是由单词的多项式分布描述的潜在主题的混合物。LDA的一个主要局限性在于它无法建模和表示主题之间的关系【Alghamdi和Alfalqi,2015年】。在本文中,我们讨论了主题建模中经常出现的一个主要问题,即主题动态,或者换句话说,我们测试了一种跟踪主题随时间变化的方法。

报纸
大多数88 在职认证  发表于 2022-6-1 10:33:33
正如Blei和La Offerty(2006)所述,LDA是一种有效的降维方法,但它假设语料库中的文档是可交换的。相反,文章和主题是按顺序组织的,并随着时间的推移而演变。因此,开发一个统计模型不仅可以从一系列文档的语料库中确定不断演变的主题,而且可以测量和描述主题的转换及其出现和消失。在信息检索文献中,主题的动态性面临着两种方法【He等人,2009年】:一种是区分性方法,用于监测单词或混合词在文档中的分布变化,另一种是生成性方法,用于搜索整个语料库中的一般主题,然后,它分配属于每个主题的文档【Boelli等人,2009年,He等人,2009年】。Blei和Lafferty(2006)特别引入了动态主题建模(DTM),这是一类生成模型,其中每个文档主题分布和每个主题词分布都是从之前时间框架中的相同分布生成的。这种方法非常有效,因为它在不同时期的主题集之间建立了联系,并允许跟踪单个主题随时间的演变。DTM在捕捉单个主题的演变方面表现得非常好。然而,知识的进化比主题中单词相对重要性的变化要复杂得多,因为它可能还涉及新主题的创建、它们的相互重新组合以及最终它们可能的消亡。本文的主要贡献是知识演化的概念化和形式化,知识被视为不断出现和消失、合并和分裂的不同语义内容流。

地板
mingdashike22 在职认证  发表于 2022-6-1 10:33:36
因此,我们提出了一种基于跨时间双峰主题网络的原始方法来计算知识进化中的关键元素。此外,本文的最终目标不是详细跟踪单个主题内发生的情况,而是制定指数,在总体水平上衡量观察到的知识动态的一些属性,例如总体新颖程度或特定时间窗口下的湍流水平。本文的结构如下:在下一节中,我们提出了一种分析概念和衡量主题演变不同模式的方法。第2.2节将其转化为分析算法,计算LDA生成的主题的合并、拆分和新颖性的一些度量。在第3.1节中,一个简单的模拟测试了该方法对arti ficialData的稳健性。最后,在第4节中,同样的算法被应用于经济学中的一个大型论文数据集:主要结果通过描述过去一个世纪中经济科学主题的演变来呈现和讨论。2知识演化的概念化在本文中,我们关注主题随时间的动态演化。通过DTM,每个主题Kt都链接到Kt+1,创建一个跨文档覆盖年份的主题链。具体而言,Blei和Lafferty【2006】通过将每文档主题分布α和每主题词分布βt,kin a sate space模型与高斯噪声:βt,k |βt链接,将时间t-1的每个主题映射到t中的主题-1,k~ N(βt-1,k,σI)(1)αt |αt-1.~ N(αt-1,δI)(2)这种方法在跟踪同一主题的增量变化方面表现很好,但它不侧重于揭示出生、死亡或主题的可能组合,并且在模型中设定了恒定数量的主题。

7
大多数88 在职认证  发表于 2022-6-1 10:33:39
相反,我们感兴趣的是发现语料库中主题的结构变化,并了解解释它的潜在主题动态。因此,我们不关注单一主题的演变。跨主题的跨时间链接并不像DTM中那样是模型估计中的一个约束条件,但它是通过观察独立LDA生成的主题之间的相似性(词语的共现)在实证分析中事后引入的。更详细地说,虽然DTM通过链接高斯分布对组合随机变量序列进行建模(从而在模型中直接体现topicsdynamics),但我们的方法对单个和静态LDA进行操作,以便在模型外跟踪和测量此类动态。积累知识的语料库主题结构的演变有两个主要原因。一方面,任何认知社区(例如新闻工作者或科学家)都可以将他们的智力兴趣转移到新的问题和议题上,这将导致不同的选择、频率和词语的共现。另一方面,语言不断演变,新单词、命名实体、首字母缩略词等出现,而其他单词则因同一社区对它们的使用越来越少而消失。我们排除了第二种情况,因为我们假设在短时间内,语言是相当稳定的。在这种假设下,当比较两个不同(尽管相邻)时间窗口中主题建模练习生成的主题时,我们应该能够捕捉科学辩论的演变,并突出主题的诞生、死亡和重组。在一个极端情况下,我们可以发现一种情况,即知识不会进化,因此主题是稳定的。

8
能者818 在职认证  发表于 2022-6-1 10:33:42
另一方面,我们计算出新话题出现时,与现有话题没有任何语义关联的最大动荡程度。在后一种情况下,我们可以假设过去主题的消亡和新主题的诞生。在这两种理想情况之间,我们还可以画一个连续统,在这个连续统中,我们可以观察主题的死亡和出生。最后,在一个最有趣的场景中,知识可能会进化,而不是观察稳定性或湍流,从而重新组合新旧主题中的现有主题。表1总结了五种典型的知识演化模式及其在主题建模框架内的解释。表1:主题建模和知识演化的典型模式稳定性主题a在时间t和t+1存在。主题a在时间t+1没有先例。主题a在时间t+1消失。在时间t+1合并多个主题,在时间t+1合并成一个新主题。在时间t+1拆分多个主题,在时间t+1共享先例。图1给出了五种理想的知识进化是一个主题的邻近网络,我们将其数学形式化如下。让我们考虑一下,在时间t的一组文章中,M个主题是作为特应性建模练习的结果出现的,而在时间t+1时,N个主题是作为特应性建模练习的结果出现的。我们解决了跟踪t+1时主题集M=(1,…,A,…,M)att到主题集N=(1,…,A,…,N)的转换的关键问题。具体而言,我们感兴趣的是测量各种现象的大小,如出生、死亡、合并和分裂。考虑基于单词共现的相似性指数simil,在每个主题(A,A)和∈ M和a∈ N并考虑相似矩阵S(M×N)S=一NA simil1,1。相似1,N。。。。。。M similM,1。

9
何人来此 在职认证  发表于 2022-6-1 10:33:45
西米尔,N为了清楚起见,参考图1,让我们考虑一个最小的例子,其中M=(A,B)和N=(A,B)通常,该指数是余弦相似性指数,因为它在论文的实证部分中使用。图1:理想类型的话题演变A B(A)稳定性ACB(B)Merging B(c)出生A bc(d)分裂A(e)死亡=a bAαβBγδ网络表示允许可视化五种理想类型的知识演化:表2总结了它们以及观察此类情况的相似性指数值的必要和有效条件。然而,随着主题数量的增加,推导相似性指数值的条件将变得很麻烦。此外,表2仅描述了理想情况,而观察到的现实通常涉及上述范例案例的连续混合。例如,在图2所示的M=4和N=3的情况下,分析变得非常困难。考虑到这一目的,我们将相似矩阵S视为Mover N的关联矩阵。因此,我们可以使用S创建双邻接矩阵D,并将图2视为生成的二部网络,其中M和N是节点集,而矩阵的元素是边的权重。表2:双峰网络和经验指数网络矩阵参数。案例SABABα,δ6=0γ,β=0稳定性:无出生,无死亡SABABα,δ,γ,β=0不稳定性:出生和死亡SABABα,γ6=0δ,β=0合并:无死亡,但出生SABABα,β6=0δ,γ=0分裂:无出生,但死亡图2:两次窗口A B C DabcD主题的二分网络=0不锈钢==A.M a b。。。NA 0 0 0 B 0 0 0 S。。。0 0 0 0 0 0 0 0 0 0 0 0 0 0 B 0 0 0 0 0 0 0 0。。。

10
何人来此 在职认证  发表于 2022-6-1 10:33:48
ST0 0 0 0N 0 0 0 0 0 0现在,我们将展示这种表述如何帮助衡量出生、死亡、死亡和分裂的程度。出生和死亡可以通过矩阵S轻松计算。行和等于零表示死亡,列和等于零表示出生。死亡意味着语义完全消失,而出生意味着一个主题与过去的其他主题没有语义相似性。再次重要的是要注意到,这些病例是极端情况,而在现实中,我们观察到出生和死亡之间的连续性。因此,我们可以在时间t+1为每个主题i计算一个索引新奇度i(NI),其中对于N i\\u i=M AX,我们有一个出生,这是一个与之前任何其他主题都不相似的主题。对于更高的价值,我们有更高的主题新颖性。我们还可以通过观察这些指数在主题上的分布,来衡量一个科学领域整体结构中NI的平均变化。例如,让我们考虑一下新指数和平均值,定义:NIj=1-PMiSi,jM(3),其中j是矩阵S中第j列的索引,且ni=1-PMiPNjSi,jM* N(4)我们取矩阵S中所有单元值的平均值。如果相似性指数在0和1之间有界,这是余弦相似性指数的常见情况,因此N I的范围为0到1。由于新颖性的价值很小,新主题显示出与旧主题不同的单词分布。如上所述,主题的转换可以采取合并和拆分的形式。我们说,如果t+1时的一个主题与t时的两个主题表现出高度的相似性,就会发生合并,这意味着t时的a和B的语义宇宙(如图2所示)被合并到主题a中。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-20 12:07