楼主: nandehutu2022
983 26

[量化金融] 一种双峰网络主题动力学建模方法 [推广有奖]

11
kedemingshi 在职认证  发表于 2022-6-1 10:33:51
类似地,我们可以说,如果在t+1的多个主题中发现t+1的一个主题的语义遗产,就会发生分裂,就像在主题C中一样。为了分析合并的强度,我们可以将图2的两部分网络投影到图3的两个1模式网络中。这是通过矩阵乘法S×ST用于merging和ST×S用于分裂来实现的,这导致两个矩阵分别为M×M和N×N。请注意,对于矩阵乘法的性质,图3:1模式网络,图2ABCDabcMerging splittingpmerging和pspllittinga的投影始终是平方矩阵,即使两个时段的主题数量有所减少。网络由矩阵PPmerging表示=A B。。。MAB S×ST。。。MPsplitting公司=a b。。。Nab ST×S。。。N矩阵变换允许我们绘制图3所示的1模式网络,它表示两个时间窗口之间的合并和拆分。网络的矩阵公式也有助于根据两个相对矩阵P计算合并和分裂的强度。让我们将矩阵Pmergingin作为表2Pmerging=S×ST的一个最小示例=α βγ δ×α γβ δ=α · α + β · β α · γ + β · γα · γ + β · δ γ · γ + δ · δ(5) 矩阵P总是对称的,为了我们的目的,我们将重点放在低三角形上。通过对角线外的数字(α·γ+β·δ)捕捉融合,其中(α·γ)是A中A和B的融合强度,而(β·δ)是B中A和B的融合强度。在表1所示的示例性情况下,β和δ等于零,而α和γ不同于零:因此,我们有图3所示的A和B之间的融合。经过必要的修改,我们可以考虑分裂的情况。

12
kedemingshi 在职认证  发表于 2022-6-1 10:33:54
再次,对角线的低三角形突出了分裂的强度,其中(α·β)A在A和b中分裂,而(γ·δ)b的分裂。Psplit=ST×S=α γβ δ×α βγ δ=α · α + γ · γ α · β + δ · γα · β + γ · δ β · β + δ · δ(6) 当我们在两个时间窗口中都有大量主题时,我们可以使用此公式创建衡量合并和拆分强度或其他过渡属性的索引。具体而言,我们旨在比较对角线下方的值与对角线上的值。WeFigure 4:Tabcd中主题之间的相似性网络因此创建一个规范化矩阵,其中对角线和对角线以下的所有元素相加为一个。Pmergingnormalized=Pmerging·Pi≤jP(i,j)(7)通过这种方式,我们可以计算一个merginginindex(M i),当没有合并发生时,它的值为0,并且它的范围达到一个上限,该上限不能超过1。MI=1- trace(Pmergingnormal-ized)(8)对称地,我们计算了拆分指数(SI)2.1条件依赖。最后一个需要解决的重要问题是时间t时主题的条件依赖性的影响及其与单模网络投影的关系。t处的两个主题可能会在t+1处合并为一个主题,因为它们在t时已经彼此相似。在这种情况下,我们可能会发现一个虚假的合并过程。然而,可以解释这种动态条件依赖。我们可以计算时间t时主题之间的相似性指数simT,它也可以用网络表示。Q=simT1,1。simT1,M。。。simTM,1。simTM,M请注意,Q是一个对称矩阵,其维数(M×M)与Pmerging相同。同样的程序也适用于t+1的主题。

13
大多数88 在职认证  发表于 2022-6-1 10:33:57
在这种情况下,我们得到了一个与Psplit维数相同的矩阵(N×N)。为了考虑条件依赖,我们可以考虑Rmerging,spliting=(Pmerging,spliting | Qmerging,spliting)并重新计算索引,用P替换R。存在不同的方法来操作依赖性。可能最复杂的方法是在图形网络中对整体条件依赖结构进行编码【Jordan,1998,Lauritzen,1996】。然而,我们也可以认为相似性度量具有尺度意义,它超越了简单的概率关系。因此,我们推测,条件依赖性最多可以通过将元素除以或减去两个矩阵来考虑:在开发的算法中(见下一段),我们除以。表3总结了我们使用的索引及其范围。表3:测量主题建模中的变化类型变化指数Min max引入新的语义区域或过去遗留的NI 0 1整合主题的语义内容MI 0 1拆分主题的语义内容SI 0 12。建议的算法本段描述了我们开发的算法,用于操作前一理论方法。我们的例子依赖于潜在Dirichlet分配(LDA)[Blei等人,2003年],尽管该方法不涉及主题创建方式的任何假设。LDA是一个generativemodel,通过混合主题对文档进行总结,其中每个主题都是字典中的概率分布。该算法首先生成一个数据库,允许在每个时间段查询文档。此后,它将数据集划分为Unigram,其中根据NLTK列表(www.NLTK.org)消除了StopWords。最后,我们将PorterStemmer[Porter,1980]应用于单个单词。

14
mingdashike22 在职认证  发表于 2022-6-1 10:34:00
该算法以词根形式变换(或截断)每个单词。我们为每个T时间窗口创建一个子集,并使用标准LDA计算NTTopics。根据生成的输出,我们可以计算出三个指数。对于相似度计算,我们使用前100个主题单词的概率来生成向量权重。算法1显示了计算从t到t+1的时间窗口的伪代码。它只需在t和t+1时输入所选窗口的已清理文档和主题数,然后返回合并、拆分和值索引。具体而言,该算法为每个时间窗口t和t+1生成aLDA模型,并计算时间和t+1时主题之间的相似度(以及主题本身)。然后,使用相似矩阵S和矩阵Q计算矩阵Pmerging和psplitting。两个P矩阵用于计算MI和SI,而矩阵xq用于计算NI。3评估为了评估这种方法,我们不能用DTM等其他动态方法对其进行基准测试,因为我们不会随着时间的推移跟踪单个主题,但我们会比较相邻的时间窗口来衡量主题重组的程度。因此,我们通过在具有受控特征的人工生成数据集上应用该算法来测试该方法。3.1艺术数据创建为了生成实验数据集,我们创建了反映自然和现实文本内容的艺术主题。不是直接将主题生成为一组艺术构建的单词集,而是从概念种子开始,用作真实文本数据的查询。概念种子是表示基于文本的资源中的概念的词(或复合词)。例如,Wikipedia资源中的概念seedphysics是关于物理的Wikipedia页面。

15
mingdashike22 在职认证  发表于 2022-6-1 10:34:03
从一组concepthttps://radimrehurek.com/gensim/Algorithm1 computeSingleWindow(文档集,numT opict,numT opict+1)1:topict← LDA(文档集,numT opict)2:St← computeTopicSimilarity(topict,topict)3:topict+1← LDA(文档集,numT opict+1)4:St+1← 计算观点相似性(topict+1,topict+1)5:Q← computeTopicSimilarity(topict,topict+1)6:r更大← St公司* STt7:Rsplit← St+1* STt+18:Q麦哲← Q* QT9:Qsplit← QT* 问题10:Pmerger← 零(Rmerger.numRow(),Rmerger。numCol())11:Psplit← 零(Psplit.numRow(),Psplit。numCol())12:对于i← 1.Rmerger公司。numRow()do13:用于j← 1.Rmerger公司。numCol()do14:Pmerger[i,j]←Rmerger[i,j]Qmerger[i,j]15:结束16:结束17:结束i← 1.R分裂。numRow()do18:用于j← 1.R分裂。numCol()do19:Psplit[i,j]←Rsplit[i,j]Qsplit[i,j]20:结束于21:结束于22:合并← 合并(正常化(Pmerger))23:拆分← 拆分(规格化(Psplit))24:新颖性← 新颖性(Q)25:26:返回合并、拆分、Noveltyseds及其关联的维基百科页面,可以提取整个文本内容并为所选概念构建艺术文档。在下面的练习中,我们选择了8个概念种子,都与经济学领域相关,以了解我们的方法在反映内容的玩具模型上的效果如何,这些内容与我们在第4节中使用的真实数据一致)。与大多数自然语言处理系统一样,我们应用了一些预处理阶段,包括删除停止词以及功能性语言项,如限定词、标点符号等。一旦建立了词集,我们就通过随机选择概率一致的词,为每个种子概念生成一个文档。我们保持单词重复,以允许我们按照单词的实际频率对单词进行采样,并生成接近真实案例的文档。

16
大多数88 在职认证  发表于 2022-6-1 10:34:07
我们使用了图书馆维基百科,网址为https://github.com/goldsmith/Wikipedia,它充当MediaWiki API的rapper(https://www.mediawiki.org/wiki/)我们使用了图书馆空间(https://spacy.io/),筛选出具有以下Speechtags部分的单词:DET(文章)、NUM(数字)和PUNCT(标点符号)。每个文档的字数是随机选择的。生成的用于训练具有不同种子概念的不同LDA模型。最后,我们通过所提出的措施比较了不同LDA模型的主题,以观察它们是否捕捉到主题变化的动态。有关算法的详细信息,请参阅附录A。3.2对照实验为了评估算法,我们创建了8个不同的对照实验,旨在捕获知识进化的4个理想案例。具体而言,我们进行了两次4个实验,通过改变(或不改变)主题数量和替换(或不替换)概念种子,测试该方法在4种不同情况下的功能。在前4轮中,我们尽可能地简化了场景,并在后4轮中略微增加了练习的复杂性。在前一个实验中,第一个实验在t时的主题数固定为2个,第二个实验为4个;t+1时的主题数量由实验确定(详情见表4)。具体来说,我们将每个实验设置如下:稳定性主题数量和种子概念保持不变。这种变化只是随机的。出生/死亡主题的数量没有改变,但我们替换了概念种子,以强制之前主题的死亡和新主题的诞生。合并种子概念不会改变,但我们会减少主题的数量,以迫使出现合并的情况。

17
大多数88 在职认证  发表于 2022-6-1 10:34:10
例如,如果我们在2个主题和1个主题中聚集相同的概念种子,我们需要只观察合并而不观察拆分。分割种子概念不会改变,但我们会增加主题的数量,以迫使出现分割的情况。表4总结了实验设计,并描述了算法2 100次运行的平均值。关于前4个简单的设计,我们设想通过实验来实现结果,并只创建拆分和合并。对于拆分,主题的数量从一个增加到两个,我们不应该看到合并,因为在t- 1还有一个主题。类似地,在合并的情况下,主题的数量在t+1中缩小为1。剩下的两个实验将稳定性与出生和死亡进行比较,这导致了更高程度的新颖性。Ourindex按预期变化:在拆分和合并时,MI和SI分别为零。如果我们将稳定性与出生和死亡进行比较,前者的NI要高得多。表4显示了针对更多主题的不同实验。值得注意的是,即使有一些主题,也不可能得到明确的结果,因为知识的重组可能是意外的,通常会同时复制一些主题的合并、分裂、稳定性,以及其他主题的生与死。然而,这些基线示例清楚地指出了一个学科中主题的聚合行为。4经济学知识的演变数据集是JSTOR数据库(www.JSTOR.org)中出现的文件集合,1845年至2013年间,在190多家与经济科学相关的期刊上发表(也称为经济学)。

18
何人来此 在职认证  发表于 2022-6-1 10:34:12
这些文件超过460000份,分为研究文章(约250000篇)、书评(135000篇)、杂项(73000篇)、新闻(4000篇)和社论(500篇)。对于每个文档,除了书目信息(标题、出版日期、作者、日志等),数据集还以一袋单词的形式提供完整内容,即文档中使用的与其频率相关的单词集。以下分析仅考虑研究文章,以消除使用不同类型文档可能产生的噪音,这些文档可以用不同的语言编写。在所考虑的时间内,研究文章的分布非常不均匀(见图5)。尽管最早的文献可追溯到1845年,但直到十九世纪末,文章语料库仅统计2930项。直到20世纪60年代初,这种增长几乎是线性的,当时的文件数量在几年内翻了一番多,在20世纪90年代和2000年代期间,每年都增加到5000多个项目。从2011年到2013年,我们统计了8220个已发布项目。LDA已应用于1890年至2013年之间发表的研究论文:1890年之前的几十年由于文件数量极低而被取消。因此,文章的结果数据集由755838336个单词和3169515个独特单词组成。我们实验了改变方法的超参数,即主题数量和时间窗口维度,以评估我们的方法在123年的研究中的稳健性和敏感性。我们选择了25个、50个和100个主题以及5年、10年和20年的时间窗口,固定一个参数,改变另一个参数。具体而言,我们首先展示了SI的值,并将窗口维度缩小到10年,并改变主题的数量。

19
能者818 在职认证  发表于 2022-6-1 10:34:15
例如,在以下图表中,1900-1920表示1900至1910年间的指数值,而1910至1920年间的相应值。图6、7和8显示了10年内25、50和100个主题的索引。然后,我们将主题数量固定为25个,并改变时间窗口的大小。图9和图10显示了5年和20年25个主题和窗口的索引。这些简单的测试表明,通过改变超参数,指数的主要趋势不会发生实质性变化,这意味着我们的方法对主题的数量和时间窗口的大小具有鲁棒性。为了进一步证明主题数量和窗口大小的不变性,我们将Greene metricGreene et al.(2014)应用于时间窗口为10年的研究文章子集,以捕捉经济知识的所有可能变化。度量值显示topicsgenerated捕获数据集中显示的信息的程度。Greene度量需要输入范围(由最小和最大主题数组成)和步骤参数(该度量用于从最小主题数开始移动当前步骤中考虑的主题数)。例如,如果最小主题数为10,最大主题数为50,步骤数为20,则Greene指标将计算10、30和50个主题的分数。图11和图12中的量度图涉及两个窗口,表明增加主题的数量也可以增加稳定性,但当然,要解释每个主题的含义变得非常困难。正如Mimno和Blei[2011]所建议的,当主题建模被用于探索数据集的内容时(如本文所述),而不是预测,没有定义测试来支持最佳主题数量的选择。

20
大多数88 在职认证  发表于 2022-6-1 10:34:19
我们通过图5解决了稳定性和意义之间的权衡:每年出版的语料库中文档的分布手动控制模型生成的主题,在10年的时间窗口内有25个主题。当我们发现一些主题由于过于笼统而可以再次拆分时,我们将最佳且分析有用的主题数设置为27。因此,以下分析基于10年时间窗内的27个主题,这些主题的指数在不同主题数量的情况下表现出最大的稳定性。图13显示了第2.2节中定义的每个时间窗口的MI和SI值。在我们分析的语料库中,这两个指数都显示出随着时间的推移而下降的总体趋势,从20世纪60年代开始变得尤为严重。合并和拆分仅在20世纪40年代和50年代之间增加,而在20世纪下半叶急剧下降。只有在本世纪末左右,当默金不断增加,分裂趋于稳定时,话题的转变似乎才找到新的动力。至于NI,我们提到,当新主题出现时,指数往往会变为1,而与t的主题不匹配- 在考虑的123年中,平均值大于0.9,因此我们跟踪了微观变化和一般趋势。在图14中,NI直到20世纪90年代才显示出相关变化,一些局部最大值出现在上个世纪的第一个十年,而局部最小值大约在其一半左右。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-20 22:27