楼主: nandehutu2022
985 26

[量化金融] 一种双峰网络主题动力学建模方法 [推广有奖]

21
能者818 在职认证  发表于 2022-6-1 10:34:22
在过去十年中,图6:M I和SI-25主题的10年窗口大小图7:M I和SI-50主题和本世纪的10年窗口大小急剧增长,表明全新主题或至少由新词定义的主题的比率较高。图8:M I和SI-100主题和10年窗口大小图9:M I和SI-25主题和5年窗口大小这种方法的优点是,通过同时查看所有其他理论,跟踪每个单一经济理论流的演变。总的来说,对如此庞大的文献语料库的分析表明,合并和拆分不能被视为对立现象,而是主题重组的补充措施。特别是,经济领域的趋势表明,分裂和合并的数量稳步减少,只是在二战前后增长乏力的情况下暂时平衡。从历史的角度来看,这完全符合大萧条后经济学理论阐述的需要,如图10:M I和SI-25主题和20年窗口大小图11:Greene等人的时间窗口1910-1920.1929的稳定值以及战后重建带来的巨大经济变化。在20世纪60年代,加上学术出版物的繁荣,许多话题都围绕着图12展开:Greene等人的时间窗1940-1950年的稳定性值。相关数量的文件和期刊,尽管它们似乎详细阐述了自主主题的相对稳定性。直到本世纪末,我们才见证了新品牌主题的发展。新主题的诞生强化了由自己的专业语言和较少的跨经济学学科知识交流形成的自立主题的假设。

22
mingdashike22 在职认证  发表于 2022-6-1 10:34:25
换言之,学术成果的地域扩张似乎伴随着塞德里尼和丰塔纳(2017)在多个知识领域的分裂和分散,他们致力于一种新的语言,但不一定产生新的范式。5结论在这篇论文中,我们提出了一种方法来衡量科学领域中知识的演变,从文献语料库中抽取主题。主题建模技术在处理大型复杂文档库方面越来越成熟,但它们可能缺乏对潜在经验现象的理论反映。从动态的角度来看,我们认识到五个知识进化的范例。然后,我们推测,将不同时间窗口的照片之间的接近度建模为接近网络可能是测量其认知动态的有用工具。事实上,这种网络方法允许我们开发3个指数,即:衡量死亡和出生率的主题随时间变化的稳定性(新颖性指数-N I),以及主题重组的程度(合并指数-MI和拆分指数-SI)。对于非常简单的情况,我们也能够通过分析推导出这些条件,这些条件将proximitynetwork与每个索引的值联系起来。在一组模拟文档上测试该算法,我们展示了它对所开发的每个索引的鲁棒性。

23
kedemingshi 在职认证  发表于 2022-6-1 10:34:28
最后,我们将我们的方法应用于一个真实的、大量的经济学学术出版物,以说明综合使用M I、图13:M I和SI-27主题10年图14:N I-27主题10年SSI和NI如何有效地理解经济知识和思想的动态和趋势。我们认为,这是在算法图15:SI和N的组合图图图16:动态主题建模的M I和NIF的组合图以及它们应该描述的经验现象之间建立更紧密联系的第一步。人工数据创建:算法在算法2中,函数getNum(minNum,maxNum)返回一个在minNum和maxNum之间随机选择的数字;函数的作用是:返回一个在selectedset上随机选择的单词;函数computeTopicSimilarity()计算输入主题之间的余弦相似度;函数zeros()返回一个包含所有零的数组。最后,函数getWordList(concept)生成一组单词。这些文字摘自维基百科页面,指向chosenconcept。在第[1-6]行中,函数getWordList为每个概念种子收集一组单词。具体来说,getWordList(如算法3所示)提取Wikipedia页面中包含的与python库Wikipedia输入的概念相关的所有单词。使用Spacyand库提取单词并存储在单词列表中。然后,将每个概念种子的单词列表插入到wordConceptList中。在第[7-16]行中,算法2为每个概念生成一个文档,从与概念种子相关的单词列表中抽取单词(以统一的概率)。样本字数由numWords指定,范围从1000到10000。

24
能者818 在职认证  发表于 2022-6-1 10:34:31
接下来,在Rows【18-20】中,该算法将文档分为两组,一组包含第一个numDocumentdocuments,另一组包含剩余文档,并应用LDA。LDA可以应用于两个文档集,也可以根据replaceDoc格式仅应用于单个文档集。如果replaceDoc设置为True,则第一个文档集将替换为第二个文档集(默认设置为false)。算法4显示了单词的处理方式。我们过滤了停止词和部分语音标记Det(限定词)、X(外来词)、NUM(数字)、Punct(标点)、SPACE和EOL(行尾符号)的词。我们还过滤了与python正则表达式\\w+不匹配的单词。

25
何人来此 在职认证  发表于 2022-6-1 10:34:34
此外,所有未过滤的单词都会回到其词根。https://github.com/goldsmith/Wikipediahttps://spacy.io/There为输入中的每个conceptSeed存在一个单词列表。算法2 ToyEvaluation(seedConcepts,numDocument,numT opict,numT opict+1,replaceDoc)1:wordsConceptList={}2://为每个概念创建单词列表seed3:for seedConcepts中的概念do4:wordsList← getWordList(概念)5:wordsConceptList。append(wordsList)6:end for 7:documents={}8:for i← 1.len(种子概念)do9:numWords← getNum(100010000)10:文档={}11:对于j← 1.numWords do12:word← 词语概念列表[一]。getWord()13:文档。附加(word)14:结束15:文档。附加(文档)16:end for17://get topic18:documentSet← 文件【1:numDocument】19:topict← LDA(文档集,numT opict)20:Mt← computeTopicSimilarity(topict,topict)21:如果replaceDoc 6=False,则22:文档集← 文档[数字文档:len(seedConcepts)]23:结束if24:主题+1← LDA(文档集,numT opict+1)25:Mt+1← computeTopicSimilarity(topict+1,topict+1)26:27:/*然后继续作为computeSingleWindow算法*/算法3 getWordList(concept)1:posTags← {X,NUM,DET,PUNCT}2:解析器← 语法分析器(lan=eng)3:单词列表← {}4:单词列表← getWordList(content,posTags)5:返回WordList算法4 getWords(content,posTags)1:单词← {}2:wikiPage← 维基百科。getPage(concept)3:用于解析器中的句子(wikiPage.content)。句子do4:用于句子中的单词。单词do5:if&(stopwords中的单词)∧ (邮资中的word.pos)∧ 匹配(单词),然后匹配6:单词。附加(word.lemma)7:end-if8:end-for9:end-for10:return-wordsReferencesR。Alghamdi和K.Alfalqi。文本挖掘中的主题建模综述。《国际先进计算机科学和应用杂志》,6(1):147–1532015。D、 M.Blei和J.D.La Offerty。动态主题模型。

26
能者818 在职认证  发表于 2022-6-1 10:34:44
《第23届机器学习国际会议记录》,ICML\'06,第113-120页,美国纽约州纽约市,2006年。ACM。ISBN1-59593-383-2。内政部:10.1145/1143844.1143859。统一资源定位地址http://doi.acm.org/10.1145/1143844.1143859.D.M.Blei、A.Y.Ng和M.I.Jordan。潜在dirichlet分配。机器学习研究杂志,3:993–1022。,2003年1月。五十、 Boelli、S.Ertekin、D.Zhou和C.L.Giles。寻找数字图书馆的主题趋势。《第九届ACMIEEE-CS数字图书馆联合会议纪要》,第69-72页。ACM,2009年。M、 卡隆、J.-P.科蒂尔、W.A.特纳和S.鲍因。从翻译到问题网络:共词分析导论。社会科学信息,22(2):191–235,1983年。M、 Cedrini和M.Fontana。只是墙上的另一个壁龛?专业化如何改变主流经济学的面貌。剑桥经济学杂志,即将出版,2017年。P、 DiMaggio、M.Nag和D.Blei。挖掘主题建模与文化社会学视角之间的优势:美国政府艺术基金在报纸报道中的应用。《诗学》,41(6):570-6062013。D、 Greene、D.O\'Callaghan和P.Cunningham。有多少主题?《TOPIC模型稳定性分析》,第498–513页。施普林格柏林海德堡,柏林,海德堡,2014年。ISBN978-3-662-44848-9。内政部:10.1007/978-3-662-44848-9\\u 32。统一资源定位地址http://dx.doi.org/10.1007/978-3-662-44848-9_32.Q.He、B.Chen、J.Pei、B.Qiu、P.Mitra和L.Giles。检测科学文献中的主题演变:引文有何帮助?第18届ACM信息与知识管理会议记录,第957–966页,2009年11月。M、 I.约旦。《图形模型学习》,第89卷。施普林格科学与商业媒体,1998年。T、 库恩。《科学革命的结构》,《国际大学科学百科全书》,第2卷,第2期。芝加哥:芝加哥大学出版社,1970年。五十、 劳丹。

27
可人4 在职认证  发表于 2022-6-1 10:34:47
进步及其问题:迈向科学增长理论。加利福尼亚大学出版社,1978年。S、 劳里岑。图形模型,第17卷。克拉伦登出版社,1996年。五十、 Leydesdor Offf和A.Nerghes。共词映射和主题建模:从用户角度进行比较。arXiv预印本arXiv:1511.03022015。五十、 Leydesdor Offf和K.Welbers。语境中词语和助词的语义映射。《信息计量学杂志》,5(3):469–4752011。D、 Mimno和D.Blei。主题模型的贝叶斯检查。《自然语言处理中的实验方法会议录》,第227-2372011页。M、 F.波特。su ffix剥离算法。课程,14(3):130–137,1980年。A、 索米宁和H.托伊瓦宁。主题建模的科学地图:无监督学习与人类的比较?指定的科目分类。《信息科学与技术协会杂志》,2015年10月。E、 Vlieger和L.Leydesdor ff。内容分析和意义测量:信息集合中框架的可视化。《符号学公共杂志》,3(1):28–502011。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-21 01:55