楼主: 何人来此
325 9

[量化金融] Wasserstein指数生成模型:时间序列的自动生成 [推广有奖]

  • 0关注
  • 3粉丝

会员

学术权威

79%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
61.8934
学术水平
1 点
热心指数
6 点
信用等级
0 点
经验
24791 点
帖子
4194
精华
0
在线时间
0 小时
注册时间
2022-2-24
最后登录
2022-4-15

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Wasserstein Index Generation Model: Automatic Generation of Time-series
  Index with Application to Economic Policy Uncertainty》
---
作者:
Fangzhou Xie
---
最新提交年份:
2019
---
英文摘要:
  I propose a novel method, the Wasserstein Index Generation model (WIG), to generate a public sentiment index automatically. To test the model`s effectiveness, an application to generate Economic Policy Uncertainty (EPU) index is showcased.
---
中文摘要:
我提出了一种新的方法,Wasserstein指数生成模型(WIG),用于自动生成公众情绪指数。为了检验模型的有效性,本文展示了一个生成经济政策不确定性(EPU)指数的应用。
---
分类信息:

一级分类:Economics        经济学
二级分类:General Economics        一般经济学
分类描述:General methodological, applied, and empirical contributions to economics.
对经济学的一般方法、应用和经验贡献。
--
一级分类:Computer Science        计算机科学
二级分类:Computation and Language        计算与语言
分类描述:Covers natural language processing. Roughly includes material in ACM Subject Class I.2.7. Note that work on artificial languages (programming languages, logics, formal systems) that does not explicitly address natural-language issues broadly construed (natural-language processing, computational linguistics, speech, text retrieval, etc.) is not appropriate for this area.
涵盖自然语言处理。大致包括ACM科目I.2.7类的材料。请注意,人工语言(编程语言、逻辑学、形式系统)的工作,如果没有明确地解决广义的自然语言问题(自然语言处理、计算语言学、语音、文本检索等),就不适合这个领域。
--
一级分类:Quantitative Finance        数量金融学
二级分类:Economics        经济学
分类描述:q-fin.EC is an alias for econ.GN. Economics, including micro and macro economics, international economics, theory of the firm, labor economics, and other economic topics outside finance
q-fin.ec是econ.gn的别名。经济学,包括微观和宏观经济学、国际经济学、企业理论、劳动经济学和其他金融以外的经济专题
--

---
PDF下载:
--> Wasserstein_Index_Generation_Model:_Automatic_Generation_of_Time-series_Index_wi.pdf (1.58 MB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Stein 自动生成 时间序列 WAS ERS

沙发
mingdashike22 在职认证  发表于 2022-6-25 07:47:46 |只看作者 |坛友微信交流群
Wasserstein指数生成模型:时间序列指数的自动生成及其在经济政策不确定性中的应用纽约大学芳州XIE经济系摘要提出了一种新的方法,即Wasserstein指数生成模型(WIG),用于自动生成公众情绪指数。为了测试模型的有效性,展示了生成经济政策不确定性(EPU)指数的应用。关键词:经济政策不确定性指数(EPU)、瓦瑟斯坦字典学习(WDL)、奇异值分解(SVD)、瓦瑟斯坦指数生成模型(WIG)JEL:C80、D801。引言Baker等人(2016年)创建了一种新的方法来衡量经济政策不确定性,即EPU指数,自其提出以来,该指数吸引了大量的关注,并得到了大量文献的支持。然而,它需要一个精心设计的框架和大量的手动工作来完成计算。最近,EPU生成过程的方法学取得了重大进展,例如区分不确定性的背景(Saltzman和Yung,2018),基于谷歌趋势生成指数(Castelnuovo和Tran,2017),以及修正西班牙的EPU(Ghirelli等人,2019)。我希望通过提出这种广义方法来扩展索引生成的范围,即WassersteinIndex生成模型(WIG)。电子邮箱:方舟。xie@nyu.edu(谢方舟)目前的通讯地址:546 Main St,Apt 437,New York,NY,10044。提交给《经济学快报》的预印本于2019年11月24日至11月27日接受。该模型(WIG)包含了几种广泛用于机器学习、单词嵌入(Mikolov et al.,2013)、Wasserstein DictionaryLearning(Schmitz et al.,2018,WDL)、Adam算法(Kingma&Ba,2015)和奇异值分解(SVD)的方法。这些方法背后的思想本质上是降维。

使用道具

藤椅
kedemingshi 在职认证  发表于 2022-6-25 07:47:50 |只看作者 |坛友微信交流群
事实上,WDL将数据集的维数降低到了它的基和相关权重,SVD可以再次缩小基的维数,以生成用于进一步分析的一维索引。我测试了WIGs在生成经济政策不确定性指数方面的有效性(Baker等人,2016年,EPU),并将结果与自动标记潜在Dirichlet分配(Bleet等人,2003年,LDA)方法生成的现有结果(AzquetaGavald\'on,2017年)进行比较。结果表明,该模型需要一个小得多的数据集才能获得更好的结果,而无需人工干预。因此,它还可以应用于从新闻标题快速高效地生成其他时间序列指数。最近,Shiller(2017)呼吁更多关注收集和分析经济利益文本数据。WIG模型通过促进机器学习算法从文本中生成时间序列情感指数来响应这一调用。方法和材料2.1。Wasserstein索引生成模型Schmitz et al.(2018)提出了一种无监督机器学习技术,将文档分类为主题,称为Wasserstein字典学习(WDL),其中文档和主题都被视为词汇的离散分布。这些离散分布可以简化为基数和相应的权重,以捕获数据集中的大部分信息,从而缩小其维数。考虑一个包含M个文档和N个单词的词汇的语料库。这些文件构成Y矩阵=ym公司∈ RN×M,其中M∈{1,…,M},和每个∈ ∑N.我们希望找到主题T∈ RN×K,相关权重∧∈ 换句话说,每个文档都是一个离散分布,它位于一个n维单纯形中。

使用道具

板凳
mingdashike22 在职认证  发表于 2022-6-25 07:47:52 |只看作者 |坛友微信交流群
我们的目标是根据以下主题来表示和重构这些文档:∈ RN×K,相关权重∧∈ RK×M,其中Kis是要聚集的主题总数。请注意,每个主题都是词汇的分布,每个权重表示其关联文档,作为基础主题的加权重心。我们还可以通过首先生成单词嵌入和使用度量函数成对测量单词距离,即Ci j=d(xi,xj),来获得总词汇CN×N的距离矩阵,其中x∈RN×D,D(·)是欧氏距离,D是嵌入深度。此外,我们可以计算文档和主题之间的距离,即Sinkhorn距离。它本质上是一个2-Wasserstein距离,添加了熵正则化项以确保更快的计算。定义1(伸角距离)。给定u,ν∈ P(Ohm), P(Ohm) 作为Borel概率测度Ohm, Ohm  RN和C作为成本矩阵,Sε(u,ν;C):=最小π∈π(u,ν)hπ,Ci+εh(π)s.t.∏(u,ν):=nπ∈ RN×N+,π1N=u,π>N=νo,(1),其中H(π):=Hπ,log(π)i和ε是辛霍恩重量。给定单个文档的距离函数,我们可以为训练过程设置lossfunction:minR,AMXm=1Lym,ySε(T(R),λm(A);C、 ε),给定tnk(R):=ernkpnnk,λnk(A):=eakmPkeakm。(2) 在等式2中,ySε(·)是给定主题T和权重λ的重建文档,在Sinkhorn距离下(等式1)。此外,通过损失函数中的列式Softmaxoperation,可以自动完成方程1中T和∧为分布的约束。该过程在算法1中制定,我们首先通过从标准正态分布中随机抽取样本来初始化矩阵R和A,并对其取Softmax以获得T和∧。TL(·;ε)和∧L(·;ε)是从损失函数中获得的关于主题和权重∧的梯度。

使用道具

报纸
mingdashike22 在职认证  发表于 2022-6-25 07:47:56 |只看作者 |坛友微信交流群
然后,参数R和A由Adam优化器利用手头的梯度和学习率ρ进行优化。Softmax操作的操作增益确保约束为单元单纯形(如等式2所示)。Saltzman&Yung(2018)提出区分“不确定性”在正面和负面语境中的使用。事实上,单词嵌入方法,例如Word2Vec(Mikolov et al.,2013),可以做得更多。他们不仅考虑给定单词的正面和负面上下文,还考虑所有单词的所有可能上下文。可以参考Cuturi(2013)的Sinkhorn算法和Villani(2003)的最佳运输理论结果。算法1 Wasserstein索引生成输入:单词分布矩阵Y.批量s.Sinkhorn权重ε。Adam学习率ρ。输出:主题T,权重∧。1: 初始化R,A~ N(0,1)。2: T型← S o f tmax(R)∧← S o f tmax(A)。3:对于每批文件,do4:R← R- 亚当(TL(·;ε);ρ) ,A← A.- 亚当(∧L(·;ε);ρ).5: T型← S o f tmax(R)∧← S o f tmax(A)。6: end forNext,我们生成时间序列索引。通过促进单分量奇异值分解(SVD),我们可以将词汇的维数从TN×KtobT1×K缩小。接下来,我们将t乘以∧K×mt得到Ind1×M,这是SVD给出的文档评分。将这些分数按月累加,并对指数进行缩放,得到平均值100和单位标准差,我们就得到了最终指数。2.2. 数据和计算我从《纽约时报》收集数据,包括1月份的新闻标题。1980年1月1日至2018年12月31日。

使用道具

地板
nandehutu2022 在职认证  发表于 2022-6-25 07:47:59 |只看作者 |坛友微信交流群
语料库包含11934份文档和8802个独特标记。接下来,我对语料库进行预处理,以进行进一步的训练,例如,通过删除特殊符号、合并实体和对每个标记进行柠檬化。在这个线性化语料库中,我帮助Word2Vec为整个词典生成嵌入向量,从而能够计算单词的任意对的距离矩阵C。为了计算梯度(如算法1所示),我选择自动微分库PyTorch(Paszke et al.,2017),对损失函数进行微分,然后使用Adam算法更新参数(Kingma&Ba,2015)。然而,图3中给出的地块为1985年1月1日至2016年8月31日,以保持与Azqueta Gavald'on(2017)相同的范围。引理化是指根据上下文将每个单词转换成词典形式的过程。为了确定几个重要的超参数,我使用了机器学习技术中常见的交叉验证ASI。三分之一的文档用于测试数据,其余的用于培训过程:嵌入深度d=10,Sinkhorn权重ε=0.1,批量s=64,主题K=4,Adamlearning rateρ=0.005。一旦参数设置为其最佳值,整个数据集将用于训练,从而获得主题T及其关联权重∧。3、结果图1:原始EPU(Baker等人,2016年)、带有LDA的EPU(Azqueta Gavald\'on,2017年)和带有WIG的EPU(Sec)。2.1.如图1所示,WIG模型生成的EPU索引ClearyResemble原始EPU。此外,WIG比LDA更能检测到情绪波动,尤其是在重大地缘政治事件期间,如“海湾战争”、“布什选举”、“9·11”、“海湾战争II”等。

使用道具

7
可人4 在职认证  发表于 2022-6-25 07:48:02 |只看作者 |坛友微信交流群
为了进行比较,我分别计算了原始EPU与Wig和LDA生成的EPU之间的累积差异(图A.2,附录A)。结果表明,WIGmodel的性能略优于LDA。为了进一步检验这一点,我将HodrickPrescot过滤器应用于三个EPUIndice,并计算原始序列、周期成分和趋势成分之间的皮尔逊和斯皮尔曼相关系数,如附录A A A.2所示。这些测试还表明,在这三十年期间,WIG生成的序列比LDA更好地捕捉了EPU的行为。此外,与LDA相比,该方法只需要较小的数据集。本文中使用的数据集只包含新闻标题,与LDA方法相比,字典的维数只是很小的一部分。WIG模型只需半小时的计算时间,仍能产生类似的结果。此外,它还扩展了发电过程中的自动化范围。以前,LDA被认为是一种自动标记方法,但它仍然需要人类对主题术语的解释来生成时间序列索引。通过引入SVD,我们可以消除这一需求,并以黑盒方法自动生成索引。然而,它绝不会失去其可解释性。如果您希望查看WDL的结果,关键术语仍然可以检索。最后,鉴于其优势,WIG模型不仅限于生成EPU,而且可能用于任何关于某个主题的数据集,该主题的timeseries情绪指数具有经济利益。唯一的要求是输入语料库与该主题相关,但这很容易满足。结论SI提出了一种利用无监督机器学习技术生成经济利益时间序列指数的新方法。

使用道具

8
kedemingshi 在职认证  发表于 2022-6-25 07:48:05 |只看作者 |坛友微信交流群
这可以作为一种黑盒方法应用,只需要很小的数据集,并且适用于任何时间序列索引的生成。这种方法结合了机器学习研究中更深入的方法,包括单词嵌入、Wasserstein字典学习和广泛使用的Adam算法。感谢Alfred Galichon启动本项目,并感谢Andr’esAzqueta Gavald’on善意地提供EPU数据。我还想指出,HP过滤器应用了每月加权参数129600。数据集的比较见附录A表A.1。我感谢ACM经济与计算会议(EC 19)第三届社会福利机制设计研讨会(MD4SG’19)的评委和联邦计算研究会议(FCRC 2019)的与会者所作的有益评论和讨论。我还感谢匿名裁判的有益建议。这项研究没有从公共、商业或非营利部门的资助机构获得任何特定资助。参考Azqueta Gavald\'on,A.(2017)。利用无监督机器学习开发基于新闻的经济政策不确定性指数。《经济学快报》,15847–50。内政部:10.1016/j.econlet。2017.06.032.Baker,S.R.,Bloom,N.,&Davis,S.J.(2016)。衡量经济政策的不确定性。《经济学季刊》,1311593-1636。内政部:10.1093/qje/qjw024。Blei,D.M.、Ng,A.Y.,&Jordan,M.I.(2003)。潜在Dirichlet分配。机器学习研究杂志,3993–1022。Castelnuovo,E.,&Tran,T.D.(2017)。谷歌搜索!美国和澳大利亚的谷歌趋势确定性指数。《经济学快报》,161149–153。内政部:10.1016/j.econlet。2017.09.032.Cuturi,M.(2013)。伸角距离:最佳传输的光速计算。在C.J.C.Burges、L.Bottou、M.Welling、Z.Ghahramani和K。

使用道具

9
大多数88 在职认证  发表于 2022-6-25 07:48:10 |只看作者 |坛友微信交流群
Q、 Weinberger(编辑),《神经信息处理系统的进展》26(第2292-2300页)。Curran Associates,股份有限公司.Ghirelli,C.,P'erez,J.J.,和Urtasun,A.(2019年)。西班牙新的经济政策不确定性指数。《经济学快报》,182,64–67。内政部:10.1016/j.econlet。2019.05.021.Kingma,D.P.,&Ba,J.(2015)。Adam:一种随机优化方法。国际学习表征会议(ICLR)。Mikolov,T.,Chen,K.,Corrado,G.,和Dean,J.(2013)。向量空间中单词表示的有效估计。Paszke,A.、Gross,S.、Chintala,S.、Chanan,G.、Yang,E.、DeVito,Z.、Lin,Z.、Desmaison,A.、Antiga,L.、Lerr,A.(2017)。自动区分输入到Torch。摘自NIPS-W.Saltzman,B.,&Yung,J.(2018)。识别不同类型不确定性的机器学习方法。《经济学快报》,171,58–62。内政部:10.1016/j.econlet。2018.07.003.Schmitz,M.A.、Heitz,M.、Bonneel,N.、Ngol\'e,F.、Coeurjolly,D.、Cuturi,M.、Peyr\'e,G.、Starck,J.-L.(2018)。瓦瑟斯坦字典学习:基于最优传输的无监督非线性字典学习。《暹罗影像科学杂志》,11643-678。内政部:10.1137/17M1140431。Shiller,R.J.(2017)。叙事经济学。《美国经济评论》,107967–1004。内政部:10.1257/aer。107.4.967.Villani,C.(2003年)。数学研究生课程最佳运输卷58中的主题。美国数学学会。内政部:10.1090/gsm/058。附录A.补充材料名称方法类型编号条目编号令牌TimeEPU手册条款12009不适用~ 两年期SEPU LDA半自动文章40454 1000000+数小时PU假发自动头条11934 8802~ 15表A.1:三种方法的数据集比较。

使用道具

10
nandehutu2022 在职认证  发表于 2022-6-25 07:48:13 |只看作者 |坛友微信交流群
WIG需要一个小得多的数据集,运行速度更快。图A.2:LDA和WIG给出的原始EPU与EPU之间的累积差异。相关原始序列趋势周期PearsonEPU LDA 0.7747 0.8679 0.7726EPU WIG 0.8023 0.9093 0.7874SpearmanEPU LDA 0.7542 0.7666 0.7027EPU WIG 0.7749 0.8631 0.7158表A.2:使用Pearson和Spearman检验,原始EPU与WIG和LDA分别生成的EPU之间的相关性。

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-6-3 16:42