楼主: kedemingshi
1159 15

[量化金融] 用谷歌趋势预测金融市场,而不是那么随机 [推广有奖]

  • 0关注
  • 4粉丝

会员

学术权威

78%

还不是VIP/贵宾

-

威望
10
论坛币
15 个
通用积分
89.2735
学术水平
0 点
热心指数
8 点
信用等级
0 点
经验
24665 点
帖子
4127
精华
0
在线时间
0 小时
注册时间
2022-2-24
最后登录
2022-4-15

楼主
kedemingshi 在职认证  发表于 2022-4-28 17:54:53 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Predicting financial markets with Google Trends and not so random
  keywords》
---
作者:
Damien Challet, Ahmed Bel Hadj Ayed
---
最新提交年份:
2014
---
英文摘要:
  We check the claims that data from Google Trends contain enough data to predict future financial index returns. We first discuss the many subtle (and less subtle) biases that may affect the backtest of a trading strategy, particularly when based on such data. Expectedly, the choice of keywords is crucial: by using an industry-grade backtesting system, we verify that random finance-related keywords do not to contain more exploitable predictive information than random keywords related to illnesses, classic cars and arcade games. We however show that other keywords applied on suitable assets yield robustly profitable strategies, thereby confirming the intuition of Preis et al. (2013)
---
中文摘要:
我们检查了谷歌趋势数据包含足够数据预测未来金融指数回报的说法。我们首先讨论可能影响交易策略回溯测试的许多微妙(以及不那么微妙)的偏见,尤其是基于此类数据时。诚然,关键词的选择至关重要:通过使用行业级的回溯测试系统,我们验证了与金融相关的随机关键词不会比与疾病、经典汽车和街机游戏相关的随机关键词包含更多可利用的预测信息。然而,我们发现,应用在合适资产上的其他关键词产生了强劲的盈利策略,从而证实了Preis等人(2013)的直觉
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:Statistical Finance        统计金融
分类描述:Statistical, econometric and econophysics analyses with applications to financial markets and economic data
统计、计量经济学和经济物理学分析及其在金融市场和经济数据中的应用
--

---
PDF下载:
--> Predicting_financial_markets_with_Google_Trends_and_not_so_random_keywords.pdf (504.36 KB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:谷歌趋势 趋势预测 金融市场 Quantitative Econophysics

沙发
何人来此 在职认证  发表于 2022-4-28 17:54:58
用谷歌趋势预测金融市场,而不是随机关键词Damien Challet*金融量化委员会主席、数学实验室辅助系统贴花、巴黎中央大学、维涅斯大学院、92295法国查特奈-马拉布里和冰岛首都南非、科学园C、EPFL、1015洛桑、瑞士中央大学+金融量化委员会主席、数学实验室辅助系统贴花、巴黎中央大学、,Grande Voie des Vignes,92295 Chátenay Malabry,FranceWe讨论了来自谷歌趋势的数据包含足够信息预测未来金融指数回报的说法。我们首先回顾了可能影响交易策略回溯测试的许多微妙(以及不那么微妙)的偏见,尤其是基于此类数据时。诚然,关键词的选择至关重要:通过使用行业级回溯测试系统,我们验证了与疾病、经典汽车和街机游戏相关的随机关键词相比,随机融资关键词不包含更多可利用的预测信息。然而,其他适用于适配资产的关键词产生了可靠的可支持策略,从而证实了[24]的直觉。I.介绍由于来自各种网站的数据,以前所未有的频率和准确性记录社会脉搏成为可能。特别是,来自谷歌趋势(GT)的数据报告了给定关键字的历史搜索量兴趣(SVI),并被用于预测当前[7](在[5]中称为即时广播),也就是说,改进了对正在创建的数量的估计,但其数据将在给定时期结束时被显示。其中包括失业率、旅行和消费者信心指数[7]、公司季度收入(来自对其主要产品的搜索)[8]、GDP估算[5]和流感疫情[15]。资产价格由交易员决定。

藤椅
能者818 在职认证  发表于 2022-4-28 17:55:02
一些交易者在各种各样的网站上寻找、分享并最终创造信息。因此,资产价格应该与网站用户的行为有关。这种三段论已在[9]中进行了详细研究:罗素3000指数各组成部分的价格回报在许多因素(包括GT数据)上进行了回归,这些因素在所有3000项资产上进行了平均。有趣的是,作者发现SVI变化与个人投资者交易活动之间存在显著相关性。此外,平均而言,SVI的变化与研究期间(即样本中)几周内的价格回报呈负相关。需要对许多股票进行平均化是因为价格回报和GT数据中存在大量噪音,而且在搜索给定关键字的人中,只有一小部分人会在以后进行交易。[24]的说法更为有力:它指出,道琼斯工业平均指数的未来回报率与一些关键字相关的SVI惊喜负相关,因此GT数据包含足够的数据来预测财务状况。一些微妙(但不是那么微妙)的偏见使他们的结论无法尽可能有力。使用稳健的回溯测试系统,我们能够确认GT数据可用于预测未来资产价格回报,从而将其结论置于更加稳健的基础上。二、数据和战略原始资产价格由适当的随机游动很好地描述,不包含任何可预测性。然而,如果能够仅使用资产回报(参见[21]了解基于资产互相关的条件)或外部信息源来确定一组条件,则这些条件可能是可预测的。Google Trends为给定关键字的搜索次数提供了标准化的时间序列,每周的时间分辨率为[28],用vt表示。

板凳
可人4 在职认证  发表于 2022-4-28 17:55:06
[24]提出以下交易策略:将之前的基线搜索兴趣定义为“vt=TPtt=t”-Tvt,SVI惊喜是δt=vt- “vt-1,且在t+1周内承担相关资产的头寸为st+1=-符号δt.没有什么可以阻止*电子地址:达米恩。challet@ecp.fr; 网址:http://fiquant.mas.ecp.fr/challet+电子地址:艾哈迈德。belhadjayed@ecp.frto考虑反向策略,但其他作者已经注意到,在接下来的一到两周内,SVI变化的平均价格逆转[9,11]。我们没有试图预测道琼斯工业平均指数,而是使用SPY的时间序列,它反映了标准普尔500指数。这提供了一种弱形式的交叉验证,两个时间序列高度相关但不完全相同。出于同样的原因,我们计算周一至周五收盘价的回报,而不是周一至周一的回报,这使得指数回报与GT数据保持同步(从周日到周六)。三、 方法论上的偏见很难预测,尤其是对未来的预测。但在过去预测未来就更难了。这尤其适用于交易策略的回溯测试,即计算其过去的虚拟收益。它容易产生多种偏见,这些偏见可能会显著改变其可靠性,通常是积极的[14,20]。其中大多数是由于令人遗憾的,而且可能是不可避免的趋势,未来会悄悄地进入过去。工具偏见这是最容易被忽视的偏见。这在一定程度上解释了为什么回溯测试在80年代和90年代往往表现得非常好,但自2003年以来就没那么令人印象深刻了,即使考虑到对总交易成本的现实估计。用现代工具在旧数据中寻找可预测性确实比它应该的容易。想想在计算机时代之前的数据上应用cpu或内存密集型计算方法。

报纸
nandehutu2022 在职认证  发表于 2022-4-28 17:55:09
计算能力增加的最著名定律是以戈登·摩尔命名的,他注意到集成电路中晶体管的最佳数量随时间呈指数增长(时间是τ\'2年的两倍)[23]。但到目前为止,计算的其他重要方面已经随着时间呈指数增长,例如单位能量的计算量(库米定律,τ\'1.5年[18])或存储价格(克莱德定律,τ\'2年[19])。值得注意的是,这些技术进步反映在金融数据中最小反应时间尺度的演变上[16]。此外,最近在大数据集上召集和释放海量云计算能力的能力改变了金融数据分析的方式。很难解释这种偏见。出于教育目的,人们可以通过qemu[2]等虚拟机来熟悉过去的计算机能力,这些虚拟机可以模拟在给定时间、给定金额的计算机的速度和内存。同样的偏见也延伸到统计学和机器学习文献的进步,甚至延伸到人们理解市场动态的方式上:使用特定的方法可能会在其出版前产生比一两年后更好的结果。人们可以将这一论点延伸到在任何给定时间对金融数据进行测试的方法的历史性,因为它们遵循时尚。无论如何,这是回溯测试的一个方面,值得进行更系统的研究。B.数据偏差数据有两种偏差。首先,当对依赖于外部信号的策略进行回溯测试时,必须首先询问自己该信号是否在其包含的日期可用。GT数据在2008年8月6日之前不可靠,每几个月随机更新一次[27]。

地板
mingdashike22 在职认证  发表于 2022-4-28 17:55:13
之前的回溯测试包含了科学研究中不可避免的一部分,但仍然有助于校准策略。第二个问题是,由于几个原因,数据被修改了。原始财务数据通常包含严重错误(错误或缺失的价格、数量等),但这是过去必须使用的数据。之后下载的历史数据通常会被部分清除。[10] 提供关于高频数据清理的好建议。对宏观经济数据的修正也很常见。例如,国内生产总值(GDP)估计值在达到定义值之前要进行多次修订(关于修订的可预测性,见例[13])。更反常的是,数据修订包括格式更改:GT返回的数据类型在2012年底进行了调整。它过去是由实数组成的,其标准化并不完全透明;这也给这些数字带来了不确定性。相当一致的是,数字本身会在给定的错误时间内发生变化,人们会下载相同关键字的数据。如今,GT返回0到100之间的整数,100是时间序列的最大值,0是其最小值;因此,四舍五入过程隐藏了GT数据的微小变化;误差条不再可用,但可以公平地假设±1的波动应被视为无关。

7
mingdashike22 在职认证  发表于 2022-4-28 17:55:17
顺便说一句,将价格的最后小数点四舍五入的过程有时会引入虚假的可预测性,这是众所周知的外汇数据[17]。关键词t-stat关键词t-stat关键词t-stat关键词t-stat关键词t-stat关键词t-stat多发性硬化症-2.1雪佛兰黑斑羚-1.9月球车-2.1劳工-1.5肌肉痉挛-1.9凯旋2000-1.9泡沫-2.0住房-1.2胚胎综合症-1.8捷豹E型-1.7狂暴-1.7成功-1.2洛佩西亚2 Iso格里福1.7街头斗士2债券1.9痛风2阿尔法罗密欧蜘蛛1.7水晶城堡2.4纳斯达克2.0骨癌2.4Shelby GT 500 2.4 Moon Patrol 2.7 investment 2.0表一:使用谷歌趋势时间序列预测从周一收盘到周五收盘价格的简单策略表现的关键字和相关t统计数据。修正后的数据也与可投资领域有关。免费提供的历史数据不包括已死亡的股票。随着资产以相当稳定的速度来来去去去,这是一个真正的问题:今天的可投资资产组合与上周不同。因此,指数的组成部分也会发生变化。分析今天的索引组件在过去的行为是强制向其提供未来信息的常见方式,因此有一个正式名称:幸存者(船)偏见。众所周知,这是一个真正的问题,它严重影响了对平均绩效的衡量。例如[14]表明,在精心选择的时间段内,在90%的长单投资组合案例中,它会导致回溯测试性能的高估。

8
mingdashike22 在职认证  发表于 2022-4-28 17:55:21
这是一致的,因为从定义上讲,幸存下来的公司做得很好。早期的担忧是关于共同基金的表现,考虑到基金的存活率[3,12],已经设计了各种方法来估计这种偏见的强度。最后,必须提到的是,对不可交易指数(如纳斯达克综合指数)的回溯测试策略并不是一个明智的想法,因为甚至没有人能试图消除它们的可预测性。C.关键词的选择当使用GT进行预测时,选择哪些关键词当然是一个关键因素。人们似乎自然而然地认为,与金融相关的关键词更有可能与金融指数相关,因此更具预测性。因此,[24]从《金融时报》(Financial Times,一家金融期刊)上建立一个关键词列表,旨在对关键词集进行偏倚。但这种偏见需要用一组与金融无关的随机关键词来控制,而这些关键词被忽略了。想象一下,在示例窗口中,与财务相关的某个词是最相关的。我们的大脑天生就想找到一个故事来证明这种明显的良好表现。统计学并非如此:为了测试交易策略的平均表现是否不同于零,我们使用了T测试,其结果将在下文中称为T-stat,并定义为z=0√N其中u表示策略回报的平均值,σ表示其标准偏差,N表示回报数;对于N>20,z看起来非常像一个平均值和单位方差为零的高斯变量。[24]明智地计算t-stats:最好的关键字债务的t-stats为2.3。第二好的关键字是color,其t-stat为2.2。这两个数字在统计上无法区分,但债务在报纸和媒体上都有评论;尽管颜色具有同等的“预测”能力,但颜色并非如此。现在让我们来看看在回溯测试期(2004年)开始之前已知的随机关键字。

9
能者818 在职认证  发表于 2022-4-28 17:55:24
我们收集了200种常见疾病/病症/疾病、100辆经典汽车和100款有史以来最好的街机游戏(见附录A)的数据,并应用了上述策略,k=10而不是k=5。表一列出了每一组关键词的最佳3个正面和负面表现的统计数据(可以通过颠倒策略处方来获得正面效果)。我们让读者思考,如果骨癌或月球巡逻与财务更相关,他会得出什么结论。该表还说明了[24]中报告的最佳t-stats与人们偶然获得的t-stats没有显著差异:此处报告的t-stats主要相当于高斯变量,人们预计其绝对值的5%会大于1.95,这解释了为什么颜色等关键字也具有良好的t-stat。最后,债务并不是从周一到周五用于间谍的三个最佳关键词之一:它的表现平淡无奇且不稳定,如下所示。然而,他们报告的财务相关术语的t-stats偏向正值,这与[9,11]中观察到的反转以及表1的结果是一致的。这可能表明,所提出的策略能够提取GT数据中可能包含的一些弱信息。D.编码错误这种偏差的其他解释可能是编码错误(事实并非如此)。如果没有人错误地将未来数据用作程序中的当前数据,例如错误地转换时间序列,则时间序列预测很容易;我们在附录中给出了使用的代码。避免这个问题的一个非常简单有效的方法是用随机时间序列替换所有可选的价格回报和外部数据(此处为GT)。如果回溯测试持续提供积极的性能,那么在某些地方就存在缺陷。E

10
何人来此 在职认证  发表于 2022-4-28 17:55:27
[24]的目的可能不是为我们提供一个有利的交易策略,而是试图说明集体搜索和未来财务回报之间的关系。然而,令人惊讶的是,没有考虑进样期和出样期(这在文献中令人惊讶但越来越常见)。因此,我们无法评估拟议策略的交易绩效,这只能通过其样本外的稳健性和一致性来判断,或者同等地,通过该策略的信息内容和可行性来判断。我们请读者参考[20]中关于样本期内和样本期外重要性的有趣描述。F.来自未来的关键词[24]使用2004年8月至2011年6月英国《金融时报》版本中的关键词,determinedex post。这意味着2011年版本的关键词用于回溯测试返回,例如2004年。因此,这组关键字将有关未来的信息注入过去。一个更可靠的解决方案是在绩效评估进行时或之前使用《金融时报》的编辑。这就是为什么我们考虑2004年之前已知的关键字集。G.参数调整/数据监听每一组参数,包括关键字,定义一个或多个交易策略。试图优化参数或关键字被称为数据窥探,这必然会导致不满意的样本外性能。当呈现backtest结果时,读者通常不可能知道结果是否来自数据窥探。一个简单的补救方法是,在测试策略时不要接触一小部分历史数据,然后使用它来评估性能的一致性(交叉验证)[14]。更复杂的补救措施包括怀特的现实检查[26](参见E.g.[25]了解该方法的应用)。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-29 11:10