楼主: 能者818
645 16

[量化金融] 谷歌趋势数据是否比价格回报更具可预测性? [推广有奖]

  • 0关注
  • 6粉丝

会员

学术权威

78%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
35.3298
学术水平
0 点
热心指数
1 点
信用等级
0 点
经验
24771 点
帖子
4140
精华
0
在线时间
0 小时
注册时间
2022-2-24
最后登录
2022-4-15

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Do Google Trend data contain more predictability than price returns?》
---
作者:
Damien Challet and Ahmed Bel Hadj Ayed
---
最新提交年份:
2014
---
英文摘要:
  Using non-linear machine learning methods and a proper backtest procedure, we critically examine the claim that Google Trends can predict future price returns. We first review the many potential biases that may influence backtests with this kind of data positively, the choice of keywords being by far the greatest culprit. We then argue that the real question is whether such data contain more predictability than price returns themselves: our backtest yields a performance of about 17bps per week which only weakly depends on the kind of data on which predictors are based, i.e. either past price returns or Google Trends data, or both.
---
中文摘要:
使用非线性机器学习方法和适当的回溯测试程序,我们批判性地检验了谷歌趋势可以预测未来价格回报的说法。我们首先回顾了许多可能会对此类数据的回溯测试产生积极影响的潜在偏差,到目前为止,关键词的选择是最大的罪魁祸首。然后,我们认为真正的问题是,这些数据是否比价格回报本身更具可预测性:我们的回溯测试每周产生约17个基点的表现,这仅弱地取决于预测因素所基于的数据类型,即过去的价格回报或谷歌趋势数据,或两者兼而有之。
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:Trading and Market Microstructure        交易与市场微观结构
分类描述:Market microstructure, liquidity, exchange and auction design, automated trading, agent-based modeling and market-making
市场微观结构,流动性,交易和拍卖设计,自动化交易,基于代理的建模和做市
--
一级分类:Physics        物理学
二级分类:Physics and Society        物理学与社会
分类描述:Structure, dynamics and collective behavior of societies and groups (human or otherwise). Quantitative analysis of social networks and other complex networks. Physics and engineering of infrastructure and systems of broad societal impact (e.g., energy grids, transportation networks).
社会和团体(人类或其他)的结构、动态和集体行为。社会网络和其他复杂网络的定量分析。具有广泛社会影响的基础设施和系统(如能源网、运输网络)的物理和工程。
--

---
PDF下载:
-->
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:谷歌趋势 预测性 Quantitative QUANTITATIV Transportat

沙发
kedemingshi 在职认证  发表于 2022-5-11 15:43:25 |只看作者 |坛友微信交流群
谷歌趋势数据是否比价格回报更具可预测性?Damien Challet1,2和Ahmed Bel Hadj AyedChaire金融量化研究中心为巴黎中央大学和维涅学院的数学系统贴花,92295 Ch^atenay Malabry,Francencellade Capital SAEPFL创新园,建造C1015洛桑,瑞士,采用非线性机器学习方法和适当的回溯测试程序,我们严格审查了谷歌趋势可以预测未来价格回报的说法。我们回顾了可能会对此类数据的回溯测试产生积极影响的许多潜在偏见,到目前为止,关键词的选择是最大的罪魁祸首。然后,我们认为真正的问题是,这些数据是否比价格回报本身更具可预测性:我们的回溯测试每周产生约17个基点的表现,这只在很大程度上取决于预测因素所基于的数据类型,即过去的价格回报或谷歌趋势数据,或两者兼而有之。1简介由于来自在线服务的大量数据,以前所未有的频率和焦点把握社会脉搏已成为可能。因此,这些数据已被用于预测当前[Choi and Varian,2012](Castle et al[2009]称为“实时预测”),也就是说,用于改进对正在创建但其数据将在给定时期结束时显示的数量的估计。后者包括失业、旅行和消费者信心数据[Choi and Varian,2012]、公司季度收入(来自对其主要产品的搜索)[Da等人,2011]、GDP估计[Castleet等人,2009]和流感疫情[Ginsberg等人,2008]。出于显而易见的原因,资产价格的情况尤其令人感兴趣。看起来很自然,实际交易过的人的在线活动在某种程度上与同期的价格变化有关。

使用道具

藤椅
大多数88 在职认证  发表于 2022-5-11 15:43:28 |只看作者 |坛友微信交流群
然而,用这些数据预测资产价格的变化是一项困难得多的任务。这一想法绝不是最近基于谷歌趋势数据2(见Antweiler和Frank[2004])对一种投机策略进行的回溯测试。这些文献调查了专门讨论金融[Antweiler and Frank,2004年,Rechenthinet等人,2013年]、报纸[Gerow and Keane,2011年]、推文[Bollen等人,2011年]、博客[Gilbert and Karahalios,2010年]、或其中一部分[Mao等人,2011年]的交易者情绪。然而,确定交易者的情绪需要分析帖子的内容,并将其分为正面或负面。一种更简单的方法是使用Google Trends(GT),其中报告所选关键字的历史搜索量兴趣(SVI),并将SVI与兴趣交易量的财务数量联系起来,例如价格波动或价格回报[Da等人,2011年,Gerow and Keane,2011年,Wang,2012年,Bordino等人,2012年,武田和Wakao,2013年,Preis等人,2013年,Kristoufek,2013年]。研究结果可以总结如下:使用此类数据预测成交量或波动性相对容易,但与未来价格回报的相关性要弱得多。顺便说一句,这符合金融从业者的日常经验,他们使用价格回报而不是花哨的大数据。在这里,我们讨论了基于GT数据对交易策略进行回溯测试所需的每一步中可能出现的错误。

使用道具

板凳
能者818 在职认证  发表于 2022-5-11 15:43:31 |只看作者 |坛友微信交流群
然后,我们使用基于非线性机器学习方法的行业级回溯测试系统来展示SVI和历史价格回报之间可利用信息内容的近似等价性。因此,我们得出结论,价格回报和GT包含大致相同数量的预测信息,至少在我们使用的方法和挑战社区做得更好的情况下是如此。2.对基于谷歌趋势的投机策略进行回溯测试相当一部分学者认为,定价回报是不可预测的。无条件的原始资产价格当然可以通过不包含任何可预测性的适当随机游走来很好地描述。作为实践者,我们的经验表明,可预测性最好是有条件地找到的,而线性回归并不是在这种情况下发现非随机性的最有效工具。基本上没有线性的价格-收益自相关;然而,在样本中发现,SVI的变化与未来价格回报之间存在一些显著的互相关。人们可能会得出这样的结论:GT数据确实包含比价格回报更多的可利用信息。我们认为,使用这些方法会妨碍人们提出正确的问题,并正确评估任何一种数据的可预测性内容。我们建议首先建立一个非线性预测算法,然后将其与过去的收益、GT数据或两者一起提供,并最终比较每种情况的各自表现。在报告此类比较之前,我们回顾了与使用GT数据进行预测相关的一些危险。俗话说,预测很难,尤其是对未来的预测。但是,对过去的未来进行预测就更难了,因为它往往看起来比应该的容易。

使用道具

报纸
kedemingshi 在职认证  发表于 2022-5-11 15:43:34 |只看作者 |坛友微信交流群
它容易受到多种偏见的影响,这些偏见可能会显著改变其可靠性,通常是积极的[Freeman,2基于谷歌趋势数据31992,Leinweber,2007年,对一种推测性策略进行回溯测试]。其中大多数都是由于令人遗憾的和可能不可避免的趋势,即未来会慢慢变成过去。未来的任何小漏洞都可能使一个无偏见的随机策略成为一个有前途的候选或投机性交易。现在,让我们仔细看看在试图找到GT数据的可预测性时,这是如何发生的。程序如下:1。选择一套交易策略2。选择backtest3的时间段。选择一组资产4。选择一组关键字5。下载GT数据6。选择返回的时间刻度7。选择参数8。使用仅包含GT数据、仅包含价格回报以及两者的预测值计算性能。本文的其余部分将专门讨论上述每个步骤。2.1交易策略必须先做这件事,否则你会对各种策略进行回溯测试,直到你无意中发现好看的策略。学术论文通常测试并报告SVI增加与未来价格回报之间的固定关系。例如,Preis等人[2013]假设SVI相对于其移动平均线的增加应伴随负回报。Kristoufek[2013]也提出了同样的策略,他建议建立一个资产权重随着其各自SVI的函数而降低的投资组合。这一切都不令人满意。事实上,没有任何理由说明给定的关系在整个时期内(它们没有,见下文)以及所有股票应该保持什么样的状态。例如,很容易找到对SVI变化有一致相反反应的两项资产。出于上述原因,线性策略已经过时。

使用道具

地板
mingdashike22 在职认证  发表于 2022-5-11 15:43:36 |只看作者 |坛友微信交流群
然后一个问题就是选择一系列不会超过输入的策略:可能有许多关键字SVI及其功能作为输入。因此,我们选择使用集成学习作为一种工具,来关联不同类型的信息,并尽可能避免样本中的过度匹配。然而,请注意,这只是我们其中一人实施的回溯测试系统中股票选择和投资决策的一个层面。2回溯测试基于谷歌趋势数据的投机策略42.2回溯测试周期学术论文在2008年停止或开始调查的倾向,即使是2011年撰写的论文[Gerow and Keane,2011],也很有趣。Kristoufek[2013]使用了整个可用长度,清楚地表明SVI和未来回报之间的关系在2008年发生了巨大变化。这意味着必须通过滑入和滑出样本窗口来正确地回溯测试策略[Leinweber,2007]。计算机能力曾经是一个问题,但非常廉价的云计算能力的出现解决了这个问题。2.3资产选择大多数论文对预测一组资产的未来价格回报感兴趣,例如某些指数的组成部分(例如罗素3000[Da等人,2011],道琼斯工业平均指数[Kristoufek,2013]的子集),而一些论文则关注预测指数本身[Preis等人,2013]。我们在这里关注标准普尔100指数的组成部分。一个人应该处理多个资产的原因在于中心极限定理的力量:假设一个人在每个资产价格上平均有一个很小的优势,这个优势将比一个人在相同的优势下投资一个资产(如指数)明显得多。2.4关键词的选择这是一个关键因素,也是最有可能导致过度匹配的原因,因为一个人可能会在不经意间将未来的信息引入过去。

使用道具

7
可人4 在职认证  发表于 2022-5-11 15:43:39 |只看作者 |坛友微信交流群
令人沮丧的是,许多论文使用了从未来到回溯测试策略的关键词,例如Preis等人[2013],Choi and Varian[2012],Janetzko[2014]。一个严重的错误是,想想最近可能与之相关的关键词,例如债务、AIG、危机等,而不是试图去想那些相关的关键词。但一个更微妙的错误是常见的:获取一组足够模糊且与金融(例如金融)永久相关的关键词,并使用谷歌集合查找相关关键词[Preis等人,2013年,Choi和Varian,2012年]。该服务建议一组与给定的关键字相关的关键字,并可在电子表格中从文档中访问。谷歌。通用域名格式。我们输入了一个关键词finance,并要求输入相关关键词。我们没有像Preis等人[2013]那样获得任何花哨的关键词(餐厅、颜色、癌症等),但确实找到了著名的关键词债务等。问题是,人们无法在2014年问谷歌Sets,2004年的金融与什么有关。因此,Google Sets的输出将来自未来的信息引入回溯测试。因为,据我们所知,Google Sets不提供回溯机器,所以它绝对不能用于增强一个人用于回溯测试策略的一组关键字。这表明关键词的选择是一个关键因素。此外,在整个期间,谷歌的使用并不是固定不变的,这可能会在回溯测试结果中引入显著的偏差。纠正它们至少需要一个零假设,即。

使用道具

8
能者818 在职认证  发表于 2022-5-11 15:43:42 |只看作者 |坛友微信交流群
之前已知的一组空关键词2基于谷歌趋势数据回溯测试一种推测策略5疾病t-Statt多发性硬化症-2.1肌肉痉挛-1.9经前综合征-1.8脱发2.2脱发2.2骨癌2.4经典汽车t-statChevrolet Impala-1.9凯旋2000-1.9捷豹E型-1.7Iso Grifo 1.7Alfa Romeo蜘蛛1.7Shelby GT 500 2.4经典街机游戏t-statMoon Buggy-2.1气泡-2.0暴乱-1.7街头斗士2.3水晶城堡2.4月巡逻2.7 Preis等人[2013]t-tstatlabor-1.5住房-1.2成功-1.2债券1.9纳斯达克2.0投资2.0塔布。1:简单策略绩效的关键词和相关t-stats使用谷歌趋势时间序列预测从周一收盘到周五收盘的价格。交易成本设置为回溯测试期开始时的2bps。这就是为什么我们收集了2004年之前已知的200种常见疾病/病症/疾病、100辆经典汽车和100款历史上最好的街机游戏的GT数据(参见附录A),并采用Preis等人[2013]中描述的策略,k=10。表1报告了每一组关键字的三个最佳正绩效和负绩效(后者可以通过颠倒策略处方,在交易成本允许的情况下变为正绩效)的t-统计数据(此后的t-统计数据),包括Preis等人[2013]的数据。我们的大脑天生就能够理解噪音,并且非常擅长推断错误的因果关系。我们让读者思考一下,如果骨癌或月球巡逻与财务有关,他会得出什么结论。该表还表明,与Preis等人[2013]的关键字集相关的最佳统计数据与偶然获得的数据没有显著差异:此处报告的统计数据主要相当于高斯变量,时间序列长于(比如)20,人们预计其绝对值的5%大于1.95。

使用道具

9
可人4 在职认证  发表于 2022-5-11 15:43:45 |只看作者 |坛友微信交流群
有人指出,债务并不是在周一到周五被用来做间谍的三个最佳关键词之一:它的表现平淡无奇且不稳定,如下面的更多细节所示。这个问题将在?中进行更详细的讨论?。2.5谷歌趋势数据谷歌趋势数据有两种偏向。首先,GT数据在2008年8月6日之前并不可靠,每隔几个月就会随机更新一次[Wikipedia,2013]。之前的回溯测试包括基于Google Trends data 6science功能的推测性策略的回溯测试,这是不可避免的一部分,但仍然有助于校准策略。第二个问题是,出于几个原因,这些数据不断被修改。GT返回的数据类型在2012年进行了调整。它过去是由实数组成的,其标准化并不完全透明;它也给出了这些数字的不确定性。每次下载同一关键字的数据时,数字本身都会在给定的错误条内发生变化。现在,GT返回0到100之间的整数,100是时间序列的最大值,0是其最小值;因此,取整过程会隐藏GT数据的微小变化(但精度约为5%),误差条不再可用。这种形式上的变化非常重要:例如,价格的最后小数舍入过程有时会引入虚假的可预测性,这在外汇数据中是众所周知的[Johnson,2005]。对于GT数据,任何新的最大值都会增加数据的粒度,从而使其更加不可靠。这是quantopedian成员的原因之一。在作者发布GT数据集之前,com无法复制[Preis等人,2013]的结果[Cuantopian.com,2014]。

使用道具

10
nandehutu2022 在职认证  发表于 2022-5-11 15:43:48 |只看作者 |坛友微信交流群
通过下载重叠时间段较小的数据并加入生成的时间序列,可以部分解决这个问题。2.6默认情况下,价格返回解析数据具有每周解析;大多数学术论文都是以如此粗略的分辨率完成的。请注意,一个月一个月下载,GT数据有一个每日分辨率。从某种逻辑上来说,他们试图预测每周的价格回报。根据我们的经验,这是非常雄心勃勃的,如果一个人的投资增加一倍,那么预测性就会更容易出现,即使仅仅是因为星期几的影响[Gibbons and Hess,1981]。2.7参数调整大多数交易策略都有可调参数。每一组参数(包括关键字)定义一个或多个交易策略。试图优化参数或关键字相当于数据窥探,必然会导致TounStatisFactory的性能超出样本范围。当呈现回溯测试结果时,读者通常不可能知道结果是否来自数据捕捉。一个简单的补救办法是,在测试策略时,不要接触一小部分历史数据,然后使用它来评估其性能的一致性,而只能进行一次(交叉验证)[Freeman,1992]。更复杂的补救措施包括怀特的真实性检查[White,2000](关于该方法的应用,参见例如Sullivan等人[1999])。数据窥探相当于没有样本外的情况,即使回溯测试是通过滑入和滑出样本周期正确完成的。让我们对Preis等人[2013]提出的策略进行一些样本内参数调整。图1报告了与关键字debt相关的性能的t-stat,它是k的函数,k是参考simplemoving average的长度。

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-11-6 07:12