楼主: kedemingshi
222 16

[量化金融] 谷歌趋势数据是否比价格回报更具可预测性? [推广有奖]

  • 0关注
  • 4粉丝

会员

学术权威

79%

还不是VIP/贵宾

-

威望
10
论坛币
15 个
通用积分
86.7199
学术水平
0 点
热心指数
8 点
信用等级
0 点
经验
24962 点
帖子
4219
精华
0
在线时间
0 小时
注册时间
2022-2-24
最后登录
2022-4-15

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Do Google Trend data contain more predictability than price returns?》
---
作者:
Damien Challet and Ahmed Bel Hadj Ayed
---
最新提交年份:
2014
---
英文摘要:
  Using non-linear machine learning methods and a proper backtest procedure, we critically examine the claim that Google Trends can predict future price returns. We first review the many potential biases that may influence backtests with this kind of data positively, the choice of keywords being by far the greatest culprit. We then argue that the real question is whether such data contain more predictability than price returns themselves: our backtest yields a performance of about 17bps per week which only weakly depends on the kind of data on which predictors are based, i.e. either past price returns or Google Trends data, or both.
---
中文摘要:
通过使用非线性机器学习方法和适当的回溯测试程序,我们对Google Trends可以预测未来价格回报的说法进行了严格的检验。我们首先回顾了可能对此类数据的回溯测试产生积极影响的许多潜在偏差,到目前为止,关键字的选择是最大的罪魁祸首。然后,我们认为,真正的问题是,这些数据是否比价格回报本身更具可预测性:我们的回溯测试每周产生约17个基点的表现,这仅弱地取决于预测因素所基于的数据类型,即过去的价格回报或谷歌趋势数据,或两者兼而有之。
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:Trading and Market Microstructure        交易与市场微观结构
分类描述:Market microstructure, liquidity, exchange and auction design, automated trading, agent-based modeling and market-making
市场微观结构,流动性,交易和拍卖设计,自动化交易,基于代理的建模和做市
--
一级分类:Physics        物理学
二级分类:Physics and Society        物理学与社会
分类描述:Structure, dynamics and collective behavior of societies and groups (human or otherwise). Quantitative analysis of social networks and other complex networks. Physics and engineering of infrastructure and systems of broad societal impact (e.g., energy grids, transportation networks).
社会和团体(人类或其他)的结构、动态和集体行为。社会网络和其他复杂网络的定量分析。具有广泛社会影响的基础设施和系统(如能源网、运输网络)的物理和工程。
--

---
PDF下载:
-->
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:谷歌趋势 预测性 Quantitative QUANTITATIV Transportat

沙发
何人来此 在职认证  发表于 2022-6-15 11:40:51 |只看作者 |坛友微信交流群
谷歌趋势数据是否比价格回报更具可预测性?Damien Challet1,2和Ahmed Belhadj AyedChaire金融量化实验室(quantitativeLaboratoire de math“ematiques Appliques”ees aux System“emes”Ecole Centrale ParisGrande Voie des Vignes,92295 Ch atenay Malabry,Francencelade Capital SAEPFL Innovation Park,Building C1015 Lausane,Switzerlandabstracting非线性机器学习方法和适当的回溯测试程序,我们严格审查了谷歌趋势可以预测未来价格回报的说法。我们回顾了可能对此类数据的回溯测试产生积极影响的许多潜在偏差,到目前为止,关键词的选择是最大的罪魁祸首。然后,我们认为,真正的问题是,这些数据是否比价格回报本身更具可预测性:我们的回溯测试每周产生约17个基点的表现,这仅在很大程度上取决于预测因素所基于的数据类型,即过去的价格回报或谷歌趋势数据,或两者兼而有之。1简介由于来自在线服务的大量数据,以前所未有的频率和焦点把握社会脉搏已成为可能。因此,这些数据被用于预测当前【Choi和Varian,2012年】(Castle et al【2009年】称为“即时预测”),也就是说,改进对正在创建但其图形将在给定时期结束时显示的数量的估计。后者包括失业、旅行和消费者信心指数【Choi和Varian,2012年】、公司季度收入(从对其主要产品的搜索中获得的收益)】Da等人,2011年、GDP估计值【Castleet等人,2009年】和流感疫情【Ginsberg等人,2008年】。出于显而易见的原因,资产价格的情况尤其令人感兴趣。看起来很自然,实际交易过的人的在线活动在某种程度上与同期的价格变化有关。

使用道具

藤椅
mingdashike22 在职认证  发表于 2022-6-15 11:40:54 |只看作者 |坛友微信交流群
然而,利用这些数据预测资产价格变化是一项困难得多的任务。这一想法绝不是最近对基于谷歌趋势数据2的投机策略进行的回溯测试(参见Antweiler和Frank[2004])。这些文献调查了专门讨论金融问题的论坛(Antweiler和Frank,2004,Rechenthinet al.,2013)、报纸(Gerow和Keane,2011)、推特(Bollen et al.,2011)、博客(Gilbert和Karahalios,2010)或其中一些论坛(Mao et al.,2011)中的交易员的情绪。然而,决定交易者的情绪需要分析帖子的内容,并将其分为正面或负面。一种更简单的方法是使用Google Trends(GT),其中报告所选关键字的历史搜索量兴趣(SVI),并将SVI与兴趣交易量的财务数量联系起来,例如价格波动或价格回报【Da等人,2011年,Gerow和Keane,2011年,Wang,2012年,Bordino等人,2012年,Takeda和Wakao,2013年,Preis等人,2013年,Kristoufek,2013年】。研究结果可以总结如下:使用此类数据预测成交量或波动性相对容易,但与未来价格回报的相关性要弱得多。顺便说一句,这符合金融从业者的日常经验,他们使用价格回报而不是花哨的大数据。在这里,我们讨论了基于GT数据对交易策略进行回溯测试所需的每一步中可能出现的错误。

使用道具

板凳
kedemingshi 在职认证  发表于 2022-6-15 11:41:02 |只看作者 |坛友微信交流群
然后,我们使用基于非线性机器学习方法的行业级回溯测试系统来展示SVI和历史价格回报之间可利用信息内容的近似等价性。因此,我们得出结论,价格回报和GT包含的预测信息量大致相同,至少在我们使用的方法上是如此,并向社区提出挑战,要求他们做得更好。2对基于谷歌趋势的投机策略进行回溯测试。相当一部分学者认为,Taprice回报率是不可预测的。无条件的原始资产价格当然可以通过适当的随机游走来很好地描述,但不包含任何可预测性。我们作为实践者的经验表明,可预测性最好是在有条件的情况下找到的,而线性回归并不是在这种情况下发现非随机性的最有效工具。本质上不存在线性价格-收益自相关;然而,在SVI变化和未来价格回报之间(样本中)发现了一些显著的互相关。人们可能会得出这样的结论:GT数据确实包含比价格回报更多的可利用信息。我们认为,使用这些方法会妨碍人们提出正确的问题,并正确评估任何类型数据的可预测性内容。我们建议首先构建一个非线性预测算法,然后将其与过去的收益率、GT数据或两者一起输入,最后比较每种情况的各自表现。在报告此类比较之前,我们回顾了与使用GT数据进行预测相关的一些危险。俗话说,预测很难,尤其是对未来的预测。但是,对过去的未来进行预测更加困难,因为它往往看起来比应该的容易。

使用道具

报纸
大多数88 在职认证  发表于 2022-6-15 11:41:05 |只看作者 |坛友微信交流群
它容易产生多种偏见,这些偏见可能会显著改变其可靠性,通常是积极的【Freeman,2基于谷歌趋势数据31992,Leinweber,2007年】对投机策略进行回溯测试】。其中大多数是由于令人遗憾的和可能不可避免的趋势,即未来会悄悄进入过去。未来的任何小漏洞都可能使一种不偏不倚的随机策略成为投机性交易的有希望的候选人。现在,让我们仔细看看在试图发现GT数据的可预测性时,这是如何发生的。程序如下:1。选择一套交易策略2。选择backtest3的周期。选择一组资产4。选择一组关键字5。下载GT数据6。选择returns7的时间刻度。选择参数8。使用仅包含GT数据、仅包含价格回报以及两者的预测值计算性能。本文的其余部分将专门讨论上述每个步骤。2.1交易策略必须首先完成这项工作,否则人们会对各种策略进行回溯测试,直到发现好看的策略为止。学术论文通常测试并报告SVI增长与未来价格回报之间的固定关系。例如,Preis等人(2013年)假设SVI相对于其移动平均值的增加应伴随负回报。Kristoufek(2013)也提出了同样的策略,他建议建立一个资产权重随着各自SVI的函数而减少的投资组合。所有这些都不能令人满意。事实上,没有理由说明为什么给定的关系应该在整个时期内保持不变(它们没有,见下文)以及对所有股票保持不变。例如,很容易找到对SVI变化有一致相反反应的两项资产。出于上述原因,线性策略被淘汰了。

使用道具

地板
mingdashike22 在职认证  发表于 2022-6-15 11:41:08 |只看作者 |坛友微信交流群
然后,人们面临着选择一系列不会超过输入的策略的问题:可能有许多关键字SVI及其作为输入的功能。因此,我们选择使用集成学习作为一种工具来关联不同类型的信息,并尽可能避免样本内的过度匹配。然而,请注意,这只是我们其中一个人实施的回溯测试系统中股票选择和投资决策的一个层面。2回溯测试基于Google Trends数据的推测策略42.2回溯测试周期2008年,即使是2011年撰写的学术论文,也有停止或开始调查的倾向【Gerow和Keane,2011年】,这很有趣。Kristoufek(2013)使用了整个可用长度,并清楚地表明,2008年SVI与未来回报之间的关系发生了巨大变化。这意味着必须通过滑入和滑出示例窗口来正确地对策略进行回溯测试【Leinweber,2007年】。计算机能力曾经是anissue,但非常廉价的云计算能力的出现解决了这个问题。2.3资产选择大多数论文都对预测一组资产的未来价格回报感兴趣,例如某些指数的组成部分(例如罗素3000指数的子集【Da等人,2011年】、道琼斯工业平均指数【Kristoufek,2013年】),而一些论文则侧重于预测指数本身【Preis等人,2013年】。我们在此重点关注标准普尔100指数的组成部分。一个人应该处理多个资产的原因在于中心极限定理的威力:假设一个人在每个资产价格上平均有一个小的优势,这个优势将比在相同优势下投资单个资产(如指数)明显快得多。2.4关键词的选择这是一个至关重要的因素,也是最有可能导致过度匹配的原因,因为人们可能会将未来的信息引入过去,甚至没有注意到它。

使用道具

7
mingdashike22 在职认证  发表于 2022-6-15 11:41:11 |只看作者 |坛友微信交流群
令人沮丧的是,许多论文使用了从未来到后验策略的关键词,例如Preis等人【2013年】、Choi和Varian【2012年】、Janetzko【2014年】。一个严重的错误是,想想最近可能与之相关的关键词,例如债务、AIG、危机等,而不是想那些相关的关键词。但一个更微妙的错误很常见:使用一组足够模糊且永远与金融相关的关键词,例如金融,并使用谷歌集合查找相关关键词【Preis等人,2013年,Choi和Varian,2012年】。此服务建议一组与给定关键字集相关的关键字,并可在电子表格中从文档中访问。谷歌。通用域名格式。我们输入了一个关键字“finance”,并要求输入相关关键字。我们没有像Preis等人[2013]那样获得任何花哨的关键词(餐厅、颜色、癌症等),但确实发现了著名的关键词债务等。问题是,人们无法在2014年问谷歌,2004年与金融有什么关系。因此,Google Sets的输出将来自未来的信息引入回测。因为,据我们所知,Google Sets并没有提供回溯机器,所以它绝不能用来增强一个人用来回溯测试策略的一组关键字。这表明,关键词的选择是一个至关重要的因素。此外,在整个期间,谷歌的使用并不是固定不变的,这可能会在回溯测试结果中引入显著的偏差。纠正它们至少需要一个无效假设,即。

使用道具

8
何人来此 在职认证  发表于 2022-6-15 11:41:14 |只看作者 |坛友微信交流群
之前已知的一组空关键词2基于谷歌趋势数据对推测策略进行回溯测试5疾病t-Stattmultiple sclerosis-2.1肌肉痉挛-1.9经前综合征-1.8脱发2.2脱发2.2骨癌2.4经典汽车t-statChevrolet Impala-1.9Triumph 2000-1.9Jaguar E-type-1.7Iso Grifo 1.7Alfa Romeo Spider 1.7Shelby GT 500 2.4经典街机游戏t-statMoon Buggy-2.1泡泡-2.0Rampage-1.7Street Fighter 2.3Crystal Castles 2.4Moon Patrol 2.7Preis等人【2013】t-tstatlabor-1.5housing-1.2success-1.2bonds 1.9Nasdaq 2.0investment 2.0Tab。1: 简单策略绩效的关键词和相关t-stats使用谷歌趋势时间序列预测从周一收盘到周日收盘的价格。交易成本设置为回溯测试期开始时的2bps。这就是为什么我们收集了2004年之前已知的200种常见医疗状况/疾病/疾病、100辆经典汽车和100款我们信任的历史上最好的街机游戏的GT数据(参见附录A),并采用Preis等人[2013]中描述的策略,k=10。表1报告了每组关键字(包括Preis等人【2013年】的一组关键字)的三个最佳正绩效和负绩效(后者可以通过颠倒策略处方,交易成本允许)的t-统计(此后的t-stats)。我们的大脑天生就能够理解噪音,并且非常善于推断错误的因果关系。我们让读者思考一下,如果骨癌或月球巡游与资金更相关,他会得出什么结论。该表还表明,与Preis等人[2013]的关键词集相关的最佳t-stats与偶然获得的数据没有显著差异:此处报告的统计数据在时间序列长度超过(比如)20的情况下基本上相当于高斯变量,人们预计其绝对值的5%会大于1.95。

使用道具

9
mingdashike22 在职认证  发表于 2022-6-15 11:41:18 |只看作者 |坛友微信交流群
有人指出,债务并不是从周一到周五被用于间谍的三个最佳关键词之一:其表现平平且不稳定,详情如下所示。此问题将在?中进行更详细的讨论?。2.5谷歌趋势数据谷歌趋势数据有两种偏向。首先,GT数据在2008年8月6日之前不可靠,每隔几个月随机更新一次[维基百科,2013年]。之前的回溯测试包括基于Google Trends data 6science功能的推测性策略的回溯测试中不可避免的一部分,但对于校准策略仍然有用。第二个问题是,由于几个原因,这些数据不断被修改。GT返回的数据类型在2012年进行了调整。它过去是由实数组成的,其归一化不是完全透明的;意大利也给出了这些数字的不确定性。每次下载同一关键字的数据时,数字本身都会在给定的误差线内变化。现在,GT返回0到100之间的整数,100是时间序列的最大值,0是最小值;因此,取整过程会隐藏GT数据的微小变化(但精度大约为5%),误差条也不再可用。这种形式上的变化非常重要:例如,价格最后小数点的舍入过程有时会引入虚假的可预测性,这在外汇数据中是众所周知的【Johnson,2005年】。对于GT数据,任何新的最大值都会增加数据的粒度,从而使其可靠性更低。这是quantopedian成员的原因之一。在作者发布GT数据集之前,com无法复制【Preis等人,2013年】的结果【Cuantopian.com,2014年】。

使用道具

10
能者818 在职认证  发表于 2022-6-15 11:41:21 |只看作者 |坛友微信交流群
通过下载较小重叠时间段的数据并加入生成的时间序列,可以部分解决此问题。2.6价格返回解析数据默认为每周解析;大多数学术论文都是以如此粗略的分辨率完成的。请注意,一个月一个月下载它们,GT数据有一个每日分辨率。从某种程度上讲,他们试图预测每周的价格回报。根据我们的经验,这是一个非常雄心勃勃的目标,如果一个人的投资增加一倍,那么预测性就会更容易出现,如果仅仅是因为一周中的某一天的影响【吉本斯和赫斯,1981年】。2.7参数调整大多数交易策略都有可调参数。每一组参数(包括关键字)定义一个或多个交易策略。试图优化参数或关键字等同于数据窥探,必然会导致tounsatisfactory的性能超出示例范围。当呈现回溯测试结果时,读者通常不可能知道结果是否来自datasnooping。一种简单的补救方法是,在测试策略时,不要接触一部分历史数据,然后使用它来评估其性能的一致性,而只能进行一次(交叉验证)[Freeman,1992年]。更复杂的补救措施包括White的真实性检查【White,2000年】(参见Sullivan等人【1999年】关于该方法的应用)。数据窥探相当于并没有样本外,即使在适当地使用滑入和滑出样本周期进行回溯测试时也是如此。让我们对Preis等人[2013]提出的策略进行一些样本内参数调整。图1报告了与关键字debt相关的性能的t-stat,作为k的函数,k是参考simplemoving平均值的长度。

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-10-7 00:52