本文选自狗熊会分析报告

狗熊会简介:北京大学商务智能研究中心下的的数据分析人才联盟,每周一熊出没,举报研讨会议。其依托北京大学光华管理学院,关注基于互联网的大数据研究与应用。尤其关注中文文本、网络结构、以及位置数据相关的科研课题。中心为学者提供相关数据资源,为企业提供相关分析方法,为学者和企业合作搭建一个有效的平台。

联系方式:birc@gsm.pku.ed.cn

摘要

谷歌搜索可以用于股票预测吗?为验证该想法,我们对比研究了2004年到2013年的每周谷歌趋势里对债务的搜索量和每周道琼斯闭市指数,并形成了相应的交易策略。基于历史数据做了交易模拟验证,获得数倍于市场的收益率。

背景介绍

我们都知道在股票市场上获利有一个很简单的原则: 低价买进,高价卖出。但是预测股票价格并非易事。许多专业分析师多年来一直在潜心尝试研究出一个能够预测股市趋势的模型。但是许多类似的模型研究都以无法正确预测股市而失败告终。

对于那些对股市没有太多研究,并且没有时间和财力去收集数据来预测股市的人来讲,谷歌趋势或许能够给他们带来一些帮助。谷歌趋势是谷歌提供的一个服务。通过它,可以查询人们用谷歌对某个词语在一段时间内的搜索量。我们用做了一个试验来尝试是否可以用某个词语的谷歌趋势来预测股票价格的变动。

基本思路

我们的理论很简单。当越多人在谷歌上搜寻表达担忧的词语比如危机(Crisis)和债务(Debt)时,人们就越有可能卖掉他们的股票,股市也越可能走低。利用这个原则作为信号,我们采取了四种不同的方法来检验某个词语的谷歌趋势和股票市场的关联。

我们的第一个方法使用的是累积均值,也就是把每周的搜索量与之前所有周的搜索量累积得出的均值。第二个方法使用的是移动均值,也就是固定几周的时间区间来算均值,随着时间的推进,新的那周加入均值计算,区间内最早的那周则排除。在这两种方法中,每新的一周的某词语搜索量都会与之前的均值相比较。如果此周的搜索量比均值高,这就意味着更多的人在谷歌上搜索担忧性的词语,那么我们将卖空股票。相似的,如果此周搜索量低于之前的均值,我们将会买入股票。如果此周搜索量等于之前的均值,我们就不采取任何行动。

第三和第四种方法被用来测试我们前面所用的两种方法是否有效。第三种方法是从第一周就买入股票并且持有股票一直到最后一周。第四种方法是在任何一周随机买入、卖空或持有股票。

数据验证

我们使用的数据来自2004年到2013年的每周谷歌趋势里对债务的搜索量和每周道琼斯闭市指数。我们本想使用每日的数据来试验,但是谷歌趋势只允许我们获取小于90天的每日数据。为了得到充足的样本数,我们使用了每周的数据。

从04到13的第一周我们不采取任何行动,因为没有之前数据来和第一周比较。从第二周开始,我们可以比较当周的谷歌趋势和谷歌趋势均值,并基于比较结果采取相应行动。当然,我们只能在第三周才能知道第二周相应的卖空或买入是否带来了收益或是损失。在当周行动和知晓行动收益间有一周的时间间隔。除了采用了上述的四种方法,我们还加入了一组和第四种方法一样的随机购买来计算最终的收益以增大对比度,我们把它列为第五种方法。最终这五种方法所得出的结果有显著的不同。

ts1

上图展示了我们实验的结果。我们可以清楚地看到,使用了Google Trends方法的那一组(红色线条表示)表现明显超出其他几种方法。我们小组还发现,所有五条线在2008年至2009年金融危机时相交,使用Google Trends方法的小组在这段时间获利最为丰厚,而其他几组则没有这么突出

总结与讨论

在这次试验当中,我们用了许多不同的表达担忧的词语,我们也尝试了不同的计算移动均值的时间区间。最终我们发现,使用债务这个词和六个月的时间区间得到的收益最大。尽管这次试验取得了很可观的结果,我们意识到我们的试验中仍然有很多不足。

第一个不足是如果每个人都用这个方法来预测股票市场,市场将自我调节,这个方法也将无法正确预测。另外一个不足是我们很难确定哪个词能准确反映人们对股票市场的担忧。

总之,本次试验的目的并不是测试如何用这个方法来在股票市场取得收益,而是为了说明当我们能够获取有效数据的时候,我们能够利用统计学知识来寻找和发现一些有应用价值的事物规律。许多研究人员已经在收集数据研究社交网络上人们的用词习惯等行为,相信在不久的将来会有更多基于统计学的有趣发现。

发表/查看评论