古典金融理论认为,资产价格是资产预期收益的贴现值,或是加了风险溢价误差因子的,以无风险收益率折现资产未来收益。投资者关注或投资者情绪在股票价格形成中,不起任何作用。理性投资者竞争时,会优化其投资组合的统计特性,这将导致价格与预期现金流的合理贴现值相等的均衡。同时,古典金融理论认为,即使有投资者是非理性的,非理性投资者的需求也会被套利者所补偿,因而不会对价格产生影响。标准的资产定价模型的假设是,信息在被市场参与者接收后,立刻反映至价格中。这一假设的前提就要求,作为市场参与者的个体,要不断的对其资产进行足够的关注。然而,在许多研究却发现市场出现的“异象”,如“媒体效应”、“盈余公告效应”、“过度自信”等,不能诉诸经典理论进行解释。
Herbert Simon认为,投资者决策过程是从尝试搜集信息开始的。互联网、大数据和人工智能的高速发展,为人们绘制了一幅囊括日常生活方方面面的“大数据”图景,也为科学家们提供了解决我们所处复杂世界的基本问题的一个重要机会。金融市场,是此类研究的重要领域。市场变动对个人财富和地缘政治事件产生的巨大影响,引起了对此问题广泛的科学关注。例如,最近的一系列研究都集中在百度指数(更一般地说法是投资者关注)对金融市场波动的影响分析上,在一定程度上挑战了经典金融理论中,投资者情绪或投资者关注在股票价格波动、实现收益或预期收益中没有影响的观点。
首先,对两个名词进行解释:
(1) 百度指数(Baidu Index):以网民行为数据为基础,可以提供某个关键词在百度的日搜索量,其中 PC端搜索量从2006年6月1日至今,移动端搜索量从2011年1月1日至今。百度指数不提供下载,使用爬虫或matlab中的OCR包抓取数据时,会有5%左右的误差(抓取百度指数页面时,识别数据目标为图片格式,但抓取的图片左下方有“index.baidu.com“水印,由此造成误差)。百度指数提供关键词搜索量的分时数据、日数据、周数据,当搜索周期大于12个月时,百度指数返回关键词的周搜索数据。因此,如果需要对日数据进行研究,必须将关键词搜索周期设置为一年以内。
(2) 谷歌趋势(Google Trends):与百度指数所提供的主要数据服务类似,不同之处在于它可以显示一个特定的搜索词,在全球不同使用谷歌的地区、不同语言的日搜索总量,其对“语言”的定义是所有共享特定语言的国家和地区的组合搜索量。使用python爬虫对谷歌趋势数据提取,已有的文章中未出现误差。与百度指数不同,谷歌趋势的搜索周期大于3个月时,返回的数据就为周数据。
百度指数与谷歌趋势提供的互联网使用者的微观搜索数据,其传递的信息可以使我们洞察到经济生活中最微观个体的行为。我们会问,在相同的时间尺度上,搜索引擎中关键词的搜索量与金融市场波动之间是否有联系,又有怎样的联系。近十年来,国内外有许多文章对这一问题进行了研究。
宋双杰等(2011)使用谷歌趋势提供的关键词搜索频率数据,对在2005年1月1日到2011年3月28日期间在主板市场IPO的825家公司上市首日的市场表现进行了预测。由于谷歌公司于2010年即退出中国市场,同时在使用谷歌趋势时存在部分IPO公司名称的未返回项,因此他们只对671家公司进行了研究。他们选取的关键词为IPO时公司名称,以此统计谷歌趋势的搜索量指数,这样的关键词选取方法未能回避的问题是,对某些IPO公司名称的搜索行为,包含了互联网使用者通过网络搜索获取这些公司服务的目的,数据噪声较大,例如2006年7月上市的“中国银行”,2010年8月上市的“光大银行”等等。同时,作者的研究周期中,存在谷歌退出中国这一事件,因此其谷歌退出中国后的谷歌趋势搜索量,对测度投资者关注度这一关键指标时,可能存在一定的偏差
俞庆进和张兵(2012)选取2011年4与至2012年3月一年之间百度指数日度数据,利用matlab程序和手工收集的方法,使用证券简称和证券代码搜索量之和作为投资者关注的代理变量,这是对Da等(2011)与宋双杰等(2011)代理变量选择的一些改进。同时,作者注意到了存在若干只股票:机器人、东方财富、汤臣倍健、同花顺等,这些名称除了代表公司股票外,还包括了这些公司互联网产品的名称,它们的搜索量远远高于其他股票简称的百度搜索量,为降低数据噪声,因此将其剔除。
郦金梁等(2018)结合了传播学中的“两级传播理论”、Hong & Stein(1999)的模型、行为金融学中有限关注理论,考察了信息传播如何共同影响股票价格。他们的研究除了关注信息的产生,同时也对信息的传播进行了关注,使用2015年3月由百度公司提供的“百度股市通”数据,通过其热点推荐功能,对标热点事件所对应的利好股票,采用事件研究方法考察股票超额收益率及超额交易量。“百度股市通”重现了源信息,在二次传播中根据热点事件和概念对利好股票进行了推荐,因此,可将使用“百度股市通”的互联网使用者认为是金融市场的关注者和参与者,他们的搜索行为是闭环行为,并没有出现之前研究中存在对搜索量数据噪声做处理的操作。
参考文献:
1. Tversky A, Kahneman D. Availability: A heuristic for judging frequency and probability.[J]. Cognitive Psychology, 1973, 5(2):207-232.
2.Simon H A. A Behavioural Model of Rational Choice[J]. Quarterly Journal of Economics, 1955, 69(1):99-118.
个人简介:韩仁杰,男,汉族,河南许昌,博士,重庆工商大学经济学院讲师,应用经济统计。