网络搜索指数与汽车销量关系研究7300字
网络搜索指数与汽车销量关系研究7300字 网络搜索指数与汽车销量关系研究 搜索引擎已经成为消费者决策过程中信息搜索和评价过程的起点,根据在 CNNIC调查社区进行的搜索营销调查显示,有77%的互联网用户在购买产品之前会 上网搜索信息[1]。网民的搜索需求在一定程度上反映了他们的关注点和意图, 而网络搜索数据正是对网民搜索需求的客观记录。网络搜索数据的这一特性使其 能够映射用户实际生活中的行为特点,并影响企业经营和政府管理方式,成为目 前研究大数据的主要方向之一。本文以我国汽车市场为背景,研究网络搜索数据与汽车销量之间的关系。之 所以选择汽车作为研究对象,是因为汽车产品属性复杂并且要求较大资金投入, 消费者在购买汽车时会对汽车产品各种属性进行仔细考察和评估。不仅如此,汽 车也是研究消费者外部搜索相关文献中最为常用的产品对象之一[2]。
1研究意义与思路 11研究意义 12研究思路 2文献综述 21有关汽车销量预测的相关研究 关于国内汽车销量的预测,从以往的相关研究来看,学者从定性和定量两个 方面进行了相关研究。在定性方面,如:门峰等针对我国汽车产业的发展方向进 行研究,认为我国汽车产业已经成为国民经济的重要支柱产业,并预测未来5~ 10年是我国由汽车工业大国向汽车工业强国转变的重要时期[9];
王莉分析了国 际金融危机给中国汽车行业带来的总体影响[10]。定量方面的研究则可以分为两 个层面:一是单方法预测法(包括多元回归分析法、时间序列预测法、神经网络 分析法),如:陈欢通过定性灰色预测模型的方法对汽车销量进行了预测[11], 该方法能够反映复杂数据的非线性和汽车销量数据自身的规律性,但对历史数据 过于依赖,历史数据越多,预测结果越可靠;
郭顺生等基于时间序列ARMA模型对 中国汽车的月销量数据进行预测[12];
汪玉秀等综合汽车颜色、排量及版本类型3个因素,建立了马尔科夫过程的4S店汽车销量预测模型(预测绝对误差均小于 5%)[13]。二是组合预测方法,如:李响等基于ARMA模型与RBF神经网络相结合 的混合模型预测了天津市日汽车销量,认为组合模型相对于单一的预测模型有较 高的预测精度[14];
蔡宾等采用改进差分进化算法和灰色模型对几个主要汽车品 牌的销量进行了预测,并对汽车销量的发展趋势作出了判断[15];
李莉通过建立 灰色模型和马尔科夫模型相结合的组合预测模型预测了我国小排量汽车的销量, 该模型整合了GM(1,1)模型处理光滑序列的有效性和灰色马尔科夫链处理随机 序列的有效性,反映出了数据序列的发展趋势[16]。
无论是传统的定性预测方法,还是定量预测都只能依赖于历史数据,但历史 数据具有很强的延迟性,而且其预测的粒度较大,一般为汽车销量的年度数据。
另外,与传统的预测方法相比,人工智能建模方法虽然预测精度较高,但也存在 算法复杂性高,应用广泛性和对原始数据的变化趋势依赖性较强等缺陷和不足。
网络搜索数据也开始用来预测汽车销量。Du等发现从谷歌搜索数据中对38 个主要汽车品牌提取出来的7大趋势可以从品牌层面解释美国市场74%的汽车销 量[23]。国内学者王炼等以百度搜索指数为数据基础,探讨网络搜索在我国汽车 市场的预测作用,结果显示网络搜索数据对汽车销量具有显著的正向影响,研究 还发现,在其他传统指标的数据无法获得时,网络搜索数据依然能够发挥重要预 测作用[24]。但王炼等是对短面板数据进行建模回归,数据量较少,不利于刻画 百度搜索指数与社会经济活动的动态变化,也不能确定变量之间是否存在着长期 的均衡关系。
3实证分析 31数据来源 311汽车销量 本文的汽车销量数据来源于搜狐网站汽车频道(http∥ db.auto.sohu.com/cxdata/),该数据为月度更新数据。为了研究网络搜索数据 与汽车销量之间的长期相关关系,我们选取的时间段为2007年1月至2015年12月, 共108个月。考虑到车型数据在此期间的持续可获得性,我们将连续12个月无销量的车型排除。最终,我们收集了55款车型在此期间的国内市场月度销量数据。
312网络搜索 321确定基本词条 我们根据搜狐网站汽车频道(http:∥db.auto.sohu.com/cxdata/)所提供 的车型名以及“品牌名+车型名”的组合(如:A4L以及奥迪A4L)来作为最初的 基本词条。
322获取基本词条的近义词 323选取论坛高频词条 324确定最终搜索词条 4百度搜索指数与汽车销量的关系 41单位根检验 本文选择实际汽车销量(S)为因变量,以百度搜索指数(B)为自变量。为 了减少异方差对检验结果带来的影响,本文数据全部对数处理(lnS,lnB),这 样处理也是考虑到了销量和搜索指数的偏斜分布。进行对数处理还有一个好处是, 在解释估计结果时能够以百分比变化而非绝对值的变化解释搜索的预测作用。
由于本文的样本数据均为面板数据,和时间序列数据一样,为了保证变量的 平稳性和避免伪回归现象,在建立计量模型之前要对变量进行单位根检验和协整 检验。常用的面板数据单位根检验方法有LLC检验、PP检验、IPS检验和ADF检验 等,本文采用这4种方法同时进行检验,检验结果如表2所示,由于检验原理不同, 不同检验方法的结果不尽相同,本文以4种方法结果一致为准,得到汽车销量和 网络搜索指数在所有情况下都为水平平稳。由于协整检验的目的是看一组非平稳 序列的线性组合是否具有协整关系[26],所以本文不再对汽车销量和网络搜索数 据做协整检验,而直接进入Granger因果检验。
42格兰杰因果检验 从实际生活来看,消费者会在购买汽车前上网搜索信息,那么网络搜索发生 在购买汽车之前,也即百度搜索指数是汽车销量的原因,为了验证实际数据能否 支撑该结论,必须进行格兰杰因果检验,检验的前提条件是数据平稳。从网络搜索到汽车购买,实际产出滞后期有0~2个月,但本研究以网络搜索数据对汽车销 量的预测为目的,对同期影响不作考虑。因此本文在进行格兰杰因果检验时将滞 后期设定为1~2期,结果如表3所示。
从格兰杰因果检验的结果看,在滞后1期和2期的情况下网络搜索指数与汽车 销量存在着双向互动的因果关系。但格兰杰因果检验度量对汽车销量进行预测时, 网络搜索数据的前期信息对均方误差MSE减少的贡献要大于另外一种情况。因此 网络搜索数据对汽车销量具有预测作用。
51模型设定 采用面板数据分析网络搜索与销量关系时,首先需要用F检验来分析是采用 混合回归还是面板数据,结果发现本文应该采用面板数据。在研究它们的关系时 很有可能会产生遗漏相关变量的问题。在回归模型中,遗漏重要的相关变量是导 致内生性的主要原因。因为一旦这个被遗漏的变量同时与因变量和目标自变量相 关,那么目标自变量与随机扰动项的无关性假定就不再成立,这时如果用最小二 乘估计,目标自变量的估计就是有偏的。出于此考虑,本文首先采用固定效应模 型对面板数据做估计,由此来控制由于遗漏变量而产生的内生性影响,用固定效 应模型控制截面变异也是面板数据模型对于截面数据模型的一大优势所在,而且 Hausman检验的结果也拒绝了采用随机效应模型来建模。考虑到销量与网络搜索 之间存在滞后期,在该模型当中,使用前一期搜索指数和前两期搜索指数作为自 变量,以检验前1个月网络搜索和前两期搜索是否都能够预测销量。对车型i在时 间t的销量有如下模型:
图2为福克斯三厢实际销量数据和预测销量数据的对比图,其中lnS为实际销 量数据的对数值,lnF1、lnF2分别为提前1个月和2个月的预测。从对比图可以看 出,百度搜索指数与汽车销量结合程度较好,模型预测效果很好。该结果再次体 现了网络搜索数据的预测效力。图2福克斯三厢实际销量数据与预测数据对比图 预测结果显示在表5当中,模型预测效果很好,加入百度搜索指数之后模型 的拟合优度和预测精度都有了提高,这和格兰杰因果检验百度搜索指数是汽车销 量的原因一致。对比网络搜索提前1个月和提前2个月的预测误差,可看出总体差别不大,提前1个月的百度搜索指数预测效果要略优于提前2个月的预测。表5各 预测期样本外预测误差结果 误差指标MAERMSE〖〗MPE提前1个月098315790342提前2个月0986158003426 结语