大连海事大学 航运经济与管理学院, 辽宁 大连 116026
收稿日期:2022-03-01
基金项目:国家自然科学基金资助项目(72271037)。
作者简介:王书田(1993-),女,山东聊城人,大连海事大学博士研究生; 林岩(1972-),男,山东济宁人,大连海事大学教授,博士生导师。
摘要:使用情感分析算法获取在线评论的效价,并应用前景理论和熵值法对在线评论的效价进行调整,结合评论数量和网络搜索数据,建立了自回归分布滞后模型,并对不同价位档次汽车销量进行预测分析.研究发现,考虑了消费者受负面信息影响的在线评论的效价、数量和网络搜索数据的模型预测效果优于传统模型,更符合实际情况,但对不同价位档次汽车预测效果存在差异,低档汽车销量预测效果最佳,其次是中档汽车,最后为高档汽车.
关键词:在线评论情感分析网络搜索销量预测自回归分布滞后模型
Research on Car Sales Prediction Based on Online Reviews and Internet Search
WANG Shu-tian, LIN Yan, ZHU Guo-qing, YAN Ye-jin
School of Maritime Economics and Management, Dalian Maritime University, Dalian 116026, China
Corresponding author: LIN Yan, E-mail: linyan@dlum.edu.cn.
Abstract: The emotion analysis algorithm is used to obtain the valence of online reviews, and the prospect theory and entropy method are used to adjust the valence of online reviews. Combined with the volume of reviews and Internet search data, an autoregressive distributed lag model is established to predict and analyze the sales volume of cars in different price levels. It is shown that the prediction effect of the model, which takes into account the valence, volume of online reviews and Internet search data affected by negative information, is better than that of the traditional model and more consistent with actual situations. However, there are differences in the prediction effect for cars of different price levels. The sales prediction of low-end cars is the best, followed by mid-range cars, and finally high-end cars.
Key words: online reviewssentiment analysisInternet searchsales forecastingautoregressive distribution lag model
随着科技的快速发展,互联网作为消费者购买决策过程中的外部搜索媒介发挥着重要作用.互联网上海量的在线评论信息和搜索数据已经成为了解市场购买需求的宝贵资源,这些信息不仅影响了消费者的购买决策,还为企业准确预测产品销量、制定营销策略提供了思路.
网络搜索数据在一定程度反映了用户对某种产品的关注程度.尤其消费者对高介入产品做出购买决策时,通常会进行广泛的信息搜索,在决策过程中参考相关信息,减少对该产品的不确定性,以避免经济损失[1].网络搜索数据构成了一种潜在的有用的数据源,引起了诸多****的研究兴趣,并被广泛地应用在许多领域的预测研究中,如百度指数或谷歌趋势来预测旅游需求[2]、酒店入住数量[3]、股票价格走势[4]、汽车市场份额[5]等.网络搜索数据是对用户搜索需求的客观记录,能够映射用户实际生活中的行为特点,可以作为传统数据的良好补充来实现对市场需求的预测.但网络搜索数据只代表消费者对产品的兴趣水平,并不能反映消费者对产品的好恶,搜索量的增加可能由于喜好,也可能缘于厌恶,因此不能准确反映消费者购买意向.
社交媒体平台的在线评论信息,反映了消费者的观点、态度和情绪,也是影响消费者购买决策的重要因素之一.随着互联网的发展,社交媒体平台产生的在线评论信息逐渐海量、类型丰富、生成迅速,具有较高的研究价值.诸多****从在线评论的数量和效价对销售绩效的影响和预测价值进行研究,研究范围涉及电影[6]、音乐[7]、酒店[8]、数字产品[9]等不同领域.经对现有研究梳理发现,在线评论的效价和数量在一定程度上可以预测产品销售,但仍然处在探索阶段,且多数****主要关注低介入产品的研究;此外,现有研究多以产品评论星级或评分来衡量在线评论的效价[10],评论星级或评分高代表正面评论,反之为负面评论.然而,评论星级或评分可能不能准确代表消费者的整体感知[11],应用情感分析技术分析在线评论的内容逐渐成为一种趋势.但是,现有研究中在度量评论效价时,很少考虑正面评论和负面评论对消费者影响的不对称性.实际上,消费者的购买过程可以视为风险决策,在决策中表现出有限理性[12],会倾向于将在线评论中的负面信息视为更有用的信息.
基于现有研究的不足,本文以网络用户在信息搜集和消费者购买决策过程中留下的真实数据为研究基础,以我国汽车销售市场为研究背景,采用情感分析算法与前景理论获得在线评论的效价,并结合网络搜索数据,使用自回归分布滞后(autoregressive distributed lag,ARDL)模型对不同价位汽车销量进行预测研究.由于汽车产品属性复杂且要求较大资金投入,是典型的高介入产品,消费者在购买汽车时会对汽车产品各种属性进行仔细考察和评估,可以揭示互联网大数据对线下汽车销量的预测效力.
1 研究设计1.1 样本与数据本文以2016.01—2020.01作为时间窗,选取轩逸、奥迪A4L、奥迪A6L三种车型作为研究样本.本文所选取的三种车型月销量均超过5 000辆,轩逸、奥迪A4L、奥迪A6L汽车价位分别在9.98~14.30万元、30.58~39.68万元、41.98~65.38万元,位居不同级别人气排行榜TOP5,可作为低、中、高档汽车的典型代表.
本文从三个维度建立汽车销量预测的特征体系.第一类为消费者在线行为特征,包括在线评论的效价、评论数量;第二类为消费者搜索行为特征,包括百度指数;第三类为宏观经济特征,包括国内生产总值(GDP)、钢铁产量、汽油价格.通过相关性分析,验证了选定的特征与实际汽车销量具有相关性.相关性检验结果见表 1.
表 1(Table 1)
表 1 关键变量相关性检验结果Table 1 Correlation test results of key variables
| 表 1 关键变量相关性检验结果 Table 1 Correlation test results of key variables |
本文从以下渠道获取主要研究数据:
1) 每月汽车销量来自搜狐网站汽车频道,该平台的销量数据来自于中国汽车工业协会的月度汽车市场报告.
2) 在线评论来自汽车之家在线口碑频道,汽车之家作为汽车新媒体平台,是提供信息最快最全的中国汽车网站.本文使用数据挖掘技术从汽车之家口碑频道爬取三种不同价位档次汽车2016.01—2020.01在线评论详细信息,包括其用户、时间、内容,如图 1所示.通过数据清洗处理,最终获取轩逸、奥迪A4L、奥迪A6L汽车在线评论数量分别为4 349,1 330,1 209条.通过抓取每月累计的在线评论数量作为测量在线评论数量的指标;通过情感分析算法、前景理论和熵值法获取每月在线评论的情感得分,作为测量在线评论效价的指标,详见1.2节.
图 1(Fig. 1)
图 1 汽车之家口碑频道用户在线评论信息Fig.1 User online review information of Autohome word-of-mouth channel |
3) 网络搜索数据来自百度指数网站,百度搜索引擎是中国互联网用户最常用的搜索引擎之一,占据国内市场82.99%,是全球最大的中文搜索引擎.本文根据相关汽车关键词搜索量,以月为单位,采用合并抓取具体车型的相关关键词百度指数的每月整体日均值.
4) 宏观经济数据来自国家数据局,以月为单位获取相关数据.根据文献参考和实验,最终选取3个经济指标:GDP、钢铁产量、汽油价格.这些变量反映了国民经济状况以及居民的收入水平和消费能力,与汽车销售有很高的相关性.相关数据描述性统计分析见表 2.
表 2(Table 2)
表 2 相关数据描述性统计分析Table 2 Descriptive statistical analysis of relevant data
| 表 2 相关数据描述性统计分析 Table 2 Descriptive statistical analysis of relevant data |
1.2 在线评论的效价计算过程1.2.1 将在线评论文本信息转换为情感得分本文采用基于词典的情感分析算法,将在线评论文本信息转化为情感得分[13].该算法通常考虑三种类型的词典:情感词词典、程度副词词典和否定词词典.首先,参考‘知网词典’,根据产品的不同属性,考虑到相同的情感词可能表达的情感倾向不同,分别构造了不同情感词词典.例如油耗“高”表示消极,“低”表示积极;而性价比“高”表示积极,“低”表示消极.其次,将程度副词分成5个层次,并构造相应的程度副词词典,见表 3.最后,建立情感词前的否定词词典.
表 3(Table 3)
表 3 程度副词词典Table 3 Dictionary of degree adverbs
| 表 3 程度副词词典 Table 3 Dictionary of degree adverbs |
本文中使用结巴分词对在线评论文本进行分词,根据情感词典提取在线评论中的情感词,识别每个情感词的极性,积极的情感词赋1分,消极的情感词赋-1分.根据情感词前的程度副词和否定词,确定每个情感词得分;最后,将每条在线评论的情感词得分相加,除以在线评论中情感词数量,获得每条在线评论的情感得分stki,i表示属性,t表示时期,本文采用月度数据,k表示第k条在线评论.情感得分计算的伪代码见表 4.
表 4(Table 4)
表 4 情感得分计算的伪代码Table 4 Pseudo code of emotion score calculation
| 表 4 情感得分计算的伪代码 Table 4 Pseudo code of emotion score calculation |
1.2.2 结合前景理论计算每个属性的情感得分消费者通过社交媒体平台的在线评论决定选择商品的过程可以被视为一种风险决策.相对产品的正面评价而言,消费者可能会更关心产品的负面评价,即存在一种负面偏见.前景理论中的风险厌恶原则解释了这种现象:人们对潜在损失的感知比收益更敏感.因此,为了充分反映消费者心理因素,使预测更加准确,引入前景理论[14]来调整产品第i个属性在t时期第k条在线评论的情感得分νtki:
(1) |
1.2.3 根据熵值法计算产品每个周期的情感得分在线评论内容包括空间、动力、操控、油耗、舒适性、外观、内饰、性价比8个属性,本文采用熵值法来计算各属性的权重,确定用户在线评论的效价,根据各属性情感得分的变化来计算各属性的权重.熵值法能有效地避免主观因素造成的偏差,使获取的属性权重更加客观,为多属性综合评价提供依据[16].其确定属性权重步骤如下:
1) 对数据进行预处理.为了避免偏差,本文使用规范化方法,对数据进行标准化处理, 得到新序列fit:
(2) |
(3) |
2) 计算各属性的信息熵.T表示时期的总数量,Ei为第i个属性的信息熵.
(4) |
(5) |
3) 确定各属性的权重.b表示属性的数量,δi为第i个属性的权重(i=1, 2, …, b).
(6) |
(7) |
(8) |
2.2 平稳性检验在使用ARDL模型之前,首先进行平稳性检验.ARDL(m,n)模型要求建模数据序列必须为0阶单整或1阶单整.由表 5单位根检验结果可知,每个变量在I(0)或I(1)水平上平稳显著,表明该时间序列数据符合ARDL模型的建模要求.
表 5(Table 5)
表 5 单位根检验结果Table 5 Unit root test results
| 表 5 单位根检验结果 Table 5 Unit root test results |
2.3 边界协整检验边界协整检验是分析各变量之间是否存在长期协整关系.通过综合考虑模型稳定性、模型拟合优度、序列相关性和系数显著性等因素,基于赤池信息准则和施瓦兹准则来确定滞后期.轩逸、奥迪A4L、奥迪A6L的ARDL模型分别将表 5中各变量的滞后阶数(2, 3, 4, 4, 2, 2, 4),(3, 4, 3, 4, 4, 3, 4),(1, 0, 1, 0, 4, 2, 0)作为本研究的基准规范.如表 6所示,所有计算出的F值均大于1%水平的上限临界值,证明了各变量之间存在长期协整关系.
表 6(Table 6)
表 6 边界协整检验结果Table 6 Boundary co-integration test results
| 表 6 边界协整检验结果 Table 6 Boundary co-integration test results |
2.4 Granger因果检验Granger因果检验是检验一个变量对另一个变量是否有预测能力.表 7为Granger检验结果,整体而言,仅存在W,ln(V),ln(I)与ln(S)间的单向Granger因果关系,这说明了在线评论的效价、数量、网络搜索数据对汽车销量具有预测作用.
表 7(Table 7)
表 7 Granger因果检验结果Table 7 Granger causality test results
| 表 7 Granger因果检验结果 Table 7 Granger causality test results |
2.5 模型诊断检验和稳定性检验表 8为各个模型的诊断检验结果,显示模型通过了序列相关性检验、异方差检验、函数形式检验和正态性检验,即各模型设定恰当.为了检验各模型参数的稳定性,进行了CUSUM和CUSUMSQ检验,结果如图 2所示.其中,图中虚线为5%显著性水平的临界区域.从图中可以看出,CUSUM和CUSUMSQ的结果都在5%的显著性水平的边界范围内,表明所建的ARDL模型成立,可以用于实际数据的预测分析.
表 8(Table 8)
表 8 模型诊断检验Table 8 Model diagnostic tests
| 表 8 模型诊断检验 Table 8 Model diagnostic tests |
图 2(Fig. 2)
图 2 不同类型汽车的CUSUM和CUSUMSQ检验Fig.2 CUSUM and CUSUMSQ tests for different types of cars (a)—低档汽车,CUSUM检验;(b)—低档汽车,CUSUMSQ检验;(c)—中档汽车,CUSUM检验;(d)—中档汽车,CUSUMSQ检验;(e)—高档汽车,CUSUM检验;(f)—高档汽车,CUSUMSQ检验. |
2.6 预测本文以2016.01—2019.10的数据作为训练集用于构建模型,2019.11—2020.01的数据作为测试集用于检验预测效果.样本内预测显著并不代表样本外预测显著[18].为了显示预测性能,本文使用上述模型分别对三种车型汽车销量进行样本外预测.同时计算了平均绝对误差(MAE)、均方根误差(RMSE)和平均绝对百分比误差(MAPE),以比较预测精度.
如图 3所示,在整个期间内,轩逸和奥迪A4L汽车销量预测效果远超奥迪A6L,说明上述模型对低、中档汽车预测效果要大于高档汽车的预测效果.进一步进行样本外预测,结果如表 9所示.
图 3(Fig. 3)
图 3 不同类型汽车销量实际值与预测值对比图Fig.3 Comparison between actual and predicted sales for different types of cars (a)—低档汽车(轩逸);(b)—中档汽车(奥迪A4L);(c)—高档汽车(奥迪A6L). |
表 9(Table 9)
表 9 样本外预测结果Table 9 Out of sample prediction results
| 表 9 样本外预测结果 Table 9 Out of sample prediction results |
由MAE, RMSE和MAPE可以看出,低档汽车销量样本外预测效果最佳,其次是中档汽车,最后为高档汽车,与整个期间预测结果一致.
本文研究结果发现对不同价位档次汽车销量预测效力存在差异.这可能与产品固有的特性或消费者人群的特殊性有关[19].对于高档汽车,受众群体较小,购买过的消费者在汽车媒体平台分享的信息量较少.而低、中档汽车,受众群体较为广泛,从而生成更多的评论信息.与高档汽车相比,在线评论的预测价值对低、中档汽车更有效.
为了证明本文模型的预测精度,与其他模型进行比较:其中,ARDL+X模型为基准模型,外生变量只包括宏观经济指标;ARDL+X+S模型,外生变量包括经济指标和网络搜索数据;ARDL+X+S+W1模型,外生变量包括宏观经济数据、网络搜索数据、评论数量和未使用前景理论进行调整的效价;ARDL+X+S+W模型为本文模型,其中W为使用前景理论进行调整后的效价.由表 10可知,与基准模型相比,低、中、高档价位汽车平均预测精度分别提高了1.19%, 1.18%, 0.46%;与其他模型相比,本文设定的模型平均绝对百分比误差值最小,分别为1.269 8, 3.970 6, 5.520 7.实验结果表明,在小样本条件下,考虑了消费者受负面信息影响的在线评论的效价、数量和网络搜索数据的模型预测效果优于传统模型,更符合实际情况.
表 10(Table 10)
表 10 不同模型预测结果比较Table 10 Comparison of prediction results of different models
| 表 10 不同模型预测结果比较 Table 10 Comparison of prediction results of different models |
3 结论1) 消费者在线行为特征和搜索行为特征对汽车销量具有一定的预测能力,结合在线评论的效价、数量和网络搜索数据的多变量模型预测效果优于传统模型,预测效果更加贴合实际.但是,对于不同价位档次汽车销量预测效果存在差异,低档汽车销量预测效果最佳,其次是中档汽车,最后为高档汽车.
2) 本文采用情感分析算法获取在线评论的效价,充分考虑消费者在做出购买决策时受负面信息的影响更大,应用前景理论对情感得分进行调整.同时,考虑汽车属于多属性产品,应用熵值法避免主观因素造成的偏差,保证了获取在线评论效价的客观性.
3) 在后续研究中可以考虑多源互联网大数据来扩展数据,如微博、微信、互联网论坛等,更加全面地获取消费者在线行为信息,进一步优化模型预测效果.
参考文献
[1] | Laurent G, Kapferer J N. Measuring consumer involvement profiles[J]. Journal of Marketing Research, 1985, 22(1): 41-53. DOI:10.1177/002224378502200104 |
[2] | Huang X, Zhang L, Ding Y. The Baidu index: uses in predicting tourism flows: a case study of the Forbidden City[J]. Tourism Management, 2017, 58: 301-306. DOI:10.1016/j.tourman.2016.03.015 |
[3] | Rivera R. A dynamic linear model to forecast hotel registrations in Puerto Rico using Google trends data[J]. Tourism Management, 2016, 57: 12-20. DOI:10.1016/j.tourman.2016.04.008 |
[4] | Hu H, Tang L, Zhang S, et al. Predicting the direction of stock markets using optimized neural networks with Google trends[J]. Neurocomputing, 2018, 285: 188-195. DOI:10.1016/j.neucom.2018.01.038 |
[5] | 王炼, 宁一鉴, 贾建民. 基于网络搜索的销量与市场份额预测: 来自中国汽车市场的证据[J]. 管理工程学报, 2015, 29(4): 56-64. (Wang Lian, Ning Yi-jian, Jia Jian-min. Predicting sales and market share with online search: evidence from Chinese automobile market[J]. Journal of Industrial Engineering and Engineering Management, 2015, 29(4): 56-64.) |
[6] | 马松岳, 许鑫. 基于评论情感分析的用户在线评价研究——以豆瓣网电影为例[J]. 图书情报工作, 2016, 60(10): 95-102. (Ma Song-yue, Xu Xin. Study on user online evaluation based on sentiment analysis of comments: taking douban.com movie as an example[J]. Library and Information Service, 2016, 60(10): 95-102.) |
[7] | Eslami S P, Ghasemaghaei M. Effects of online review positiveness and review score inconsistency on sales: a comparison by product involvement[J]. Journal of Retailing and Consumer Services, 2018, 45: 74-80. DOI:10.1016/j.jretconser.2018.08.003 |
[8] | 焦梦蕾, 赵涛, 徐勇, 等. 一种考虑文本UGC情感特征的消费者行为预测模型[J]. 情报理论与实践, 2019, 42(12): 139-143. (Jiao Meng-lei, Zhao Tao, Xu Yong, et al. A consumer behavior prediction model on emotional feature of text UGC[J]. Information Theory & Application, 2019, 42(12): 139-143.) |
[9] | Gu B, Park J, Konana P. Research note—the impact of external word-of-mouth sources on retailer sales of high-involvement products[J]. Information Systems Research, 2012, 23(1): 182-196. DOI:10.1287/isre.1100.0343 |
[10] | Blal I, Sturman M C. The differential effects of the quality and quantity of online reviews on hotel room sales[J]. Cornell Hospitality Quarterly, 2014, 55(4): 365-375. DOI:10.1177/1938965514533419 |
[11] | Hou F, Li B, Chong A Y L, et al. Understanding and predicting what influence online product sales? a neural network approach[J]. Production Planning & Control, 2017, 28(11/12): 964-975. |
[12] | Bateman P J, Gray P H, Butler B S. Research note—the impact of community commitment on participation in online communities[J]. Information Systems Research, 2011, 22(4): 841-854. DOI:10.1287/isre.1090.0265 |
[13] | Zhang C, Tian Y X, Fan L W. Improving the Bass model's predictive power through online reviews, search traffic and macroeconomic data[J]. Annals of Operations Research, 2020, 295(2): 881-922. DOI:10.1007/s10479-020-03716-3 |
[14] | Sugden R, Starmer C, Schmidt U. Third-generation prospect theory[J]. Journal of Risk and Uncertainty, 2008, 36(3): 203-223. DOI:10.1007/s11166-008-9040-2 |
[15] | Tversky A, Kahneman D. Advances in prospect theory: cumulative representation of uncertainty[J]. Journal of Risk and Uncertainty, 1992, 5(4): 297-323. DOI:10.1007/BF00122574 |
[16] | Zou Z H, Yi Y, Sun J N. Entropy method for determination of weight of evaluating indicators in fuzzy synthetic evaluation for water quality assessment[J]. Journal of Environmental Sciences, 2006, 18(5): 1020-1023. DOI:10.1016/S1001-0742(06)60032-6 |
[17] | Pesaran M H, Shin Y, Smith R J. Bounds testing approaches to the analysis of level relationships[J]. Journal of Applied Econometrics, 2001, 16(3): 289-326. DOI:10.1002/jae.616 |
[18] | Inoue A, Kilian L. In-sample or out-of-sample tests of predictability: which one should we use?[J]. Econometric Reviews, 2005, 23(4): 371-402. |
[19] | Zhu F, Zhang X. Impact of online consumer reviews on sales: the moderating role of product and consumer characteristics[J]. Journal of Marketing, 2010, 74(2): 133-148. |