删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

基于社交媒体的海南旅游景区评价数据集

本站小编 Free考研考试/2022-01-02


摘要&关键词
摘要:本文从社交媒体中采集并处理了2012–2018年海南所有4A及5A级景区的评论数据构建了海南旅游景区评价数据集。本数据集旨在用于对海南旅游景区的质量评估、景区的容量管理、景区传播效果评价、景区网络舆情监测预警、景区网络口碑管理、景区形象管理、景区个性化推荐等研究。同时,结合多源化数据,本数据集可为研究海南省旅游发展提供数据支持。
关键词:海南旅游;社交媒体;景区评价;个性化推荐

Abstract & Keywords
Abstract:?This paper collected and processed the review data of all 4A and 5A scenic spots in Hainan from 2012 to 2018 to construct the Hainan tourism scenic spot evaluation data set. This dataset is intended to be used for the quality assessment of Hainan tourist attractions, the capacity management of scenic spots, the evaluation of scenic spot communication effects, the monitoring and early warning of scenic spot network, the management of scenic spot network reputation, the management of scenic spot image, and the personalized recommendation of scenic spots. At the same time, combined with multi-source data, this data set can provide data support for the study of tourism development in Hainan Province.
Keywords:?Hainan tourism;?social media;?scenic evaluation;?personalized recommendation

数据库(集)基本信息简介
数据库(集)名称基于社交媒体的海南旅游景区评价数据集
数据作者林振宇,解吉波,覃佐淼,杨腾飞,赵静
数据通信作者解吉波(xiejb@radi.ac.cn)
数据时间范围2012年1月至2018年10月
地理区域地理范围包括海南岛(北纬18°10′–20°10′,东经108.37°–111.03°)。
数据量58.8 MB
数据格式*.rar, *.sql, *.xlsx
数据服务系统网址http://www.sciencedb.cn/dataSet/handle/714
基金项目海南省重大科技计划项目(ZDKJ2016021)
数据库(集)组成数据集由1个压缩包组成,主要包括5个文件夹,数据量约125 MB,压缩后数据量约58.8 MB。5个文件夹分别为美团、同程、途牛、携程、样例数据,每个文件夹下由各旅游网站的景区评论数据组成,以两种数据形式存放(*.sql, *.xlsx)。

Dataset Profile
TitleEvaluation data set for Hainan tourism scenic spots based on social media
Data corresponding authorXie Jibo (xiejb@radi.ac.cn)
Data authorsLin Zhenyu, Xie Jibo, Qin Zuomiao, Yang Tengfei, Zhao Jing
Time rangeJanuary 2012–October 2018
Geographical scope18°10′N–20°10′N, 108°37′E–111°03′E
Data volume58.8MB
Data format*.rar, *.sql, *.xlsx
Data service system<http://www.sciencedb.cn/dataSet/handle/714>
Sources of fundingMajor Science and Technology Program of Hainan Province (ZDKJ2016021)
Dataset compositionThe dataset consists of 1 compressed package, which mainly includes 5 folders, the data volume of about 125MB, and the compressed data volume of about 58.8MB. The five folders are Meituan, Tongcheng, Tuniu, Ctrip, and sample data. Each folder is composed of scenic review data of each travel website and stored in two forms of data (*.sql, *.xlsx).



引 言
旅游是海南省的经济支柱产业之一,对其他相关产业的发展有着较强的带动作用。研究和提高海南各景区的服务质量,满足游客多元化的旅游需求,对进一步促进海南旅游产业的发展至关重要。
随着旅游互联网的快速发展,大量和旅游景区相关的用户评论信息为旅游业的发展研究提供了有力数据支持。更多的潜在游客,会在出行前根据这些评论信息制定旅游路线,协助旅游决策[1–3]。通常,这些数据信息多以文本、图片的形式出现在各大社交媒体平台上。这些信息通常表达了游客对于相关景区的意见、建议和满意度,从而为景区质量和服务的进一步提升提供有效参考。目前,国内外已有不少****对景区的社交媒体信息展开相关研究,并从不同方面探讨它们的应用。如文献[4]以众包的形式收集秦皇岛高校大学生对当地旅游景区的评论信息,并结合这些数据提供者的个人信息开展用户画像的旅游情境化推荐服务研究;文献[5]利用多模态的景点信息(文本、地理标记图片以及视频生成景点的信息摘要),根据用户的查询为用户个性化地推荐景点;文献[6–8]基于签到记录数据来进行旅游路线的推荐等。然而目前,可用的基于社交媒体的开放旅游景区评论数据集并不多,这严重制约了旅游信息挖掘的研究。为此,本文以海南岛为研究对象,从主流旅游网站(包括美团网、途牛网、同程网以及携程网等)上收集和处理了2012–2018年间所有4A和5A级旅游景区的评论数据构建了数据集。

1 ? 数据采集和处理方法
本数据集的生产流程包括数据采集与清洗,数据管理和数据分类。数据制作流程如图1所示。




图1 ? 数据集制作流程图
1.1 ? 景区评论数据的采集与清洗
该部分数据以海南岛4A和5A级景区为研究对象,将4A和5A级景区分为4种类型,分别为自然景区、历史人文景区、民俗风情景区、休闲度假景区。获取了2012–2018共7年的评论数据,这些数据主要来源于包括美团、携程、同程以及途牛在内的4个旅游网站。原始数据形式为HTML,本文通过Java编程语言对其进行了解析和清洗,最终形成了283072条结构化文本数据。其中,数据清洗操作包括全半角字符的转化、繁简体文字的转化、去除同一用户的多次评论以及文本去重等。同时,为方便读者使用,该部分数据以sql和xlsx两种格式存储。如下表1–4显示了数据的基本结构信息,如图2展示了旅游景区在海南岛的分布情况。
表1 ? 海南岛自然景区名称及评论数据量
序号名称等级美团携程同程途牛地址
1海南分界洲岛旅游区5A83502771966285陵水县
2三亚大小洞天旅游区5A632128353232651三亚市
3七仙岭温泉国家森林公园4A175662613315保亭
4海南热带野生动植物园4A11?410138985175海口市
5中国雷琼海口火山群世界地质公园4A012831007278海口市
6南湾猴岛生态旅游区4A51301977729530陵水县
7天涯海角游览区4A30?510296631463509三亚市
8亚龙湾热带天堂森林旅游区4A20?000297857894017三亚市
9东山岭文化旅游区4A74056019616万宁市
10兴隆热带植物园4A1773201137563万宁市
11三亚水稻公园4A0986610三亚市
12鹿回头风景区4A23?100284648273341三亚市

表2 ? 海南岛历史人文景区名称及评论数据量
序号名称等级美团携程同程途牛地址
1三亚南山文化旅游区5A26?633294428392028三亚
2海南文笔峰盘古文化旅游区4A401625016217定安县
3博鳌亚洲论坛永久会址景区4A1725112534128琼海市

表3 ? 海南岛民俗风情景区名称及评论数据量
序号名称等级美团携程同程途牛地址
1槟榔谷黎苗文化旅游区5A509526201139260保亭县
2海南呀诺达雨林文化旅游区5A9693287623621270保亭县

表4 ? 海南岛休闲度假景区名称及评论数据量
序号名称等级美团携程同程途牛地址
1三亚蜈支洲岛度假中心5A22?340297841681261三亚市
2海口观澜湖旅游度假区4A4633410330海口市
3海口假日海滩旅游区4A0121700海口市
4三亚大东海旅游区4A305279300三亚市
5三亚西岛海洋文化旅游区4A8290282419370三亚市
6亚龙湾爱立方滨海乐园4A7851941689三亚市
7清水湾旅游区4A033000陵水





图2 ? 旅游景区在海南岛分布情况

1.2 ? 数据分类
景区社交媒体评论信息蕴含着公众对于景区不同方面的评价,这对于发现和解决旅游景区存在的问题,提高游客满意度等具有重要的参考价值。为此,本数据集从多个主题对这些评论信息进行公众情感分类。
我们根据整个文本的情感倾向,将该文本分为积极情感、消极情感和中性情感3个类别[9],用以从宏观上对该景区作出评价。从细粒度主题上分,我们则根据国家A级景区的评价指标,基于这些评价指标对该景区作出情感分类,旨在从多个主题方面刻画景区质量,以提供个性化服务需求。其中细粒度的主题指标包括景区饮食(饮食口味、饮食价格)、景区娱乐(娱乐趣味性、项目价格)、景区购物(物价、商业氛围)、景区游览(购票、景色、导游解说)、景区特色、景区卫生、景区交通、景区住宿、景区服务质量、景区安全10个方面。图3为根据国家A级景区评价指标的细粒度分类标准。




图3 ? 细粒度分类标准


2 ? 数据样本描述
2.1 ? 数据集信息
本数据集从美团、携程、同程和途牛4个旅游网站上收集并处理了海南岛所有4A和5A级景区的评论数据,数据的时间跨度为7年(2012–2018年)。
整个数据集由1个压缩文件包组成,压缩文件包由5个文件夹组成。其中4个文件夹分别以上述4个旅游网站命名,每个文件夹下分别为24个景区在该旅游网站中的所有评论数据,数据储存格式包括sql和xlsx,命名规则为“旅游网站+景区名称”;第5个文件夹以样例数据命名,该文件夹下为经过分类处理的数据,命名规则为“旅游网站+景区名称+积极/消极/中性+分类细则序号〔1 景区饮食(11饮食口味,12饮食价格),2 景区交通,3 景区特色,4 景区游览(41购票,42 景色,43 导游解说),5 景区住宿,6 景区卫生,7 景区娱乐(71娱乐趣味性,72 项目价格),8 景区服务质量,9 景区购物(91 物价,92商业氛围),10 景区安全〕”。数据集详细信息如表5。
表5 ? 海南岛旅游数据集信息
序号文件夹名称数据格式文件数量和大小
1美团sql,xlsx40;75.2 MB
2携程sql,xlsx48;28.4 MB
3同程sql,xlsx42;14.2 MB
4途牛sql,xlsx40;7.00 MB
5样例数据sql,xlsx80;642 KB


2.2 ? 分类样本描述
样本集以途牛网上分界洲岛旅游区的评论数据为基础,将这些原始数据进行多个主题的情感分类,从而得到表6所示的结果。
表6 ? 示例样本情况
分类标准细则分类标准细则总数量(条)时间情感分类数量(条)
景区饮食饮食口味42012.9–2018.10积极情感3中性情感0消极情感 1
饮食价格62012.9–2018.10积极情感2中性情感3消极情感 1
景区交通42012.9–2018.10积极情感3中性情感0消极情感 1
景区特色202012.9–2018.10积极情感17中性情感1消极情感 2
景区游览购票712012.9–2018.10积极情感53中性情感5消极情感 13
景色492012.9–2018.10积极情感43中性情感1消极情感 5
导游解说02012.9–2018.10积极情感0中性情感0消极情感0
景区住宿22012.9–2018.10积极情感1中性情感 0消极情感 1
景区卫生72012.9–2018.10积极情感5中性情感0消极情感 2
景区娱乐娱乐趣味性272012.9–2018.10积极情感10中性情感3消极情感 14
项目价格92012.9–2018.10积极情感1中性情感1消极情感7
景区服务质量182012.9–2018.10积极情9中性感情2消极情感7
景区购物物价02012.9–2018.10积极情感0中性情感0消极情感0
商业氛围22012.9–2018.10积极情感1中性情感0消极情感1
景区安全02012.9–2018.10积极情感0中性情感0消极情感 0



3 ? 数据质量控制和评估
评论海南景区旅游质量的社交媒体平台有很多。为保障数据的丰富性,我们通过比较选出了具有代表性的4个旅游网站,以确保最大程度地获取相关信息。数据收集完成后,我们人工检查了数据的有效性并删除了不完整的及与海南旅游景区无关的评论数据。在分类样例中,本文所用的细粒度主题则是根据国家A级景区的评价指标来拟定。对于分类样例中的文本情感类别标签,我们安排了2个同事进行人工判读,并对结果进行复议和讨论,以确保最终分类的正确性。

4 ? 数据使用方法和建议
本数据集包含海南岛4A级以上所有景区2012–2018年以来283072条社交媒体评论数据。研究人员可通过互联网文本情感分析算法抽取公众对景区不同主题特征的态度信息,同时结合时间维度从公众观测的角度探究景区质量的变化特征,为景区网络口碑、形象管理等提供数据参考。通过互联网主题聚类算法,如LDA(Latent Dirichlet Allocation)、K-means聚类算法、或者简单的词频计算等语义挖掘算法从各景区海量评论信息中抽取公众关注热点,以服务于旅游景区的个性化推荐、景区发展规划等。官方发布的诸如旅游景区统计年鉴等数据,可以与本数据集作为相互验证和补充的数据,将会在景区容量管理、景区传播效果评价、景区形象管理、景区热度分析、景区质量评价分析、景区发展趋势等研究上发挥重要作用。


[1]
FANG B, YE Q, KUCUKUSTA D, et al. Analysis of the perceived value of online tourism reviews: Influence of readability and reviewer characteristics[J]. Tourism Management, 2016, 52: 498-506.

+?CSCD?·?Baidu Scholar

[2]
SCHUCKERT M, LIU X, LAW R. Hospitality and tourism online reviews: Recent trends and future directions[J]. Journal of Travel & Tourism Marketing, 2015, 32(5): 608-621.

+?CSCD?·?Baidu Scholar

[3]
ZHU F, ZHANG X. Impact of online consumer reviews on sales: The moderating role of product and consumer characteristics[J]. Journal of marketing, 2010, 74(2): 133-148.

+?CSCD?·?Baidu Scholar

[4]
刘海鸥, 孙晶晶, 苏妍嫄, 等. 基于用户画像的旅游情境化推荐服务研究[J]. 情报理论与实践, 2018, 41(10): 87-92.

+?CSCD?·?Baidu Scholar

[5]
WU X, LI J, ZHANG Y, et al. Personalized multimedia web summarizer for tourist[C]. Proceedings of the 17th international conference on World Wide Web. ACM, 2008: 1025-1026.

+?CSCD?·?Baidu Scholar

[6]
HSIEH H P, LI C T. Composing traveling paths from location-based services[C]. Sixth International AAAI Conference on Weblogs and Social Media , Toronto, Canada, 2012: 618-619.

+?CSCD?·?Baidu Scholar

[7]
LIAN D, XIE X. Learning location naming from user check-in histories[C]. Proceedings of the 19th ACM SIGSPATIAL International Conference on Advances in Geographic Information Systems, ACM, 2011: 112-121.

+?CSCD?·?Baidu Scholar

[8]
ZHENG Y, XIE X. Learning travel recommendations from user-generated GPS traces[J]. ACM Transactions on Intelligent Systems and Technology (TIST), 2011, 2(1): 2.

+?CSCD?·?Baidu Scholar

[9]
陆林, 朱申莲, 刘曼曼. 杭州城市旅游品牌的演化机理及优化[J]. 地理研究, 2013, 32(3):556-569.

+?CSCD?·?Baidu Scholar


数据引用格式
林振宇, 解吉波, 覃佐淼, 等. 基于社交媒体的海南旅游景区评价数据集[DB/OL]. Science Data Bank, 2018. (2018-12-17). DOI: 10.11922/sciencedb.714.

稿件与作者信息

论文引用格式
林振宇, 解吉波, 覃佐淼, 等. 基于社交媒体的海南旅游景区评价数据集[J/OL]. 中国科学数据, 2019, 4(2). (2019-04-17). DOI: 10.11922/csdata.2018.0094.zh.
林振宇LIN Zhenyu

主要承担工作:数据收集与处理,论文撰写。
(1997—),女,河南省周口市人,硕士生,研究方向为3S技术理论与应用。

解吉波XIE Jibo

主要承担工作:数据集结构设计与技术指导。
xiejb@radi.ac.cn
(1977—),男,山东省青岛市人,博士,副研究员,研究方向为地理空间数据基础设施、遥感、地理计算。

覃佐淼QIN Zuomiao

主要承担工作:数据收集与处理,论文撰写。
(1994—),男,湖南省常德市人,硕士生,研究方向为空间数据挖掘。

杨腾飞YANG Tengfei

主要承担工作:数据处理,技术指导,论文修改。
(1988—),男,河南省洛阳市人,博士生,研究方向为自然语言处理、灾害信息挖掘。

赵静ZHAO Jing

主要承担工作:数据收集与检查。
(1988—),女,江苏省镇江市人,博士生,研究方向为信号与信息处理、全球变化(碳排放、气候和灾害)数据挖掘和分析。


相关话题/数据 信息 旅游 媒体 饮食

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 海南岛高分一号卫星遥感深加工数据集
    摘要&关键词摘要:海南岛是我国第二大岛屿,也是海上丝绸之路的重要战略支点。高质量的卫星遥感深加工产品集对于海南省资源环境动态调查和社会经济协调发展具有重要意义。本数据选用了2015–2016年共67景云量较低的高分一号卫星遥感数据,覆盖海南全岛,通过卫星遥感深加工服务系统,对高分一号进行深加工处理, ...
    本站小编 Free考研考试 2022-01-02
  • 海南省东方市地质旅游资源数据集
    摘要&关键词摘要:东方市是海南省西部的重要港口城市,拥有丰富的地质旅游资源。通过收集遥感、地质、地理等多源数据,根据国家标准《地质遗迹调查规范》(DZ/T0303-2017),结合野外实地调查获取相关数据,调查了东方市11处地质旅游资源单体,构建了海南省东方市地质旅游资源数据集。结果发现,东方市发育 ...
    本站小编 Free考研考试 2022-01-02
  • 1970–2017年海南岛Landsat系列卫星遥感深加工数据集
    摘要&关键词摘要:自海南省经济特区建立以来,海南岛的自然环境和城市发展均发生了沧海巨变。在新的国家战略形势下,面向海南国际旅游岛建设、海上丝绸之路建设以及东盟战略的重大需求,高质量的长时间序列的卫星遥感数据集对于城市建设、环境保护、农业规划、生态旅游等方面具有重大的参考价值。为了宏观了解海南岛的变迁 ...
    本站小编 Free考研考试 2022-01-02
  • 基于Landsat数据的三亚市陆表温度反演数据集
    摘要&关键词摘要:陆表温度是影响城市环境质量的重要因素之一。近年来,陆表温度在各大城市中的研究越来越多。本文基于Landsat系列影像数据,利用RSTAR辐射传输模型对三亚市陆表温度反演研究,实验得到了2000年、2004年、2008年、2012年、2016年和2018年三亚市陆表温度产品。结果表明 ...
    本站小编 Free考研考试 2022-01-02
  • 三亚市热异常遥感监测数据集
    摘要&关键词摘要:针对三亚市热异常问题,本文以2008–2017年Landsat数据为主要数据源,基于辐射方程传输法反演地表温度和改进的箱线图法提取高温异常区,进行高温异常区频率统计,将频率大于60%的高温异常区判定为城市热异常区,得到10年间城市热污异常区。本数据集可应用在其他城市,进行多区域城市 ...
    本站小编 Free考研考试 2022-01-02
  • 基于Sentinel-1 SAR和Sentinel-2A光学影像的海南岛城市不透水面数据集
    摘要&关键词摘要:城市不透水面是城市化进度和城市化率评估的重要指标,城市不透水面面积比例也是衡量城市生态系统是否健康的重要指标之一。在全球城镇化背景下,城市不透水面提取成为研究热点。本数据集是利用多时相和升降轨Sentinel-1SAR和Sentinel-2A光学影像融合并采用一种不透水面快速提取方 ...
    本站小编 Free考研考试 2022-01-02
  • 2004–2015年三亚市不透水面分布数据集
    摘要&关键词摘要:不透水面是城市最基本组成成分之一,对城市生态环境和区域发展具有显著影响。遥感以其快速、大范围、多尺度、可重复对地观测等优势,近年来在不透水面研究中得到广泛应用。本研究以三亚市为研究区,选取收集该区域2004年、2008年、2011年、2013年和2015年的Landsat系列遥感影 ...
    本站小编 Free考研考试 2022-01-02
  • 基于多源遥感数据的海南岛天然林分类数据集
    摘要&关键词摘要:热带森林是全球物种最为丰富的森林生态系统,主要分布在赤道附近的热带气候区域,在全球气候变化中发挥着重要作用。因此,对热带森林进行资源调查及监测具有十分重要的意义,其中天然林的分类研究不仅能够为热带森林的调查提供数据支持,也能够为森林的物种多样性研究提供依据。本数据集利用Sentin ...
    本站小编 Free考研考试 2022-01-02
  • 2013–2017年海南岛陆域水体遥感提取数据集
    摘要&关键词摘要:陆域水体分布是全球水资源安全和管理、气候变化研究、生态环境动态监测等不可或缺的重要基础信息。本文基于高分1号数据与Landsat8OLI数据,通过最小冗余最大相关性特征选择(mRMR)算法,采用面向对象知识规则集自动化提取海南岛2013–2017年连续5年的陆域水体分布信息,结合高 ...
    本站小编 Free考研考试 2022-01-02
  • 1987–2018年儋州湾和三亚珊瑚礁国家级自然保护区浅海珊瑚礁分布数据集
    摘要&关键词摘要:利用覆盖儋州湾和三亚珊瑚礁国家级自然保护区的GF-2影像、Sentinel-2影像和LandsatTM/OLI影像数据,运用ENVI5.2和ArcGIS10.1软件,结合野外调研资料,总结了珊瑚礁生长分布的规律,采用目视解译和阈值分割的方法,提取儋州湾和三亚珊瑚礁国家级自然保护区浅 ...
    本站小编 Free考研考试 2022-01-02