缩略图
Mobile Science

旅游目的地印象分析及评分预测系统构建基于网络评论数据

作者

陈之愉

浙江财经大学数据科学学院 浙江杭州 310018

引言

旅游业作为现代服务业的重要组成部分,其发展折射出一座城市的吸引力和活力。近年来,随着旅游目的地竞争的不断加剧,各个城市竞争层次逐步深化,旅游目的地的竞争不再局限于旅游资源和质量的竞争,旅游目的地在游客心中的印象在旅游城市竞争中的价值得以突显。旅游目的地印象是否独特、完好和富有趣味是旅游地产生引力的关键,也是游客对旅游地感知的第一印象。目的地印象的形成对游客出游决策、游中体验和游后评价都起到关键的作用,是推动旅游业发展的灵魂与核心。由此,众多旅游地点的竞争已经不再是商品质量、商品价格等单一因素的竞争,而是上升为带有主观情感判断的旅游形象的竞争[1]。

目前,游客借助在线评论平台分享旅游体验信息,表达自己对旅游目的地的真实感知, 已经成为旅游活动的常态。对于旅游目的地而言,游客评论作为非结构化数据,内容涵盖了消费者的有效反馈信息及情感体验, 同时也是反映游客目的地体验的重要信息来源 [2]。众多评论能勾勒旅游目的地整体品牌形象,传递出大众对旅游目的地的褒贬评价,为此,精准识别游客感知已成为旅游目的地城市品牌建设的首要任务。与此同时,挖掘游客关注热点能够为旅游形象提升、旅游资源调配、旅游地规划提供参考依据[3]。

01​相关工作

现有对游客印象形成机制的相关研究,多采用基于深度访谈的扎根理论、内容分析等定性方法。扎根理论作为质性研究的重要方式,主要是对访谈资料的编码以及概念的梳理和范畴的提炼 [4]。然而,访谈资料往往具备连续性强、篇幅大的特征,对片段化的资料通常不予考虑 [5]。经验性观察发现,大量游客评论事实上均是“只言片语”,而非整理规范的“旅游攻略”。这些碎片化的评论,可能反映了游客在旅游体验过程中的动态情感变化,但通常都被过滤处理。对于完整形态的长篇幅旅游攻略,除了可能是业内知悉的“水军软文”之外,这些长评论集中反映了那些愿意发表观点的旅游者的看法 [6]。对于“目的地印象形成过程”的定量研究而言,通常借助中介变量的方式来发现哪些因素影响了游客感知的形成过程。这些样本数量较少的定量研究,虽然局部揭示了某些因素在游客感知形成过程中扮演的角色,但并未全面展示游客感知形成过程的动态性,尤其是游客印象蕴含的多维度的复杂情感 [7][8]。由此看来,当前关于旅游目的地印象分析研究仍存在样本量小、数据过滤不当、方法形式单一、滞后性强等问题。

02​数据准备与预处理

本文主要选取携程网与去哪儿网作为游客评论数据的主要来源,爬取评论的时间为 2015—2021 年,对各个景区进行编码处理后,形成景区POI 信息数据库。

首先,对评论数据进行清洗 [9]。本文首先使用 python 软件利用正则表达式进行剔除操作,对于评论中的异常和冗余字符,则使用jionlp 的 clean_text 函数进行清洗。其次,景区地名处理。在评论中出现大量的“都江堰”“成都动物园”等地区名称。针对该类数据,首先使用 pkuseg 中的旅游细领域分词模型(tourism)对评论进行分词,再使用 jionlp 的 remove_stopwords 函数去除地名。再次,繁体评论处理。部分评论采用繁体字进行描述如“現場”“區域”等,此类数据采用jionlp 中的tra2sim 函数将其转换成为简体和表达方式。随后,进行数据提纯。具体流程为:(1)完全重复评论处理。数据集中存在部分完全相同的评论,本文仅保留 1 条评论;(2)相似评论处理。对于相似文本的处理,采用的是 Simhash 算法,该算法将文本映射成指纹,通过对比指纹来识别相似文本,当算法返回一对评论的相似度大于某个阈值时,则可删除任意一条评论;(3)评论分割处理。本文考虑以逗号、句号、感叹号等符号作为断句符号,将句子进行更新粒度的划分,从而有利于信息的高效提取。

最后,进行评论数据标签设计。本文采用 Word2vec 训练相似词,得到本文五个维度对应的词袋,以进行各条评论主题的判别。具体流程为:(1)景区评论细粒度处理。服务、位置、设施、卫生、性价比属于评论中的粗粒度,其包含的方面极其广泛。因此,本文设计了景区的细粒度提高分词精度;(2)选取训练得到的 top30 的热词,将其分别归为服务、位置、设施、卫生、性价比五个维度的词语;(3)运用 word2vec 训练分词去停后评论的词向量,查找距各个热词最为相近的 30 个特征词,初步形成 180 个锚定词;(4)对预处理后的评论按逗号、句号、感叹号、问号等句末标点分句。最终得到的五大类锚定词,作为先验知识输入CorEx 主题模型进行训练,得到服务、位置、设施、卫生、性价比五个维度的主题模型。

03​实验结果及分析

3.1 游客评论热词提取

提取 TOP20 热门词,构造“旅游评论热词词库”。从针对景区在线评论的热词分析及可视化词云图来看,可以将消费者对于景区的关注方向划分为周围的环境、可访问性的位置和对称信息三个部分。表​1​景区评论词语热度及对应词频

3.2 基于CorEx 与情感值的主题判别

游客对旅游目的地在各个维度的评分以及综合评分是游客对旅游满意度的直观体现,是反映游客目的地体验的重要信息来源。本文基于 CorEx 主题模型,采用 CNN-LSTM 模型对旅游目的地评分进行预测,实现旅游目的地印象评分自动化计算,得出五个主题模型的均方差(MSE),若误差较小,则证明此模型有效。具体步骤如下:

步骤1 :采用Word2vec构建训练模型的先验知识。采用Word2vec将分词去停用词后的评论进行词向量的训练,旨在寻找出相似词。随后,选取top30 热词,将其分别归入五个维度,使用Word2vec 查找30 个最相近的词语,作为后续分析的先验知识;

步骤 2 :采用 CorEx 主题模型分别进行五个主题的训练。将评论以逗号,句号,感叹号问号等句末标点分句,并将先验知识输入CorEx 主题模型进行训练。每个分句进行相应的主题判别,得出每条评论对应的主题以及主题总数。随后将评论分句及相应得分分别映射至五个维度,各维度的评论分句得出对应主题总得分;

表​2​景区锚定词示例

表​3​主题判断示例表格

5.2 基于 CNN-LSTM 的评分预测模型构建

卷积神经网络 (CNN),由多层感知器构成,是深层神经网络中的一种,其本质在于构建多个滤波器,从而高效提取数据特征,其主要由卷积层、池化层和全连接层构成[11]。即长短时记忆神经网络(LSTM)的控制流程与循环神经网络(RNN)相似,它们都是在前向传播的过程中处理流经细胞的数据,不同之处在于 LSTM 中细胞的结构和运算有所变化,是解决短时记忆问题的解决方案[12]。近年来,CNN 在文本处理的领域中已经取得较好的发展,而 LSTM 擅长对自然语言建模,把任意长度的 子转化为特定维度的浮点数向量,同时“记住”句子中比较重要的单词,让“记忆”保存比较长的时间 [13] 。该模型很好地解决了自然语言句子向量化的难题,对利用计算机来处理自然语言来说具有非常重要的意义 [14]。

本文采用 RF、GDBT、CNN-LSTM 模型采用均方根误差(MSE)分别进行效果的比较,MSE 可以评价数据的变化程度,MSE 的值越小,说明预测模型描述实验数据具有更好的精确度。从景区不同分类器训练效果对比来看,CNN-LSTM 模型在景区评论的 MSE 最小,训练效果较RF 和 GDBT 更佳,而在景区评论中,服务、位置、设施三个维度的评论训练效果 RF 训练更佳,卫生、性价比两个维度的评论效果则 CNN-LSTM 效果更好。为此,选择CNN-LSTM 进行评分预测更加具备合理性。

图1​景区分类结果

04​结论

本文利用爬虫技术捕获其在携程网和去哪儿网等网站上的景区信息;其次,综合应用 TextRank、CNN、LSTM 等算法对评论文本数据进行分析,并预测目的地印象评分。基于上述研究可以得到以下结论。(1)基于游客评论的文本挖掘探索性分析,可以得出游客到达旅游目的地时,关注的方向主要可以划分为周围环境、可访问位置以及对称信息三个关键点。(2)基于 CNN-LSTM 模型的旅游目的地评分预测系统构建,可知在 CorEx 主题模型进行主题训练判别的基础上加以情感评分修正,可以极大程度地提高模型的精确度。(3)以 MSE 作为判别标准,对 RF、GDBT、CNN-LSTM 模型进行比较与讨论,可以看到 CNN-LSTM 模型在景区评论的训练中 MSE 最小,训练效果较其他基线模型更佳。

参考文献:

[1] 史达,张冰超,衣博文。 游客的目的地感知是如何形成的?——基于文本挖掘的探索性研究 [J]. 旅游学刊, 2022, 37(03):68-82.

[2] 陈钢华 , 李萌 . 旅游者情感研究进展:历程、主题、理论与方法 [J]. 旅游学刊 , 2020, 35(07): 99-116.

[3] 王承云 , 戴添乐 , 蒋世敏 , 涂明程 . 基于网络大数据的上海红色旅游形象感知与情感评价研究 [J]. 旅游科学 ,2022, 36(02): 138-150.

[4] 高军, 马耀峰, 吴必虎. 外国游客感知视角的我国入境旅游不足之处——基于扎根理论研究范式的分析 [J]. 旅游科学 , 2010, 24(05): 49-55.

[5] 熊伟 , 胡洋 . 旅游者对旅游“非营利”理念的感知研究——基于扎根理论 [J]. 旅游科学 , 2012, 26(02): 67-76+94.

[6] 刘逸, 保继刚, 陈凯琪. 中国赴澳大利亚游客的情感特征研究——基于大数据的文本分析 [J]. 旅游学刊, 2017,32(05): 46-58.

[7] 王永明, 王美霞, 李瑞, 吴殿廷. 基于网络文本内容分析的凤凰古城旅游地意象感知研究 [J]. 地理与地理信息科学 , 2015, 31(01): 64-67+79.

[8] 谢双玉, 刘琪, 龚箭, 乔花芳, 王安琦. 城市形象感知对旅游满意度的影响——基于武汉市旅游者的调查分析 [J].地域研究与开发 , 2019, 38(02): 106-111.

[9] 郭志懋 , 周傲英 . 数据质量和数据清洗研究综述 [J]. 软件学报 , 2002, (11): 2076-2082.

[10] 张紫琼 , 叶强 , 李一军 . 互联网商品评论情感分析研究综述 [J]. 管理科学学报 , 2010, 13(06): 84-96.

[11] 朱金箫, 陈媛媛. 基于深度学习的智库文本分类 [J]. 情报杂志, 2022, 1-7.

[12] 冯月春 , 陈惠娟 . 改进 Bi-LSTM 的文本相似度计算方法 [J]. 计算机工程与设计 , 2022, 43(05): 1397-1403.

[13] 夏林中, 叶剑锋, 罗德安, 管明祥, 刘俊, 曹雪梅. 基于BERT-BiLSTM 模型的短文本自动评分系统 [J]. 深圳大学学报 ( 理工版 ), 2022, 39(03): 349-354.

[14] 王颖洁, 朱久祺, 汪祖民, 白凤波, 弓箭. 自然语言处理在文本情感分析领域应用综述 [J]. 计算机应用, 2022,42(04): 1011-1020.

基金资助:浙江省一流学科A 类(浙江财经大学统计学)2024 年度教学建设项目(Z0330823045/039)