基于空间情感建模的奶茶市场多源决策优化
雷佳潼 陈姗姗 顾林奕 张颢馨 奚赛珊 刘子杭
上海工程技术大学 电子电气工程学院 上海 201620
1 引言
1.1 研究背景与问题提出
新中式茶饮行业已成为中国消费市场最具活力的增长极之一。权威《2023-2024中国茶饮行业年度报告》显示,其市场规模已攀升至 1933 亿元,年复合增长率高达15.7%,相关平台的在线用户评论总量更是突破亿级大关。然而,伴随行业的蓬勃发展与市场竞争的日益激烈,品牌商在精细化运营和决策支持方面面临着严峻挑战。
现有研究与实践在舆情分析维度上存在显著局限。当前方法多局限于评论情感的正负极性判断,忽视了情感强度差异、时空分布特征及其与地理位置、消费场景、人群属性的深层次关联。这种单一维度的分析难以支撑精准的市场决策。
同时,数据获取与处理构成关键瓶颈。一方面,生活服务平台日益复杂的反爬机制导致传统采集方法数据完整性不足;另一方面,评论中充斥的方言、网络用语、表情符号等噪声,大幅增加了数据清洗与语义理解的难度,进而影响了分析结果的可靠性和全面性。此外,数据价值转化不足的问题亦十分突出。尽管大量商户认识到在线评论的价值,但普遍缺乏有效工具将这些宝贵的数据资产转化为选址、定价、产品优化、服务提升等具体的可执行策略。以上三个维度的挑战共同制约了奶茶行业基于用户反馈进行深度市场洞察与决策优化的能力。
1.2 研究目标与理论创新
本研究旨在构建一个融合多源数据、先进情感计算与空间分析技术的奶茶行业区域市场诊断框架,以系统性地解决上述背景中提出的挑战。其核心理论创新体现在以下三个方面。首先,在分析框架层面,本研究首创了“地理信息 - 情感强度 - 消费需求”三维一体化框架。该框架突破了传统舆情分析的局限,不仅关注文本情感的极性,更致力于量化其强度;不仅考察评论内容本身,更将其与时空属性紧密关联;不仅识别表层情绪,更深入挖掘其背后蕴含的潜在消费需求。这一多维度的整合设计,旨在实现对区域市场状况的深度、全面诊断。
其次,针对数据获取的瓶颈,本研究开发了创新的数据采集技术方案。该方案融合了动态代理调度算法与基于 Selenium 的浏览器行为模拟技术,有效解决了生活服务平台日益复杂的反爬问题。通过智能管理 IP 资源并实现高频切换,同时模拟用户的真实浏览行为(如页面滚动、点击),显著提升了在核心平台(如美团、大众点评)的数据采集完整度和可靠性,为后续分析提供了坚实的数据基础。
最后,在核心模型算法层面,本研究设计了先进的BERT-BiLSTM 混合情感分析模型。该模型结合了预训练语言模型BERT 强大的深度语义表征能力与双向长短期记忆网络(BiLSTM)在捕捉上下文长距离时序依赖方面的优势。这种混合架构显著提升了对复杂语义表达(如反讽、隐含否定)及关键负面评论的识别精度,为精准定位服务短板、理解用户深层诉求提供了强有力的技术支持。
2 方法论体系
2.1 多源数据采集与预处理均建一级联不构
构建三级联动架构:
反爬破解层:核心解决数据获取壁垒。通过动态代理调度管理高匿 IP 资源(自动验证与切换),并深度集成Selenium 框架模拟真实用户操作(页面滚动、点击)(2)多源融合层:设计跨平台数据抓取引擎,统一调度任务。覆盖核心平台(美团、大众点评)、外卖(饿了么)、社交分享(小红书)等渠道,抓取形成包含文本、评分、时间戳、地理位置、店铺信息等结构化/ 半结构化数据集。(3)语义净化层:针对强噪声特性实施精细化清洗。建立语义过滤规则库清洗无效符号、广告及重复内容;构建行业专用映射词典处理方言词汇及高频表情符号,提升文本特征纯度。
2.2 核心模型设计
2.2.1 空间情感关联模型
采用全局莫兰指数(Global Moran's I) 量化区域差评空间聚集效应:

其中:n 为空间单元数,wᵢⱼ 为空间权重,yᵢ, yⱼ 为单元差评率,ȳ 为均值。Moran's I值范围 [-1,1],显著正值表示空间正相关(聚集),显著负值表示负相关(交错),接近0 表示随机分布。该指数有效识别差评空间聚集热点。
2.2.2 多模态情感分析模型
本研究构建的多模态情感分析模型旨在融合文本与视觉信息,实现对用户情感的综合精准量化。模型采用分层策略处理文本:先用 SnowNLP 快速判定情感倾向,对复杂评论则用BERT 提取深度语义表征,输入 BiLSTM 捕获上下文依赖,最终实现细粒度情感分类,显著提升对复杂语义及负面情感的识别能力。同时,模型使用预训练ResNet50 分析产品图片,提取颜色、构图、质地等视觉特征,捕捉用户对“颜值”的情感反馈。
最后,引入注意力机制,动态加权融合文本与视觉特征,输出细粒度情感强度得分,精准量化用户基于产品全方位体验(口味+ 视觉)的情感。
2.2.3 消费群体特征与需求挖掘模型
针对特定消费群体(如学生),构建特征与需求量化模型:主题特征提取:应用LDA 主题模型分析群体评论,挖掘高频主题(如“价格”、“口味”、“自习”),揭示其核心关注点。
(2)价格敏感度量化: 定义价格敏感度指数(PSI):
PSI = α * (F_neg_price / F_total) + β * (Intensity_neg_price) + γ * (S_lowprice / S_total) 其中:
F_neg_price:群体评论中提及价格(如“贵”、“划算”)且为负面情感的频次F_total:群体评论总频次
Intensity_neg_price:价格相关负面评论的平均情感强度
S_lowprice:群体所在区域低价位带(如<15 元)产品销量/ 评论占
S_total:该区域总销量/ 评论占比α,β,γ 为标准化后的权重系数(α+β+γ=1该指数综合文本提及、情感强度及消费行为,客观量化群体价格敏感程度。2.2.4 差评时段预测模型 (LSTM)
利用历史差评数据(按时段聚合),构建LSTM 时间序列预测模型。输入特征包括历史差评率、订单量(如有)、时间段类型、天气因素等。模型学习差评率时序变化模式,预测未来特定时段差评概率,为动态定价与资源调度提供预警。性能以平均绝对百分比误差 (MAPE) 评估。
3 实证研究发现与区域诊断
3.1 全国市场宏观规律洞察
(1)空间分布高度异质化
门店呈现显著聚集效应:长三角、珠三角、京津冀核心经济圈密度最高(如市中心达 5.7 家 /km²),形成“高密度连绵区”;西部地区密度梯度陡降:省会核心商圈约2–3 家/km²,非核心区域均值<0.9 家/km²(长三角核心区密度为西部非核心区的6.3 倍);分布规律与人口密度(*r*=0.87)、人均消费水平(*r*=0.79)呈强正相关。
(2)价格带与消费群体强关联
a. 高校 / 年轻社区:学生及年轻白领主导,价格敏感指数(PSI)高达 0.82,15 元以下产品占比82%。
b.CBD/ 高端商圈:商务客群为主,PSI 降至 0.45,15–25 元中高端产品占比47%,对品质、空间环境需求显著提升。
a. 学生群体:高频提及“自习”“续航”“安静”(频次超行业均值2.1 倍),重视座位、WiFi 及安静环境。
(3)服务需求场景化分化
b. 商务群体:聚焦“效率”“外带”“洽谈”,强需求出杯速度与便携包
3.2 深度区域诊断案例:以松江大学城区域为例
(1)精准捕捉时空差评规律:模型识别出差评率存在显著时间波动。午间高峰期(11:00-13:00)差评率飙升至34.7%,远超区域日均值( 20% )和全国午间均值( (19.2% )。该时段差评率与实时订单量呈强正相关(R=0.78),明确指向订单激增导致的服务能力不足(如等待过长、订单错误)。下午下课时段(16:00-18:00)也存在差评小高峰。
(2)精准定位核心服务短板:
a. 配送超时问题突出(占比 32%> 全国均值 28% ):与大学城区域大、宿舍分散、高峰期运力紧张相关。
b. 产品标准化程度低(占比 25%> 行业基准 18% ):主要表现为糖度、冰量不稳定口感不一致,反映高峰期操作流程、员工培训及配方标准化不足。
(3)精准验证消费群体画像与需求:分析印证学生群体特征:价格敏感度高(PSI=0.85),15 元以下产品销量占比达82%,促销活动反响积极。“自习”、“插座”、“安静”等场景关键词频次达行业均值2.5 倍,凸显对“第三空间”属性的强烈需求。
3.3 模型性能对比验证
为验证核心情感分析模型(BERT-BiLSTM)的有效性,本研究在相同测试集上将其与逻辑回归(LR)、朴素贝叶斯(NB)等基线模型对比。结果表明,传统模型(LR、NB)在识别蕴含复杂语义的负面评论(如涉及配送超时、产品标准化问题)时表现欠佳,差评召回率均不足 16%⨀ 。相比之下,BERT-BiLSTM 模型展现出显著优势,准确率达88.9%,F1 值 0.83,尤其差评召回率大幅提升至 76.4% 。这种对关键负面信息的高召回能力,确保了模型能够精准定位服务短板,为后续区域市场的深度诊断提供了坚实可靠的技术支撑。
4 创新应用价值与实践启示
4.1 技术应用与解决方案
本研究构建的模型体系可直接转化为赋能行业的技术解决方案:(1)智能动态定价与资源调度系统:基于 LSTM 差评预测模型(MAPE=7.2%)及订单数据,生成高峰期限时定价策略(如提价 / 优惠套餐错峰)与人员排班方案。模拟显示:该策略可提升高峰期坪效 23% ,并通过分流需求降低差评率。(2)产品健康指数与需求响应模型:动态追踪评论中 " 少糖 "" 健康 " 等关键词的频率与情感强度,构建健康关注度指数,实时指导配方优化(如低糖选项开发)及新品研发。(3)区域市场诊断仪表盘:整合空间热力图、需求词云及核心指标(差评率 /PSI/健康指数),快速定位区域运营短板(如配送延迟、口味不稳、价格敏感),支撑差异化策略制定。
4.2 理论贡献与管理启示
(1)验证并深化“密度 - 服务质量”理论:通过空间回归分析,实证揭示门店密度与差评率呈显著负相关(β ≈ -0.37,*p*<0.01)。高密度区域因资源摊薄导致服务质量下降,启示品牌需规避扎堆选址,并通过流程优化提升单店效能。(2)提出“学生群体价格敏感度三维模型”:基于深度评论挖掘,本研究提炼出驱动学生群体价格敏感性的三个核心维度:
a. 经济性维度:低收入限制驱动绝对价格敏感。
b. 社交性维度:奶茶作为社交载体受单价门槛制约。
c. 尝鲜性维度:预算约束下追求高性价比新品→指导设计“基础款锚定价格 + 尝鲜款促销”组合策略(如拼单优惠)。
(3)推动情感分析应用范式升级:融合BERT-BiLSTM、空间分析与多模态技术,突破单一情感判断局限,构建" 强度量化- 空间关联- 决策支持" 闭环框架,为新消费领域提供可复用方法论。
5 结论与展望
5.1 主要研究结论
本研究构建“多源数据采集 - 空间情感建模 - 群体需求量化”分析体系,深入诊断奶茶市场,揭示关键运营规律:(1)高密度商圈需重点优化服务:密度>3 家/km² 区域差评率显著高于全国均值(差距 21.5%),午间高峰 (11:00-13:00) 问题突出(差评激增 >15% )。亟需优化高峰期流程(预点单、分时预约、提效、外卖协同)、保障产品标准化及现场秩序。(2)学生客群定价锚定核心价格带:学生高价格敏感度 (PSI=0.82) 是消费行为核心因素。产品布局与定价应稳固锚定 12-15 元区间,确保基础款竞争力与性价比。辅以限时促销、学生优惠、拼单活动满足“尝鲜”需求。(3)视觉情感是产品竞争力维度:融合图片视觉特征的分析表明“颜值”显著影响消费者感知与传播意愿。提升产品美观度、创新性及社交媒体传播属性(“颜值营销”)可提升平台转化率。
(4)技术驱动诊断赋能决策:研发的动态代理采集、BERT-BiLSTM 情感模型、空间分析及差评预测模型构成强大区域诊断工具集,助力将海量用户反馈转化为可操作的选址、定价、产品、服务优化策略,提升数据驱动决策能力。
5.2 未来研究方向
尽管本研究取得了一定成果,未来仍可在以下方向进行深入探索:(1)社交网络影响力挖掘:融合图神经网络 (GNN) 分析社交平台传播网络,识别关键意见领袖(KOL/KOC) 及信息扩散路径,赋能口碑管理与精准营销。(2)多模态融合增强与实时分析:深化文本、图片 / 视频、音频 ( 语音评论 ) 等多模态信息融合技术,开发轻量化近实时舆情分析系统。(3)AR 可视化应用探索:开发基于 AR 的市场诊断系统,在实体店或地图上投射舆情热力图(差评热点、需求热点),提供沉浸式决策支持。(4)纵向追踪与因果推断:建立长期数据池,追踪商家采纳诊断建议实施改进后在线评价、满意度及经营绩效变化,严谨评估因果效应,持续优化模型。(5)模型通用化与平台化:探索核心模型与方法论的抽象泛化,适配咖啡、快餐等餐饮细分及零售服务业,构建通用新消费市场智能诊断平台。
参考文献:
[1] 周建 , 刘炎宝 , 刘佳佳 . 情感分析研究的知识结构及热点前沿探析 [J]. 情报学报 ,2020,39(1):111-124
[2] 莫赞 , 罗敏瑶 . 在线评论对消费者购买决策的影响研究——基于评论可信度和信任倾向的中介、调节作用 [J]. 广东工业大学学报 , 2019, 36(2): 54-61.
[3] 刘定惠 李明月 杨文滔 . 基于 SWOT 分析的高校奶茶店发展现状及其消费影响因素分析 [J]. 经济研究导刊 , 2024(12).
作者简介 : 雷佳潼(2004—),女,汉族,甘肃天水人,本科在读,研究方向:情感分析、空间信息处理。
* 通讯作者 : 陈姗姗(1990—),女,汉族,山东济宁人,博士,计算机系副教授,硕士生导师,从事网络科学与人工智能领域的研究工作。注:本文是校级大学生创新训练项目:“智评茶饮” —奶茶行业情感分析与舆情可视化系统(编号:cx2502002)的研究成果。