基于LDA 模型与情感分析的微博舆情生成与演化路径
郭雪晗 肖文莉 周新颖
湘潭大学 湖南湘潭 411100
中图分类号:G350.7 文献标识码:A
0 引言
随着移动互联网的快速发展,网络已成为人们表达民意和交流情感的重要载体,推动了舆论和信息传播的网络化发展。网络舆情传播的特点在于速度快、意见集中等,其中,微博这一重要社交媒体平台,涵盖了海量的用户观点和情感信息。用户在微博上的情感表达不仅能够影响微博内容本身的传播,还能够迅速感染其他用户,甚至可以在短时间内引爆话题,影响公众情感,如涉及人身安全、社会公平和性别对立等问题 [1]。关于此事件的态度和讨论,很可能因时间、地域和个人观点而有所不同。因此,本文以邯郸初中生遇害案为例,基于LDA 模型与情感分析,对微博舆情生成与演化路径进行研究,可以感知网民的情绪变化和关注热点,从而及时发现问题、深入分析原因,为社会舆情管理提供科学依据。
1 研究综述
当前,网络舆情研究已经涉及网络舆情的生成、传播、引导、监管等多个方面,研究成果日益丰富。高虒源等采用网络爬虫技术收集案例,基于扎根理论分析网络舆情危机的产生并确定政府的舆情处理、公共危机响应、自身因素和舆论讨论是四个核心影响因素 [2]。吴江等基于引爆点理论三大黄金法则,从内容、用户和情感三维度构建了AIGC 网络舆情传播分析模型,揭示了 AIGC 现象级走红背后的网络舆情态势及其变迁 [3]。韩小伟等人以危机生命周期理论为基础,结合实例分析及借鉴国内外研究成功构建突发公共事件网络舆情引导模型[4]。李志和王倩颖立足中国互联网发展的 30 年,整理了网络舆情监管的实践变迁历程,完善了政府网络舆情监管机制[5]。
同时,研究方法也不断丰富,在数据采集方面,研究者多采用网络爬虫、文本挖掘等技术来获取大量的网络舆情数据 [6];在数据分析方面,则运用词频分析、情感分析、主题模型等文本分析方法对舆情数据进行处理和分析 [7]。此外,还有一些研究将人工智能和大数据技术引入网络舆论分析,为舆情监管和引导提供了新的手段[8-9]。
当前学界对网络舆情的研究已形成了多视角、多方法、多阶段的丰富成果。然而,现有研究多集中于舆情生命周期的某一阶段,或聚焦于单一类型的触发事件。这些研究在一定程度上是“静态”和“割裂”的,未能充分揭示不同阶段之间、不同主体之间复杂的动态互动关系。同时,大多数分析仍是“断面式”的,缺乏对舆情事件全生命周期进行高频率、连续性的动态追踪与实时研判的能力,难以捕捉其瞬息万变的态势。
2 研究设计
本文以微博平台的“邯郸初中生遇害案”微博舆情为例,参考相关舆情情感分析、主题建模分析等研究工作 [10-14],构建微博舆情事件主题 - 情感生成与演化的分析框架,总体研究思路如图 1 所示,包含数据采集及预处理、基于危机生命周期的舆情周期划分与主题建模、情感提取,以及主题- 情感融合分析四个部分。

图 1 微博舆情主题 - 情感分析研究框架
2.1 数据获取及预处理
新浪微博是最大的中文社交网络平台之一,至 2023 年 12 月,微博的月活跃用户数为 5.98 亿,日均活跃用户数为 2.57 亿。移动端用户占月活跃用户数的 95%[15] 。因此,本文选择了以“邯郸初中生遇害”“邯郸初中生被杀”“邯郸初中生”等为关键词、话题检索,利用八爪鱼采集器爬取了相关微博下的评论数据,主要爬取微博用户 ID、评论发布时间以及评论内容三个字段。采集到时间范围在 2024 年 3月 13 日至 2024 年 3 月 30 日的微博评论数据共计 5256 条,部分数据见表1。
表 1 爬取的微博数据示例

通过观察数据发现,部分微博评论存在重复项,文本内容存在:特殊的表情符号、特殊符号以及空格、缩写词或谐音词。对于重复性数据,本文直接利用 Excel 删除重复项,并加以人工校对和剔除。为了后续的情感分析,本文去掉了所有表情符号、特殊符号及空格。由于缩写词和谐音词一方面体现了“梗文化”,另一方面是微博平台对敏感词进行屏蔽的结果,且这些词隐藏在杂乱的评论文本之中,难以一一查找、替换,所以本文不对缩写词和谐音词进行清洗和剔除,最终获得有效数据5146 条。
经去重、降噪后,利用 python3.11.4 进行后续操作。首先加载停用词典和用户词典,停用词典整合了“百度停用词典”“哈工大停用词典”以及人工输入的部分词语作为本文的停用词典;用户词典则记录了评论文本中有实际意义的成语、谚语或热词。接着引入jieba 分词,完成对评论内容的预处理,转化为 LDA 模型和 SnowNLP 模型可以识别的数据格式。
2.2 微博舆情周期划分
为进行有效的舆情周期划分,本文在危机生命周期理论的基础上,结合微博微指数进行归纳,如图2 所示。

图 2 微博微指数关于“邯郸初中生”话题的搜索统计
由图可知,3 月 17 日之前陆续出现相关搜索,而在 3 月 17 日舆情瞬间爆发,之后在连续的三四天内舆情信息传播量居高不下;之后大约在 3 月 22 日舆情又快速重现小高峰,之后开始回落。因此,可将此次舆情事件划分为为潜伏期、爆发期、波动期和平缓期四个阶段。
根据收集到的数据,潜伏期是 3 月 13 日至 3 月 16 日;爆发期是 3 月17 日至 3 月 20 日;波动期是 3 月 21 日至 3 月 25 日;平缓期是 3 月26 日至 3 月 30 日。
3 研究结果与分析
3.1“邯郸初中生遇害案”微博舆情情感倾向演化分析
将图 2 与人们对“邯郸初中生”事件认知过程结合比较发现,尽管微博具备信息及时共享的优点,但互联网用户关于此类事件的讨论仍存在一定的滞后性,往往要经历 2-3 天的时间才能引发大范围的讨论。对微博文本进行情感分析,计算得出三种情感倾向得分,负向( (0~0.33 )、中立( 0.34~0.65 )、正向( 0.66~1 ),得出每日评论数量与整体情感演化图,见图3。其中底部横坐标表示情感演化日期;左边纵坐标表示微博评论数量,右边纵坐标表示情感得分总和。从图3 中可以看出,总体来说负面情感倾向的微博多于正面情感倾向和中立情感倾向,不同情感倾向的舆情数量演化规律符合生命周期理论,各情感倾向随着案件的进展而波动,反映在情绪波动切合未成年犯罪相关的重大事件,且无论是随着案件进展引发的网络群愤,还是有关未成年人犯罪行为以及未成年人保护法需要完善的提议,都是网民的关注内容。
图3 “邯郸初中生遇害案”微博评论数量与整体情感演化图

3.2“邯郸初中生遇害案”微博舆情周期主题演化分析
为提高主题描述的准确性以及精炼主题建模结果的内容,本文对各个主题进行了人工总结 [16-17]。经人工总结,潜伏期、爆发期、波动期和平缓期各主题下主题内容词条和主题词如表 2- 表 5 所示,由于篇幅原因每部分表格只保留两个主要主题。
表 2 显示,潜伏期网民主要关注“案件事实”。起初,他们通过网络消息了解事件,确认信息后,通过多渠道深入了解案件详情及受害人长期被霸凌的情况。网民普遍认为事件与未妥善处理的校园霸凌有关,期望学校保护学生并严惩凶手及其父母,呼吁修订未成年人保护法。此事件激起强烈民愤,网络争议不断,导致舆情爆发。
表2 潜伏期主题表

进入爆发期后,网民越发关注案件进一步侦破情况。部分网民不断评论发声,希望能早日彻查严惩真凶;也有部分网民对此事件涉及的相关法律提出质疑,认为此类恶劣事件应当特事特办,不应以未成年人保护法为犯罪开脱,并建议为这类案件设立新的量刑标准。有的网民怀疑杀人者的父母协助埋尸,据此讨论了父母在孩子成长中应起到的教育作用。多角度的讨论使事件在微博上达到高潮,随后舆论有所回落,进入波动期。
表3 爆发期主题表

事件波动期热度有所下降,但仍有小高峰出现。网民们担心热度减退会影响对未成年霸凌杀人犯的惩罚,因此通过评论等方式维持热度。全国持续关注事件进展,期待审判结果,主张严惩凶手,为受害者伸张正义,维护公平。3 月25 日后,事件进入平缓期。
表4 波动期主题表

随着事件热度和话题关注度的下降,进入平缓期,主题多为之前各阶段的重复。网民们通过评论表达对事件的关注,并迫切希望案件能公开审理,期待政府机构为受害人伸张正义,并建议在无相关法律条款时应设立先例。由于校园霸凌是事件的起因,公众不仅关注案件进展,也特别关注校园霸凌问题。
表5 平缓期主题表

3.3“邯郸初中生遇害案”微博舆情主题 - 情感融合分析
前文已从情感和主题两个维度分别对邯郸初中生遇害案的相关评论文本进行分析,在此基础上利用桑基图对上述文本进行主题 - 情感融合分析,具体如图 4 所示,展示了从潜伏期到最后的平缓期的情感流向结果。
图4 各时期主题 - 情感动态变化图

在潜伏期内,中立情感相对较少;积极情感最少,大多表现为支持某项建议,或者是源于对国家政府的相信,期待着国家机关会给出正确的回应;而消极情感占据该时期的主导地位。爆发期内总体来看,中立情感和积极情感相差不大,消极情感仍然处于领先地位。但与潜伏期桑基图不同的是,爆发期桑基图情感区分相对均匀。波动期下网民情感态度相对多元化。与爆发期情感态度相似,中立情感和积极情感均少于消极态度。相对特别的是,在波动期下消极情感很大一部分源于网民们关注着事件,但热度却持续下降,担忧该事件得不到好的处理结果。由图可知无论处于哪个时期,消极情感始终处于主导地位。而在平缓期积极情感相较增多,中立情感最少。部分中立情感逐渐向积极情感演化,相信国家会给受害者一个公道,积极等待案件审判结果。有部分网民持消极态度,认为国家相关法律法规不规范应当开创先例、仍然希望能够判处三名未成年杀人犯死刑。
4 结论与建议
4.1 结论
本文面向“邯郸初中生被害案”,以相关微博评论文本为研究样本,依据危机生命周期理论将其划分为潜伏期、爆发期、波动期和平缓期四个阶段时期,对于每个时期,借助 LDA 主题模型提取能够代表主题的关键词,并进行主题与情感的融合分析,得出了各阶段主题 - 情感演变情况。总体上来看,该事件引发巨大民愤,网民们对此事件的情感态度是消极的,所以重点关注了负面舆论热点。主要关注点包含:呼吁严惩加害者以震慑潜在未成年犯罪;聚焦未成年犯罪刑责年龄建议开创刑罚先例;关注留守儿童和校园霸凌问题;呼吁多方责任主体共同呵护未成年人健康成长;也提及要批判质疑有效切断网络谣言传播链。
4.2 建议
依据 PPRR 理论的危机前预防、危机前准备、危机爆发反应和危机结束恢复4 个阶段提出了不同的建议。
(1)危机前预防
加强公众网络素养教育。针对青少年构建和完善阶梯式网络素养框架,与媒介环境相结合,引导青少年提升网络素养、规范网络行为、辨别虚假信息、提高自我保护能力 [18];针对成年人,图书馆等公益机构可采取短视频等方式提升其网络素养,提升其辨别网络谣言的能力,辩证看待网络信息,提升网络道德。
(2)危机前准备
制定详细应急预案。在察觉危机可能出现后,政府应当制定详细的应急预案,建立包含多种情景的危机计划,明确各级人员在不同情况下的具体任务和行动指南,确保无论发生何种舆情均有对应的应对策略。定期对团队进行专业技能培训,同时加强与政府、媒体、法律等其他部门的跨部门协作,确保在危机发生时能够形成合力,有效管理舆情。
(3)危机爆发反应
建立动态舆情监测机制。在察觉到网络舆情爆发后,政府当立即采取行动,及时回应网络舆情关切;评估认为当下负面情绪占比较大时,采取积极有效的沟通措施,以消除公众质疑和误解,有效击破网络谣言,增强与公众的信任与共识 [19]。同时定期收集、分析和评估相关网络舆情信息,及时了解公众对该事件的关注情况、评价文本及情感态度,为制定针对性应对策略提供切实可靠的依据。
(4)危机结束恢复
恢复重建社会公众信任。危机结束后,仍需与公众保持开放积极的沟通,明确解释在危机期间所采取的各项措施及其效果,争取公众的理解和信任。组织透明公开的方式展示舆情处理结果,让公众参与到舆情治理中。
参考文献:
[1] 李 敏 , 项朝辉 . 后疫情时代网络舆情情感分析和主题识别 [J].电脑知识与技术 ,2024,20(02):9-12.
[2] 高 虒源 , 张桂蓉 , 孙喜斌 , 等 . 公共危机次生型网络舆情危机产生的内在逻辑——基于40 个案例的模糊集定性比较分析[J]. 公共行政评论 ,2019,12(04):101-123+192.
[3] 吴 江 , 黄茜 , 贺超城 , 等 . 基于引爆点理论的人工智能生成内容微博网络舆情传播与演化分析 [J]. 现代情报 ,2023,43(07):145-161.
[4] 韩 小伟 , 张传洋 , 张起超 , 等 . 大数据背景下突发公共事件网络舆情情感演化及舆情引导策略研究 [J/OL]. 情报科学 :1-20[2024-04-16].http://kns.cnki.net/kcms/detail/22.1264.G2.20240129.0941.008.html.
[5] 李 志, 王倩颖. 中国互联网30 年:网络舆情监管的实践变迁[J].社会科学家 ,2023(12):75-80.
[6] 王 健 , 杨柳 , 李雪松 , 等 .ChatGPT 网络舆情特征多维度演化 分 析 [J/OL]. 情 报 杂 志 :1-8[2024-04-16].http://kns.cnki.net/kcms/detail/61.1167.g3.20240402.1101.006.html.
[7] 梁 昕 , 刘天颖 . 自动化行政裁量中算法风险感知的特征与演化研究—— 基于网络舆情的大数据分析 [J]. 公共行政评论 ,2024,17(01):45-65+197.
[8] 陶 琳 .ChatGPT/ 生成式人工智能对高校网络舆情的影响及应对策略 [J]. 中国教育信息化 ,2023,29(08):15-21.
[9] 史 伟 , 薛广聪 , 何绍义 . 基于偏差规则马尔可夫模型的网络舆情情感预测研究 [J]. 情报学报 ,2023,42(09):1065-1077.
[10] 韩 小伟 , 张传洋 , 张起超 , 等 . 大数据背景下突发公共事件网络舆情情感演化及舆情引导策略研究 [J/OL]. 情报科学 :1-20[2024-05-07].http://kns.cnki.net/kcms/detail/22.1264.G2.20240129.0941.008.html.
[11] 曾 子 明 , 陈 思 语 . 基 于 LDA 与 BERT-BiLSTM-Attention模型的突发公共卫生事件网络舆情演化分析 [J]. 情报理论与实践 ,2023,46(09):158-166.
[12] 王璐 , 李诗轩 , 陈烨 . 基于主题 - 情感融合分析的新冠疫苗舆情演化研究 [J/OL]. 情报科学 ,1-27[2024-05-07].http://kns.cnki.net/kcms/detail/22.1264.G2.20240129.0935.004.html.
[13] 郭宇 , 张传洋 , 张海涛 , 等 . 危机管理视角下突发事件舆情 主 题 演 化 与 治 理 分 析 [J]. 图 书 情 报 工 作 ,2022,66(08):113-121.DOI:10.13266/j.issn.0252-3116.2022.08.012.
[14] 马 晶晶 , 肖萌 , 陈树广 . 情感视域下突发公共事件网络舆情情感分析与主题演化研究 [J]. 情报探索 ,2023,(08):61-68.
[15] 新 浪财经 . 微博发布 2023 年四季度及全年财报全年总营收 125.15 亿 元 [EB/OL].[2024-3-14].https://finance.sina.com.cn/jjxw/2024-03-14/doc-inanhvck2680550.shtml.
[16] 叶 光辉 , 宋孝英 , 谭启韬 . 政策工具与政策主题叠加视角下的社会治理演化分析 [J]. 情报科学 ,2023,41(07):70-79+89.
[17] 崔 旭 , 杨煜 , 李姗姗 . 基于 LDA 模型的我国档案馆非物质文化遗产保护主题挖掘与演化分析——与非遗保护中心对比视角 [J]. 图书情报工作 ,2022,66(23):82-92.
[18] 方 增泉 , 祁雪晶 , 元英 , 等 . 学校如何有效开展青少年网络素养教育 [J]. 人民教育 ,2023(Z1):87-89.
[19] 朱 琳 , 马佳良 . 小镇青年的网络舆情生成及演化路径研究——基于微博数据的主题建模与情感分析 [J]. 信息技术与管理应用 ,2023,2(04):105-119.
作者简介:郭雪晗(2001—),女,硕士研究生;研究方向:档案学。