“情感共鸣与主题探索”

在数字化时代，电影艺术与技术的结合催生了网络弹幕这一独特的互动形式，它让观众能够即时分享情感和观点。《肖申克的救赎》作为一部深受全球观众喜爱的经典电影，不仅以其精湛的叙事和深刻的主题赢得了广泛赞誉，更在网络平台上引发了热烈的讨论。本文将通过爬取该电影的弹幕数据，运用文本挖掘和数据可视化技术，旨在深入分析观众的情感反应和主题关注点，探讨电影如何通过叙事和情感层面影响观众。

为了实现这一目标，本文采用了数据采集与网络爬虫技术，成功获取了9600条弹幕数据，并对这些数据进行了细致的预处理和分析。通过TF-IDF模型和LDA模型，我们不仅识别了弹幕文本中的关键词汇和主题分布，还通过情感分析揭示了观众对电影的积极评价和深度参与。情感分析结果的可视化，如折线图，进一步展示了电影情节发展与观众情感反应之间的密切关系。

一、研究目的

本研究旨在通过系统地爬取《肖申克的救赎》电影的弹幕数据，并运用文本挖掘技术进行深入分析，以揭示观众在电影不同情节下的情感反应和参与度。研究将通过数据采集、预处理、挖掘与分析等步骤，深入探索弹幕文本中的关键词汇、主题分布以及情感倾向，旨在全面理解电影如何通过其叙事和情感层面与观众产生互动，并影响其情感体验

二、数据准备

在进行《肖申克的救赎》弹幕数据分析研究时，数据准备是关键的第一步。我们借助浏览器的 “检查” 功能，深入网页底层，获取到页面的源代码。经过一番细致的搜索与筛选，成功定位并提取出《肖申克的救赎》于 B 站平台的弹幕 URL 地址。

基于该 URL 获取 B 站弹幕 XML 数据，并对其进行解析。在解析过程中，仔细观察 d 标签里的数据元素，成功提取出多项弹幕信息，包括弹幕出现时间（单位为秒）、弹幕类型、字体大小、字体颜色、发送弹幕的时间戳（单位为秒）、弹幕池、弹幕发送者的用户 ID、弹幕的 ID 以及弹幕的权重（数值越大表示优先级越高）。将提取到的这些弹幕信息，按照特定格式整理成列表，最后将整理好的列表数据写入 csv 文件，一共爬取到 9600 条《肖申克的救赎》电影弹幕数据。

三、数据预处理

我们选用 Jupyter Notebook 软件对数据进行预处理。导入《肖申克的救赎.csv》文件，仔细观察其中的数据格式。考虑到直接以弹幕出现时间（单位为秒）进行时间相关绘图，不利于后续分析，于是对该列数据进行单位转换，分别将其转换为以分钟和小时为单位。转换完成后，对数据进行四舍五入保留位数处理，生成新的文件 “time_transfromed_保留位数.csv”。将新文件中包含的时间列数据与最初爬取得到的《肖申克的救赎.csv》文件进行合并，得到一个全新的文件 “data_all_time.csv”。

基于这个新的 CSV 文件，我们开展进一步处理。先利用停用词、否定词和程度副词文件，生成一个新的停用词表。使用 jieba 分词工具对每条弹幕句子进行分词处理，并去除其中的停用词。再借助 SnowNLP 库计算每个句子的情感得分。将分词结果和对应的情感分值导出，保存为 “data_result.xlsx” 文件。为了便于后续分析运用，我们根据情感得分对弹幕文本进行简单分类，将得分大于 0.5 的标注为 “正面”，得分小于 0.5 的标注为 “负面”，并将处理后的数据保存为 “output.xlsx” 文件。

四、数据挖掘与分析

（一）TF-IDF模型

借助 TfidfVectorizer 库，把文本数据转化为 TF - IDF 向量表示，构建字典保存每个单词及其 TF - IDF 值，再按 TF - IDF 值降序排列展示。如 “救赎” 的 TF - IDF 值为 220.520643，较高的值说明它在文本集合中重要且独特；“哈哈哈” 值为 121.608154，表明相对常见但仍有一定重要性；“培育出”“铁路” 等词汇值接近 0.161590，重要性较低；“斤斤计较” 值为 0.053975，在文本中几乎无特殊重要性。通过此表格可量化词汇，明确关键与非关键的词汇。

1. TF-IDF与支持向量机模型串联

运用支持向量机（SVM）对文本数据分类。先用 TF - IDF 向量化器将文本转化为数值特征，再划分数据集为训练集和测试集，用随机梯度下降（SGD）分类器训练模型。对测试集预测，将结果存于 DataFrame 输出分类报告评估性能。

2. TF-IDF与朴素贝叶斯模型串联

采用朴素贝叶斯分类器对文本数据分类。先用词袋模型将文本转为数值特征，划分训练集和测试集，用朴素贝叶斯分类器训练，对测试集预测，保存结果到 DataFrame 并输出分类报告。

（一）LDA模型主题词生成

使用 TF - IDF 方法将文本数据向量化，依据一致性分数挑选最佳的 LDA 模型和主题数量。训练 LDA 模型，提取每个主题的前 n 个关键词，计算每个文档的主题概率分布并保存到 csv 文件。文件中每行代表一个文档，每列代表一个主题，数值为文档属于该主题的概率。最后生成 HTML 文件可视化展示 LDA 模型结果。

五、数据可视化

（一）弹幕数量随电影发展时间的变化趋势

在数据预处理阶段，我们得到了包含新时间段的数据文件。为呈现弹幕数量随电影进度的变化趋势，分别以分钟和小时为单位的时间列绘制弹幕数量变化折线图。从图中明显看出，电影开头与结尾时，观众发布的弹幕数量较多。电影开端，弹幕多源于重刷电影的讨论，或是从其他电影转来后的有感而发。而在结尾，主人公获得救赎，剧情达到高潮，弹幕数量也随之达到顶峰。此时观众的评论和讨论更加积极，充分反映出他们对电影的热情和深度参与。

（二）弹幕数量随发送时间戳的变换

将发送时间戳从特殊的 Unix 时间戳转换为 “年 - 月 - 日小时 - 分钟 - 秒” 的正常格式，以此观察用户不同时间发送弹幕数量的占比。按月份划分，1 月、2 月、5 月是弹幕数量占比前三的月份；按早中晚时间段划分，中午发布的弹幕数量最多；将一天以两小时为间隔分成 12 个时间段进一步分析，12 - 14 时弹幕数量占比最大，与之前按早中晚划分的结果相呼应。

读取data_all_time.csv文件，将“文字内容”这一列的数据提取出来，利用停用词.txt文件来过滤这些弹幕文本中需要被过滤掉的常见词汇，例如标点符号、连接词等。然后使用jieba库将文本拆分成单词或词语，并将去除了停用词且已分词的文本数据重新保存到txt文件中。最后利用wordcloud库将文本数据中的关键词以指定的形状绘制出现。

电影开始阶段，弹幕数量少，情感倾向低，因为观众在熟悉剧情，情绪未被充分调动。随着情节发展，进入紧张或高潮部分，弹幕数量显著增多，情感倾向上升，观众情绪高涨。在老布出狱、安迪播放歌剧等关键情感场景，弹幕数量和情感倾向可能达到峰值，引发观众强烈共鸣，弹幕多为正面评价和感慨。由此可见，电影不同阶段通过剧情推进和情感渲染，有效影响观众的行为和情感反应。

六、结论与展望

本文运用数据采集、文本挖掘、情感分析和数据可视化技术，对《肖申克的救赎》弹幕信息展开研究。借助 TF - IDF 与 SVM、朴素贝叶斯串联模型及 LDA 模型，识别弹幕关键词，获取主题分布，了解观众对电影情节和主题的感知。情感分析显示，电影弹幕正向评论占比高，体现观众的积极评价与深度参与。通过多种可视化方式，直观展示弹幕数据时空分布和情感变化趋势，呈现观众情感动态。

作者简介：林方威 199302 男汉族浙江临海研究方向为人工智能，数据科学

“情感共鸣与主题探索”

林方威

Related Articles

遥望落日（外五首）

非遗剪纸进大学校园与思政学科融合的实践研究

激励策略在小学班级管理中的应用探究

浅谈小学低年级语文教学中阅读理解的策略与方法

基于思维提升的小学语文课堂提问策略