缩略图

“情感共鸣与主题探索”

作者

林方威

上海财经大学浙江学院 321013

在数字化时代,电影艺术与技术的结合催生了网络弹幕这一独特的互动形式,它让观众能够即时分享情感和观点。《肖申克的救赎》作为一部深受全球观众喜爱的经典电影,不仅以其精湛的叙事和深刻的主题赢得了广泛赞誉,更在网络平台上引发了热烈的讨论。本文将通过爬取该电影的弹幕数据,运用文本挖掘和数据可视化技术,旨在深入分析观众的情感反应和主题关注点,探讨电影如何通过叙事和情感层面影响观众。

为了实现这一目标,本文采用了数据采集与网络爬虫技术,成功获取了9600条弹幕数据,并对这些数据进行了细致的预处理和分析。通过TF-IDF模型和LDA模型,我们不仅识别了弹幕文本中的关键词汇和主题分布,还通过情感分析揭示了观众对电影的积极评价和深度参与。情感分析结果的可视化,如折线图,进一步展示了电影情节发展与观众情感反应之间的密切关系。

一、研究目的

本研究旨在通过系统地爬取《肖申克的救赎》电影的弹幕数据,并运用文本挖掘技术进行深入分析,以揭示观众在电影不同情节下的情感反应和参与度。研究将通过数据采集、预处理、挖掘与分析等步骤,深入探索弹幕文本中的关键词汇、主题分布以及情感倾向,旨在全面理解电影如何通过其叙事和情感层面与观众产生互动,并影响其情感体验

二、数据准备

在进行《肖申克的救赎》弹幕数据分析研究时,数据准备是关键的第一步。我们借助浏览器的 “检查” 功能,深入网页底层,获取到页面的源代码。经过一番细致的搜索与筛选,成功定位并提取出《肖申克的救赎》于 B 站平台的弹幕 URL 地址。

基于该 URL 获取 B 站弹幕 XML 数据,并对其进行解析。在解析过程中,仔细观察 d 标签里的数据元素,成功提取出多项弹幕信息,包括弹幕出现时间(单位为秒)、弹幕类型、字体大小、字体颜色、发送弹幕的时间戳(单位为秒)、弹幕池、弹幕发送者的用户 ID、弹幕的 ID 以及弹幕的权重(数值越大表示优先级越高)。将提取到的这些弹幕信息,按照特定格式整理成列表,最后将整理好的列表数据写入 csv 文件,一共爬取到 9600 条《肖申克的救赎》电影弹幕数据。

三、数据预处理

我们选用 Jupyter Notebook 软件对数据进行预处理。导入《肖申克的救赎.csv》文件,仔细观察其中的数据格式。考虑到直接以弹幕出现时间(单位为秒)进行时间相关绘图,不利于后续分析,于是对该列数据进行单位转换,分别将其转换为以分钟和小时为单位。转换完成后,对数据进行四舍五入保留位数处理,生成新的文件 “time_transfromed_保留位数.csv”。将新文件中包含的时间列数据与最初爬取得到的《肖申克的救赎.csv》文件进行合并,得到一个全新的文件 “data_all_time.csv”。

基于这个新的 CSV 文件,我们开展进一步处理。先利用停用词、否定词和程度副词文件,生成一个新的停用词表。使用 jieba 分词工具对每条弹幕句子进行分词处理,并去除其中的停用词。再借助 SnowNLP 库计算每个句子的情感得分。将分词结果和对应的情感分值导出,保存为 “data_result.xlsx” 文件。为了便于后续分析运用,我们根据情感得分对弹幕文本进行简单分类,将得分大于 0.5 的标注为 “正面”,得分小于 0.5 的标注为 “负面”,并将处理后的数据保存为 “output.xlsx” 文件。

四、数据挖掘与分析

(一)TF-IDF模型

借助 TfidfVectorizer 库,把文本数据转化为 TF - IDF 向量表示,构建字典保存每个单词及其 TF - IDF 值,再按 TF - IDF 值降序排列展示。如 “救赎” 的 TF - IDF 值为 220.520643,较高的值说明它在文本集合中重要且独特;“哈哈哈” 值为 121.608154,表明相对常见但仍有一定重要性;“培育出”“铁路” 等词汇值接近 0.161590,重要性较低;“斤斤计较” 值为 0.053975,在文本中几乎无特殊重要性。通过此表格可量化词汇,明确关键与非关键的词汇。

1. TF-IDF与支持向量机模型串联

运用支持向量机(SVM)对文本数据分类。先用 TF - IDF 向量化器将文本转化为数值特征,再划分数据集为训练集和测试集,用随机梯度下降(SGD)分类器训练模型。对测试集预测,将结果存于 DataFrame 输出分类报告评估性能。

2. TF-IDF与朴素贝叶斯模型串联

采用朴素贝叶斯分类器对文本数据分类。先用词袋模型将文本转为数值特征,划分训练集和测试集,用朴素贝叶斯分类器训练,对测试集预测,保存结果到 DataFrame 并输出分类报告。

(一)LDA模型主题词生成

使用 TF - IDF 方法将文本数据向量化,依据一致性分数挑选最佳的 LDA 模型和主题数量。训练 LDA 模型,提取每个主题的前 n 个关键词,计算每个文档的主题概率分布并保存到 csv 文件。文件中每行代表一个文档,每列代表一个主题,数值为文档属于该主题的概率。最后生成 HTML 文件可视化展示 LDA 模型结果。

五、数据可视化

(一)弹幕数量随电影发展时间的变化趋势

在数据预处理阶段,我们得到了包含新时间段的数据文件。为呈现弹幕数量随电影进度的变化趋势,分别以分钟和小时为单位的时间列绘制弹幕数量变化折线图。从图中明显看出,电影开头与结尾时,观众发布的弹幕数量较多。电影开端,弹幕多源于重刷电影的讨论,或是从其他电影转来后的有感而发。而在结尾,主人公获得救赎,剧情达到高潮,弹幕数量也随之达到顶峰。此时观众的评论和讨论更加积极,充分反映出他们对电影的热情和深度参与。

(二)弹幕数量随发送时间戳的变换

将发送时间戳从特殊的 Unix 时间戳转换为 “年 - 月 - 日 小时 - 分钟 - 秒” 的正常格式,以此观察用户不同时间发送弹幕数量的占比。按月份划分,1 月、2 月、5 月是弹幕数量占比前三的月份;按早中晚时间段划分,中午发布的弹幕数量最多;将一天以两小时为间隔分成 12 个时间段进一步分析,12 - 14 时弹幕数量占比最大,与之前按早中晚划分的结果相呼应。

读取data_all_time.csv文件,将“文字内容”这一列的数据提取出来,利用停用词.txt文件来过滤这些弹幕文本中需要被过滤掉的常见词汇,例如标点符号、连接词等。然后使用jieba库将文本拆分成单词或词语,并将去除了停用词且已分词的文本数据重新保存到txt文件中。最后利用wordcloud库将文本数据中的关键词以指定的形状绘制出现。

电影开始阶段,弹幕数量少,情感倾向低,因为观众在熟悉剧情,情绪未被充分调动。随着情节发展,进入紧张或高潮部分,弹幕数量显著增多,情感倾向上升,观众情绪高涨。在老布出狱、安迪播放歌剧等关键情感场景,弹幕数量和情感倾向可能达到峰值,引发观众强烈共鸣,弹幕多为正面评价和感慨。由此可见,电影不同阶段通过剧情推进和情感渲染,有效影响观众的行为和情感反应。

六、结论与展望

本文运用数据采集、文本挖掘、情感分析和数据可视化技术,对《肖申克的救赎》弹幕信息展开研究。借助 TF - IDF 与 SVM、朴素贝叶斯串联模型及 LDA 模型,识别弹幕关键词,获取主题分布,了解观众对电影情节和主题的感知。情感分析显示,电影弹幕正向评论占比高,体现观众的积极评价与深度参与。通过多种可视化方式,直观展示弹幕数据时空分布和情感变化趋势,呈现观众情感动态。

作者简介:林方威 199302 男 汉族 浙江临海 研究方向为人工智能,数据科学