缩略图
Mobile Science

“互联网+”下高校舆情信息留言分类研究

作者

陈舒凡 韩丽娜 郭方萌 王奕阳 姜婉婧

陕西学前师范学院 陕西 西安 710100

摘要:针对高校舆情议题,依托互联网前沿技术,深度融合自然语言、数据挖掘以及深度学习等方法,旨在搭建一套科学、高效的舆情信息分类与反馈体系。通过对高校网络留言施行智能化分类,精准甄别出正面、负面、中性以及敏感舆情,进而展开深度情感分析,洞悉师生诉求情感倾向,以此达成舆情反馈的精细化、响应的即时化,全方位强化高校舆情管理应对实力。该研究不仅有助于高校维护网络环境的和谐稳定,助力学生心理健康层面的显著成效,提升学校整体形象,同时也为其他社会领域的舆情管理提供宝贵的参考与借鉴。

关键词:高校舆情;信息留言;智能分类;情感分析

中图分类号:TP391

引言

随着互联网技术日新月异的发展,网络已成为当下信息传播的核心渠道。高校作为知识密集、思想活跃的社群,其网络舆情能映照出学生群体的思想起伏、利益诉求,犹如 “蝴蝶效应” 一般,深刻左右学校日常运维及社会安稳大局[1]。因而,在“互联网+”的时代背景下,如何有效管理高校舆情,已成为各高校亟待解决的重要课题。

近年来,国内外学者已针对高校信息舆情留言的分类、情感分析及反馈机制等方面进行了诸多有益的探索。例如,通过运用自然语言处理、数据挖掘等技术,成功实现了对留言数据的自动化分类与情感倾向的精准判断。同时,部分高校也已开始尝试建立在线反馈系统,以期更好地回应师生关切,切实解决师生问题。然而,随着人工智能、大数据等技术的持续进步,高校信息舆情留言分类与反馈研究项目仍面临着诸多新的机遇与挑战。如何利用深度学习等先进技术进一步提升分类与情感分析的准确性?如何构建更加智能化的反馈系统,以实现更为精准、高效的师生诉求响应?同时,如何确保项目的网络安全与隐私保护,以保障项目的可持续发展?这些问题值得深入思考并妥善解决[2]。

1 高校网络舆情分析

1.1 舆情信息特点

高校网络舆情具有内容聚焦、传播迅速、社会影响广泛、关注度高及易非理性等特点。具体而言,舆情信息主要涵盖国际与国内热点事件、与大学生紧密相关的政治话题以及高等学校内部管理等诸多方面。由于大学生群体思想活跃、社交广泛,舆情信息往往能在极短时间内迅速传播,进而形成强烈的舆论氛围。

1.2 舆情信息管理现状

目前,各大高校已逐步认识到网络舆情管理的重要性,并将其纳入学校安全稳定工作的核心环节。当前,高校舆情信息管理的联动系统主要包括引导、监控、预警、处理及反馈等多个紧密相连的环节,共同构成了较为完善的舆情管理体系。然而,在实际操作中,仍存在管理软硬件投入不足、管理机制不够健全等问题,这些问题在不同程度上制约了舆情管理效能的充分发挥[3]。

1.3 舆情信息分类原则

为科学、有效地管理高校舆情信息,首要任务是对其留言进行合理分类。分类原则应充分考量舆情信息的性质、影响范围、紧急程度等多重因素,以确保分类结果既能真实反映舆情信息的实际情况,又能为后续的反馈处理提供极大的便利。

根据舆情信息的不同特点,可将其细分为以下几类:

正面舆情:主要反映学校正面形象及学生积极向上的精神风貌的留言,如对学校教学质量的充分肯定、对师生关系的由衷赞扬等。

负面舆情:涉及学校管理不善、师德师风问题、学生安全事件等负面事件的留言,如对教学质量的质疑、对师生矛盾的投诉等。

中性舆情:不包含明显正面或负面评价的留言,如对学校活动的简单报道、对学术问题的客观讨论等。

敏感舆情:涉及政治、宗教、民族等敏感话题的留言,这些留言易于引发争议与冲突,需给予特别关注与妥善处理[4]。

2 研究准备

2.1 数据处理流程

2.2 数据收集

(1)使用Python的Scrapy、BeautifulSoup等库编写网络爬虫,从校园墙、社交媒体等抓取舆情信息。

导入爬取数据所需要的库scrapy,并获取爬虫网页链接:start_urls=['https://www.chinanews.com.cn/gn/z/2023lh/2023lhroll.shtml']。

根据网页HTML网页源码,逐一解析数据并保存所需信息;将获取的信息保存为csv文件[5];

(2)制作调查问卷,设置高校舆情信息相关问题,例如:从那些渠道获取舆情信息;舆情信息对生活方面的影响以及对学校处理舆情信息的建议等。通过调查在校大学生获取信息,进行数据采集。

2.3 数据预处理

2.3.1 数据清洗

(1)缺失值:处理缺失值有两种方法:

①利用dropna()函数删除缺失值所在的行;

②利用均值或者中位数填充缺失值。

(2)处理异常值:识别和处理异常值,可以使用统计方法、可视化工具或专门的异常检测算法;

①箱线图检测异常值:导入seaborn库,利用boxplot()函数进行箱线图识别数值型特征中的异常值。

②截尾或转换:将超出一定范围的异常值截尾或进行数值转换。

(3)处理重复值:检测并移除数据中的重复记录,以避免对分析结果的影响

2.3.2 数据标准化处理

数据的标准化(normalization)就是指将原始各指标数据按比例缩放,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权[5]。

(1)min-max法也叫离差标准化,是对原始数据的线性变换,使结果映射到[0,1]区间。如公式(1)所示。

对序列进行变换:

则新序列且无量纲。一般的数据需要时都可以考虑先进性规范化处理。

(2)z-score 标准化也叫标准差标准化,该方法使得经过处理的数据符合标准正态分布,即均值为0,如公式(2)所示。

对序列进行变换:

则新序列的均值为0,而方差为1,且无量纲。

在本次实验中,导入两种方法所需库StandaScaler和MinMaxScaler;利用函数StandaScaler()和MinMaxScaler()进行数据标准化。

2.3.3 特征提取及情感分类

(1)特征提取:根据分类任务的需求,提取文本中的关键特征。这可以包括词频、TF-IDF值、词向量等。

(2)情感词典构建:根据领域特点,构建或选用现有的情感词典,包括积极词汇和消极词汇。

通过对大量中文文本及人物会话分析,发现文本情感的判定基本上通过对通篇的情感词、程度副词及否定词的统计分布来判别,因此,我们搭建了基于情感分析的情感词库以及其它辅助词表。情感词库包含了词汇与其对应的情感值映射关系,用于评估文本中词汇的情感倾向。情感值通常为数值,代表词汇的情感倾向,如正面、负面或中性。这些词库基于人工标注或自动化方法构建,并可能针对不同领域或语言进行定制化。辅助词表则进一步丰富和增强了情感分析的能力。它们可能包括词汇的同义词、反义词、近义词、语境依赖词等,以辅助情感识别过程中的词汇匹配和上下文理解。通过综合情感词库和辅助词表,情感分析系统可以更准确地理解文本中的情感表达,提升分析的精度和效率。

(3)情感规则制定:制定情感判断规则,如基于情感词典的词汇匹配、情感词汇的权重计算等。情感倾向性将文本分为正面、负面、中性三种情感属性,通常由正、负面,以及强弱程度来衡量。文章通过中文分词处理,基于情感词典构建情感表,为每一个分词打分,从而判断判别情感倾向;建立规则如图5所示。

2.4 模型构建及评估

2.4.1 随机森林模型

随机森林模型是将多个决策树结合在一起,每次数据集是随机有放回的选出,同时随机选出部分特征作为输入;遍历随机森林的大小 K 次:从训练集 T 中有放回抽样的方式,取样N 次形成一个新子训练集 D,随机选择 m 个特征,其中 m < M,使用新的训练集 D 和 m 个特征,学习出一个完整的决策树得到随机森林[6]。项目通过导入随机森林模型,选择随机森林并训练模型,利用scikit-learn实现随机森林回归。代码如下:forest_reg=RandomForestRegressor(n_estimators=10,random_state=42)

forest_reg.fit(data_prepared,labels)

2.4.2 均方误差评估模型

均方误差是各数据偏离真实值的距离平方和的平均数,也即误差平方和的平均数,如公式(4)所示。

项目中导入mean_squared_error库,然后进行模型预测,采用均方误差函数进行模型评估,得出均方误差检验结果[7]。

2.4.3 使用模型自动分类

自动分类:利用训练好的分类模型,对新的留言数据进行自动分类,将其划分为正面舆情、负面舆情、中性舆情和敏感舆情等类别。

2.5 结果展示

采用Django框架进行 Web开发。通过前后端配合,将后台服务器的数据在通过浏览器上展现给前台用户。Django本身是基于MVC模型,即Model(模型)+View(视图)+ Controller(控制器)设计模式,View模块和Template,页面如图7所示。

3 舆情信息反馈

根据分类结果和预设的规则,通过邮件、短信、即时通讯工具等方式将舆情信息推送给相应的部门或人员。例如,将投诉建议类信息推送给后勤管理部门,将学术讨论类信息推送给教务处等。

4 结论

文章在“互联网+”背景下,对高校舆情信息留言的分类与反馈进行了研究。通过理论分析和实证研究,文章舆情信息分类在提高舆情管理效率、促进校园和谐、增强学生心理健康方面的有效性。同时,文章也指出了当前高校舆情管理面临的挑战,并提出了相应的应对策略。

参考文献

[1]李洁琼.大学生网络舆情研究[D].渤海大学,2018.

[2]李晓晨.我国网络舆情研究现状与研究热点分析[D].辽宁大学,2023.

[3]许斯川.高校政工人员应对大学生网络舆情研究[D].福建农林大学,2023.

[4]陶雪娇.基于Python的异步数据采集与预处理[J].电子元器件与信息术,2024,8(07):24-26.

[5]帕丽旦·木合塔尔.基于大数据的多属性网络舆情预测方法[D].新疆财经大学,2024.

[6]王立柱,吴品康.随机森林模型参数寻优算法比较分析[J].沈阳师范大学学报(自然科版),2024,43(159): 420-426.

基金项目:2024年国家级大学生创新创业训练项目(国家级202414390009,省级s202414390009,校级2024DC093),陕西学前师范学院校级教改项目(24JG06ZB)。