缩略图

基于LDA主题模型和情感分析的在线课程用户评论文本数据挖掘

作者

杨晓欢

西南财经大学天府学院,四川 绵阳,62100

摘要:随着互联网技术的发展,在线教育已成为一种重要的教育方式。越来越多的用户选择在各大在线平台上学习课程,并留下自己的评论和反馈。这些评论数据蕴含着丰富的用户意见和情感倾向,对于课程提供者来说具有重要的参考价值。本文基于LDA主题模型和情感分析技术,对MOOC平台课程用户评论文本进行了数据挖掘研究。通过LDA主题模型识别用户评论中的潜在主题,并利用情感分析技术判断用户对课程的情感倾向。实验结果表明,该方法能够有效提取用户评论中的关键信息,了解学习者的诉求,帮助课程提供者及时调整课程内容,改善教学方法,从而实施精准教学。

关键词:LDA主题模型;情感分析;在线课程用户评论;数据挖掘

0 引言

在线教育以其灵活便捷的特点,受到了越来越多用户的青睐。各大在线平台提供了丰富的课程资源,用户可以根据自己的兴趣和需求选择适合的课程进行学习。在学习过程中,用户通常会留下自己的评论和反馈,表达对课程的满意度、意见和建议。这些评论数据对于课程提供者来说,是了解用户需求、改进课程质量的重要参考。然而,随着评论数量的快速增长,传统的手工分析方法已经无法满足实践需要。因此,引入文本数据挖掘技术,对在线课程用户评论文本进行深入分析,具有重要的研究价值和应用前景。

本文基于LDA主题模型和情感分析技术,对MOOC平台课程用户评论文本进行了数据挖掘研究。LDA主题模型能够自动识别文本中的潜在主题,帮助我们从大量评论数据中提取关键信息。情感分析技术则能够判断用户对课程的情感倾向,为课程提供者提供情感层面的反馈。通过结合这两种技术,我们可以更全面地了解用户需求和意见,为课程改进提供有力支持。

1. 相关理论和技术基础

1.1 LDA主题模型

LDA主题模型是一种生成式主题模型,由Blei等人在2003年提出。该模型假设每篇文档是由多个潜在主题按一定比例混合而成,每个主题又是由词汇表中的词语按一定比例混合而成。通过LDA模型,我们可以从大量文本数据中自动提取潜在主题,揭示文本数据的内在结构。LDA模型的基本思想是将文档表示为潜在主题的混合体,将主题表示为词语的混合体。具体来说,LDA模型包含三层结构:文档层、主题层和词语层。在文档层,每个文档被表示为一个潜在主题的混合体;在主题层,每个主题被表示为一个词语的混合体;在词语层,每个词语被赋予一个主题标签。通过训练LDA模型,我们可以得到每个文档的主题分布和每个主题的词语分布,从而实现对文本数据的主题建模。

1.2 情感分析技术

情感分析是一种基于自然语言处理和机器学习技术的文本分析方法,旨在识别和提取文本中的情感信息。通过分析文本中的情感极性(积极、消极或中性),我们可以了解用户的情感倾向和态度。情感分析在社交媒体监控、品牌管理、客户反馈分析等领域具有广泛应用。情感分析技术主要包括情感词典法、机器学习法和深度学习法。情感词典法是通过预定义的情感词典来分析文本中的情感词语,从而判断文本的情感倾向。机器学习法是通过训练分类模型来识别文本中的情感,常用的分类算法包括朴素贝叶斯、支持向量机等。深度学习法则是通过训练神经网络模型来进行情感分析,如卷积神经网络(CNN)和循环神经网络(RNN)等。

2 研究设计和研究方法

2.1 数据获取和预处理

本文的数据来源于MOOC平台的用户评论数据。通过爬虫技术,我们采集了该平台上“程序设计”相关课程的用户评论,包括用户ID、评论内容、评分、评论时间等信息。为了保证数据的可靠性和代表性,我们选择了评论较多和参与人数较多的热门课程,并排除了重复和无效的评论数据,最终获得有效数据58404条。

在数据预处理阶段,首先进行文本清洗。通过正则表达式去除评论中的无关字符和符号,如标点符号、数字、特殊符号等。其次利用中文分词工具对评论进行分词处理,将文本切分成单独的词语。本文采用基于词典的中文分词方法,利用正向最大匹配原则进行分词。但是基于词典的分析方法对于专有名词的划分存在不准确的问题,因此本文在前人研究的基础上,构建与课程评价相关的专业名称词典进行分词,并且利用“哈工大”停用词表对无效词进行过滤、筛选,如“的”、“了”、“是”等。通过去除停用词,可以减少文本数据的噪声,提高后续分析的准确性。

2.2 用户评论主题发现

在选择LDA模型的主题数目时,本文采用了基于相似度的自适应最优LDA模型选择方法。通过计算不同主题数目下主题间的平均余弦相似度,找到了最优的主题数目。然后利用预处理后的评论数据,训练LDA模型。在训练过程中,文中采用了Gibbs采样算法,通过迭代优化得到了每个文档的主题分布和每个主题的词语分布。最后根据训练得到的LDA模型,我们可以提取出每个主题下的关键词语,并对主题进行解释和命名。

2.3 情感分析

在情感分析阶段,首先构建情感词典。情感词典是情感分析的基础,它包含了情感词汇和对应的情感极性,积极、消极或中性。为了构建准确可靠的情感词典,本文采用标注好的情感词汇数据集,训练情感分类模型。通过模型训练,我们可以自动识别并标注新的情感词汇,进一步丰富情感词典。在构建好情感词典后,我们利用情感分析技术对评论数据进行了情感极性判断。首先将每条评论中的词语与情感词典进行匹配,找到其中的情感词汇。然后根据匹配到的情感词汇的情感极性,计算每条评论的情感极性值。最后对所有评论的情感极性值进行统计和分析,得到用户对课程的整体情感倾向和各主题下情感值分布情况。

3 研究结果及分析

3.1评论数据的主题分布

LDA模型作为一种非监督学习算法,能够有效识别文本数据中的潜在主题,为课程改进提供数据支持。为了深入理解用户对课程的反馈,本研究采用LDA模型对大量评论数据进行主题发现。通过该模型,我们发现用户评论数据中主要涉及课程内容、课程设计、学习体验、课程考核、学习材料这五个核心主题。其中,对课程内容的评论数据占比最高,达到了40.68%,其次是课程设计,此主题占比为28.15%;课程考核、学习材料、学习体验占比分别为14.59%、9.78%、6.79%。通过对各主题的关键词进行挖掘,得到如表1所示的各主题下的热门关键词。

通过对以上五个主题进行分析,我们发现课程内容是用户评论中占比最高的主题,这反映了用户对课程核心教学内容的高度关注。课程内容的质量、丰富度、实用性和前沿性都是影响用户满意度的重要因素。包括“内容”、“知识”、“教学内容”等,这些关键词体现了用户对课程知识点的重视,以及对于课程是否涵盖所需理论和实践知识的期望。课程设计是用户评论中的第二大主题,说明用户非常关注课程的结构、教学方法和安排。一个合理、高效且个性化的课程设计能够提升用户的学习体验和学习效果。课程考核主题涉及考核方式、难度、公平性等方面。用户对于课程的考核方式、习题难度和作业量等方面都有较高的关注度。学习材料是用户评论中的一个不可忽视的主题,用户对于课程提供的课件、教材、视频等资源的质量和丰富度都有一定要求。如“课件”、“学习资料”、“视频”等,这些关键词反映了用户对课程学习资源的重视程度。学习体验虽然占比不高,但用户对于课程的清晰度、趣味性、实用性等方面都有一定评价。包括“清晰”、“通俗易懂”、“生动有趣”等,这些关键词体现了用户对课程讲解方式、课堂氛围和学习效果的感受。

3.2 情感分析结果

本研究通过对预处理后的评论数据进行中文情感分析,通过对文本中的情感色彩进行识别和提取,来判断文本所表达的情感倾向,如正面、负面或中性。在收集到的评论数据中,我们分别筛选出了表达正向情感和负向情感的评论,这些评论通常包含了对课程设计或教学方法的积极与消极评价。然后,我们利用词云生成工具,将筛选出的正向评论和负向评论中的关键词进行提取并可视化处理,生成了如图1、图2所示的词云图。

通过观察图1,我们可以发现,正向评论中主要涉及的关键词包括“循序渐进”、“详细”、“案例”、“深入浅出”等教育相关的词汇,以及一些形容词如“非常”、“实用”、“条理清晰”、“清晰课程内容”等。这些关键词反映了评论者对课程或教学方法的积极评价。例如,“循序渐进”表明课程内容的安排是逐步深入的,有助于学生逐步掌握知识和技能;“详细”和“案例”则表明课程内容讲解细致入微,且通过具体案例来加深理解;“深入浅出”则体现了讲解方式既深入本质又浅显易懂的特点。

图2展示了评论者对于学习相关的负面评价,涉及教学方法、课程内容、学习体验等多个方面。我们注意到“听不懂”这个词在词云图中较为突出,这意味着有一部分评论者对于所学习的内容或教学方法存在理解上的困难。这可能是由于课程内容过于复杂、讲解不够清晰或教学方法不适合等原因导致的。其次,“内容”和“语法”这两个词也出现在词云图中,表明评论者对于课程内容的某些方面或语法教学存在不满。可能是课程内容不够丰富、不够实用,或者语法讲解不够透彻、不够系统等原因导致的。另外,“基础讲解”和“授课详细”这两个词虽然通常与正面评价相关联,但在这张负向评论词云图中出现,可能意味着评论者认为这些方面并没有达到他们的期望。可能是基础讲解不够扎实、不够系统,或者授课虽然详细但过于冗长、不够精炼等原因导致的。

4 结论

本研究通过对MOOC平台用户评论进行主题挖掘和情感分析,揭示了用户对课程内容、课程设计、课程考核、学习材料和学习体验等方面的关注。其中,课程内容是用户评论中占比最高的主题,反映了用户对课程核心教学内容的高度关注。情感分析结果显示,正向评论主要涉及“循序渐进”、“详细”、“案例”等积极词汇,而负向评论则集中体现在“听不懂”、“内容”、“语法”等负面评价上,涉及教学方法、课程内容和学习体验等多个方面。这些发现对于教师来说具有重要的参考价值,可以帮助他们更好地了解学生的学习需求和问题所在,从而优化课程内容、改进教学方法和课程设计,提升学生的学习效果和满意度。同时,对于未来的教育研究和实践也具有一定的指导意义,有助于推动教育质量的不断提升。

参考文献

[1]张文德,徐子杨,赵立红. 基于LDA主题模型的“双一流”高校图书馆用户评论文本数据挖掘[J].情报探索, 2024, (07):120-127.

[2]刘清堂,尹兴翰,吴林静,等.基于学习者评论数据挖掘的MOOC课程质量影响因素研究[J].远程教育杂志,2023,41(01):80-90.

[3]孙诗淇.基于MOOC平台课程评价的学习者情绪倾向分析研究[D].辽宁师范大学,2023.

[4]郭成.基于信息抽取的慕课基础课程负面评论挖掘与分析[D].中南财经政法大学,2022.

基金项目:全国高等院校计算机基础教育研究会2024年项目(项目名称:大数据支持下精准教学的实践研究,项目编号:2024-AFCEC-642)

作者简介:杨晓欢(1991- ),女,硕士,讲师,主要从事计算机专业的相关教学与科研工作。