融合Transformer和LSTM的在线学习行为序列预测与个性化干预机制

一、研究方法与模型设计

（一）在线学习行为序列建模

在线学习行为序列涵盖学习进度、互动次数、学习方法等多个方面，体现出时间上的依赖关系。为了预测学生接下来的行为，本文对这些行为的时间特征进行建模，通过分析平台上的学习数据，提取出长期以及短期的依赖信息，其中重点是处理数据以及提取特征，涵盖学习时长、出现频率以及视频观看情况，时间特征使用时间窗方法处理，方便深度学习模型训练因此准确描述行为变化，实现更可靠的预测。

预测的难点在于识别复杂的变化规律，研究人员用 Transformer 以及 LSTM 结合的方法来处理。这种方法既考虑长期依赖关系同时也关注短期变化，表达能力较强。

图 1 战场态势数据获取方式示意图

（二）Transformer 与 LSTM 模型融合设计

Transformer 模型能把序列数据处理得很好，特别是在处理长距离依赖关系时表现突出[1]。用自注意力机制，Transformer 可以对学习行为序列中的每个时间点进行加权处理因此把不同时间点之间的联系找出来，在处理大量数据时，Transformer 能高效提取特征，在处理长时间序列数据时避免传统RNN 模型中出现的梯度消失问题。

LSTM 模型在处理短期依赖以及时序数据中的局部动态特征方面有明显优点。它用记忆单元（Cell）保存长期信息并通过遗忘门以及输入门控制信息流动，适合捕捉在线学习行为中即时的变化与趋势。

图 1 Transformer-LSTM 混合神经网络外弹道预测模型结构

把 Transformer、LSTM 结合起来，能更好地发挥两种模型优点。Transformer 用来处理输入序列中的整体信息，用多头自注意力机制对各个时间点特征进行加权，提取出整体学习行为模式；LSTM 则在这一基础上处理局部时间顺序关系，进一步提取学习行为的变化细节，这种结合结构，既能让模型关注长期依赖关系同时又能捕捉学习过程中的快速变化，为准确预测行为提供可靠的基础。

二、实验与数据分析

（一）数据收集与预处理

数据集来源于多个在线教育平台，包含5000 名学生的学习行为信息，涵盖学习时长、学习进度、互动次数和作业完成情况，时间范围为六个月。在数据处理过程中，缺失值通过前后两个数值的平均数进行填补，异常值则使用IQR 方法去除，确保数据的完整性和准确性[2]。完成数据预处理后，所有数据进行了标准化处理，以确保各个特征的单位一致。为了使Transformer 和 LSTM 模型能够使用这些数据，研究人员采用滑动窗口方式按时间顺序切分数据，具体设置为窗口长度为 15，步长为 5，旨在提取学生短期内的学习行为特点。

（二）模型训练与评估方法

高速公路拥堵现象原因众多，除交通事故外，最典型的是部分路段出现瓶颈现象，主要原因是车辆汇聚，而拥堵后又容易蔓延。作为交通流基本参数之一的交通流量，若能实时掌握其未来长时间的演化规律并作出准确预测，对交通管理部门及时作出相应决策将是极大的助力。

在模型训练中，采用了Transformer-LSTM 混合模型，以处理学生的学习行为序列数据。Transformer 部分使用多头自注意力机制提取序列中的全局特征，LSTM 部分则专注于捕捉数据中的时序依赖关系。模型使用 Adam 优化器进行训练，初始学习率设置为 0.001，并采用交叉验证法进行超参数调优。训练集与验证集的划分比例为 80：20

表 1 显示了不同滑动步长下的模型训练结果。通过对比不同步长的损失值，发现15 步的模型表现最佳，其验证损失最低。

表 1 不同滑动步长下的训练与验证损失

（三）实验结果与分析

实验结果显示，把Transformer-LSTM 模型用于学习行为预测任务时，表现明显好于传统的 LSTM 以及 GRU 模型。表 2 列出不同模型在射程、偏航预测任务中的绝对误差同时说明Transformer-LSTM 模型预测准确度比其他模型高很多[3]。

表 2 不同模型的预测误差对比

另外，图 1 显示在不同滑动步长下，模型在训练集、验证集上损失曲线。当滑动步长变大时，验证集的损失慢慢降低，用 15 步的模型在验证集上损失最小，说明较长的滑动步长更有利于获取更多学习行为特征。

（a）Validation losses for models with different sliding step sizes

图 1 不同滑动步长模型的验证损失

图2 显示在不同滑动步长下，局部验证损失变化。从图中可以看出，用10 步、15步作为滑动步长模型，在局部区域内的损失波动更稳定，特别是在较大的滑动步长下，模型更能适应学习行为的复杂情况。

（b）Local validation losses with 10 and 15 as sliding step models

图 2 以10 和15 为滑动步长模型的局部验证损失

在交通流量预测任务中，图 3 把真实流量、预测流量对比展示出来。两者的变化趋势非常一致，说明模型可以很好地预测在线学习行为的变化模式，图 4 展示预测残差分布情况，残差值大部分集中在-0.2 到 0.2 之间，说明模型预测结果准确且稳定。

表 3 预测残差值的分布

把不同模型、不同滑动步长实验结果进行比较，可以发现 Transformer-LSTM 混合模型在在线学习行为预测任务中表现较好，而且滑动步长选择会影响模型预测准确度。

三、结论

本论文的研究，把Transformer 以及LSTM 结合起来，构建一个混合模型，用以预测在线学习行为序列。这个模型用Transformer 提取全局特征，用LSTM 建模时间顺序因此提升预测准确程度，实验结果显示，Transformer-LSTM 比传统 LSTM、GRU 表现更好，特别是在处理复杂序列时更稳定，另外，研究人员设计一个个性化干预机制，根据预测结果为学生提供定制支持，实验验证这种方法能提高学习成绩以及课堂参与度，该模型误差较小，残差分布集中，说明其具有较高精度以及可靠性。

参考文献：

[1]张钰清，王凯，黄子纯，等.基于 Transformer-LSTM 网络的干扰态势预测[J].航天电子对抗，2025，41（04）：16-26.

[2] 杨守怀，黄江流，陈志华，等.基于 Transformer-LSTM 混合神经网络的迫弹外弹道及落点预测方法[J/OL].兵工学报，1-10[2025-09-21].

[3] 刘海悦，伍添龙，毛自森.改进的Transformer-LSTM模型在交通流量预测中的应用与优化[J].陆军工程大学学报，2025，4（04）：80-87.

融合Transformer和LSTM的在线学习行为序列预测与个性化干预机制

郑雯茜

Related Articles

人工智能时代法学教育模式创新路径与发展策略研究

无公害蔬菜种植技术的推广与应用

测绘新技术在测绘工程中应用的常见问题及对策分析

基于STEAM理念的小学科学与艺术跨学科融合教学实践

风电场中风力发电机组运行故障及维护策略研究