缩略图
Science and Technology Education

基于长短期记忆神经网络的 PM2.5 浓度预测研究

作者

赵雪利

山东英才学院 山东 济南 250000

关键字:长短期记忆神经网络;PM2.5 浓度预测;深度学习;循环神经网络

引言

随着工业化和城市化进程的加速,大气环境污染问题日益严峻,其中细颗粒物(PM2.5)因其对人体健康和生态环境的严重危害,成为全球关注的焦点。PM2.5 是指空气动力学直径小于或等于 2.5微米的颗粒物,能够长时间悬浮于空气中,不仅会引发呼吸系统疾病、心血管疾病等健康问题,还会导致能见度降低、气候异常等环境问题。因此,精准预测PM2.5 浓度变化趋势,对于环境保护决策制定、公众健康以及空气质量改善具有重要的现实意义[1]。PM2.5 浓度的变化受到多种因素的综合影响,包括气象条件(如温度、湿度、风速、气压等)、污染源排放(如工业废气、汽车尾气、燃煤排放等)以及地理因素(如地形、植被覆盖等)。由于这些影响因素具有复杂性、非线性和动态性,传统的预测方法(如统计模型、数值模拟模型等)在处理多变量耦合和非线性关系时往往存在局限性。例如,统计模型(如回归分析、时间序列分析)假设数据服从特定的分布规律,难以捕捉PM2.5 浓度变化中的复杂非线性特征;数值模拟模型虽然能够考虑物理化学过程[2],但需要大量的气象和污染源数据支持,且计算成本高、预测时效性差,难以满足实时预测的需求[3]。因此,寻找一种能够有效处理非线性、动态性数据的预测方法,成为PM2.5 浓度预测领域的研究热点。

1 神经网络基础与常用模型

1.1 神经网络概述

近年来,随着人工智能技术的快速发展,神经网络因其强大的非线性拟合能力和自适应学习能力,在环境监测、气象预测等领域得到了广泛应用[4]。神经网络是一种模仿人脑神经系统结构和功能的数学模型,通过多层神经元之间的连接权重调整,实现对输入数据的特征提取和模式学习。在PM2.5 浓度预测中,早期研究多采用前馈神经网络(如 BP 神经网络),该模型通过反向传播算法调整权重,能够拟合输入与输出之间的非线性关系[5]。然而 BP 神经网络属于静态网络,无法有效处理具有时间序列特性的数据,而PM2.5 浓度数据本质上是一种随时间变化的序列数据,其当前浓度与历史浓度存在显著的时间依赖性,因此前馈神经网络在捕捉这种时序相关性方面存在不足。

1.2 常用模型介绍

1.2.1 循环神经网络

为解决时间序列数据的建模问题,循环神经网络(Recurrent Neural Network,RNN)应运而生。RNN 通过引入反馈机制,使网络在处理序列数据时能够保留历史信息,从而捕捉数据中的时序依赖关系[6]。与前馈神经网络不同,RNN 的神经元输出不仅取决于当前输入,还与上一时刻的隐藏状态相关,这种结构使其在语音识别、自然语言处理、时间序列预测等领域表现出独特的优势,其网络结构如图 1 所示。在 PM2.5 浓度预测中,RNN 能够利用历史浓度数据和相关影响因素的时序信息,建立浓度变化的动态模型。然而,传统 RNN 存在梯度消失或梯度爆炸的问题,当处理长序列数据时,网络难以有效学习长期依赖关系,导致预测精度下降。例如,当PM2.5 浓度受到多日之前的污染源排放或气象条件影响时,传统RNN 可能无法准确捕捉这种长期影响,从而影响预测结果的可靠性。

图1 循环神经网络结构图

1.2.2 长短期记忆网络

长短期记忆网络(Long Short-Term Memory,LSTM)作为 RNN 的改进模型,通过引入门控机制(输入门、遗忘门、输出门)解决了长期依赖问题,成为处理长序列数据的有效工具。LSTM 的门控结构能够自主决定保留或遗忘历史信息,从而在学习过程中有效缓解梯度消失问题[7],更好地捕捉时间序列中的长期依赖关系,其结构如图2 所示。在PM2.5 浓度预测中,LSTM 不仅能够处理气象因素、污染源数据等多变量输入,还能充分利用历史浓度数据中的时序特征,尤其是对于具有周期性、趋势性的 PM2.5 浓度变化,表现出更强的适应性和预测精度。目前基于 LSTM 的 PM2.5 浓度预测研究已取得一定进展,但如何进一步优化模型结构、融合多源数据以及提高预测的鲁棒性,仍需深入探索。

2 基于 LSTM 的 PM2.5 浓度预测算法

基于 LSTM 的 PM2.5 浓度预测算法,通常以历史 PM2.5 浓度数据以及相关影响因素(如温度、湿度、风速、气压、降水量、污染物排放数据等)作为输入,通过构建合适的网络结构来实现对未来一段时间内PM2.5 浓度的预测。该算法的核心在于利用LSTM 对时序数据的深度挖掘能力,将时间序列数据转化为监督学习问题,即通过滑动窗口等方式,将过去一段时间的序列数据作为输入特征[8],对应未来某一时刻的PM2.5 浓度作为输出标签,让模型在训练过程中学习其中的潜在规律。在实际应用中,为了提高预测的准确性和泛化能力,还会结合数据预处理(如归一化、缺失值处理)、特征选择(筛选与PM2.5 浓度相关性高的特征)以及模型优化(如调整网络层数、神经元数量、学习率等超参数)等步骤。目前,基于 LSTM 的 PM2.5 浓度预测研究已取得一定进展。例如,有研究将 LSTM与注意力机制结合,使模型能更关注对预测结果影响较大的历史时刻数据;也有研究通过融合多站点监测数据,利用LSTM 捕捉空间相关性,提升区域PM2.5 浓度预测效果[9]。但这些研究仍存在一些不足,如部分模型仅考虑单一站点数据,忽略了区域间的相互影响;在处理突发污染事件时,模型的适应性有待提高[10];同时,如何平衡模型复杂度与预测效率,也是实际应用中需要解决的问题。因此,对基于LSTM 的PM2.5 浓度预测算法进行深入研究和优化,具有重要的理论和实践价值。

综上所述,针对 PM2.5 浓度预测中传统方法的局限性,本文提出基于 LSTM 的 PM2.5 浓度预测算法。通过分析PM2.5 浓度的影响因素,构建包含多源时序数据的输入特征集,利用LSTM 模型捕捉数据中的非线性关系和长期时序依赖,实现对PM2.5 浓度的精准预测。本文的研究旨在为空气质量预警和污染防治提供科学依据,推动智能算法在环境监测领域的深入应用。

图2 堆叠两层的LSTM 网络结构图

3 实验研究与分析

3.1 数据集

本数据集聚焦中国地区,涵盖了极为丰富的环境信息。其空间分辨率高达1km,能够精确到每一个细小区域,无论是繁华都市,还是偏远乡村,都能精准捕捉到PM2.5 浓度的变化情况[11]。时间跨度从 2002 年至 2023 年,长达 22 年的数据积累,完整呈现了我国在这一时期内空气质量随时间的动态演变过程,有助于分析长期趋势以及不同年份间的对比。LSTM 通过捕捉数据集中的长距离依赖关系进行训练,该数据集满足其对于数据的要求。在数据构成方面,不仅包含了至关重要的PM2.5 浓度数据,为直接衡量空气质量提供核心指标,还详细记录了经纬度细信息。经纬度信息与PM2.5 浓度数据紧密结合,能清晰定位每一个浓度数据所对应的地理位置,进而直观展示出PM2.5 浓度在全国不同地区的空间分布差异,如图3 所示。

图 3 各地 PM2.5 浓度情况

3.2 实验环境与方法

本实验首先对数据集进行统一处理,针对数据集中的默认背景数据值以及缺失数据进行预处理,按照数据集的空间分辨率进行数据的拆分,使每个单元形成独立的时间序列,并对其进行归一化处理;其次构建LSTM 训练模型,模型结构设计上采用多层LSTM 架构。输入层匹配时间序列长度,将预处理完成的浓度数据作为输入层的输入数据,输入层与模型中第一层LSTM 的神经元形成全连接,然后通过dropout 参数随机删除某些神经元抑制过拟合,经过多层LSTM 后由全连接层输出PM2.5 的浓度预测值;最后采用时间序列交叉验证划分数据集,以MSE(均方误差)为损失函数,Adam 优化器迭代优化。

3.3 实验结果及分析

根据模型预测结果整体表现处于较好水平。决定系数R²为 85% ,预测值与实际值之间存在线性相关性,说明模型对数据的拟合效果较为理想,具备一定的预测能力。平均绝对误差MAE 为 13.45μg/m3 ,意味着预测值与实际值的平均绝对偏离程度为 13.45μg/m3 ,该数值在PM2.5 浓度的常规监测范围内处于中等水平,反映出模型在整体误差控制上有一定成效,但仍存在一定的偏差空间。根均方误差RMSE为 15.47μg/m3 ,由于其对较大误差更为敏感,该数值略高于MAE,说明在部分样本中可能存在相对较大的预测误差,但整体偏差程度仍在可接受范围内。综合来看,模型的预测能力较强,能够较为准确地捕捉PM2.5 浓度的变化趋势。从泛化情况而言,R²达到 85% 且误差指标处于合理区间,表明模型在训练数据所涵盖的范围内具有一定的泛化能力,如表1 所示。

表1 模型训练结果

下图为本次实验中模型预测值与真实值结果图,模型能够较为准确的对大部分区域的PM2.5 浓度数据进行预测,但依然存在预测偏差的区域。模型对于PM2.5 浓度分布情况能够进行有效预测,与真实值分布情况较为吻合,表明该模型具有较好的预测能力。模型的RMSE 为 15.47μg/m3 表明某些预测值与真实值之间存在较大误差,LSTM 模型虽然引入门控机制可以解决长距离依赖的问题,但是其神经元具有极其复杂的逻辑结构,对于数据集中的内在联系无法全部提取,同时数据集中特征值较为单一,影响PM2.5 的浓度值因素包括温湿度、风速、降水量、污染物排放数据等,因此某些数据会存在较大偏差。

图4 模型预测结果图(左图为预测值,右图为真实值)

3.4 实验总结

本实验研究通过长短期记忆神经网络结合环境数据预测PM2.5 浓度值,利用LSTM 网络能够有效处理长距离依赖的能力,提取PM2.5 浓度数据中的内在关联关系。在具体操作中,首先对数据集实施预处理,处理其中的默认背景数据值与缺失数据,按照空间分辨率进行拆分,形成独立时间序列后再做归一化处理,确保输入数据的有效性。随后构建多层LSTM 模型,输入层接收预处理后的浓度数据,通过设置 dropout 参数抑制过拟合,经多层 LSTM 处理后,由全连接层输出预测结果。模型训练采用时间序列交叉验证划分数据集,以 MSE 为损失函数,借助 Adam 优化器进行迭代优化。预测模型的决定系数 R²为 85% ,表明其具有较好的预测能力,能够通过提取以往数据的内在关联对未来 PM2.5浓度进行预测。

结束语:

本研究运用长短期记忆神经网络(LSTM),结合环境数据开展 PM2.5 浓度预测工作。实验所采用的数据集覆盖2002-2023 年中国地区,空间分辨率达1km,包含PM2.5 浓度、经纬度等信息,为模型训练提供了充足且细致的数据支撑。从实验结果来看,模型的决定系数 R²为 85% ,平均绝对误差MAE 为 13.45μg/m3 ,均方根误差 RMSE 为 15.47μg/m3 ,整体呈现出较好的预测效果,能够对 PM2.5浓度的变化趋势进行有效捕捉。不过,部分样本存在较大预测误差,这与LSTM 模型对数据内在复杂关联的提取能力有限相关,同时数据集中特征值较为单一进而影响其预测能力。未来可进一步丰富输入数据维度,纳入温度、湿度等气象因素及污染源排放数据,让模型更全面地考虑影响PM2.5 浓度的因素;尝试将 LSTM 与卷积神经网络(CNN)等模型结合,利用 CNN 捕捉空间特征的能力,提升模型对区域污染扩散规律的把握;同时,针对突发污染事件增加专项训练,优化模型在极端情况下的表现,使预测结果能更好地服务于空气质量管控与公众健康保障。

参考文献

[1]田小芳,梁栋,孙云.雾霾天气 PM2.5、PM10 质量浓度及相对湿度特征分析[J].气象水文海洋仪 器,2024,41(05):56-58+62.

[2]陈学斌,陈春晖.基于完全集成经验模态分解和深度学习的PM2.5浓度预测模型[J].洛阳师范学院学报,2024,43(11):10-14.

[3]谢金林,曹良中,张智,等.PM2.5 浓度时空分布特征及驱动因子分析——以华中地区为例[J].绿色科技,2024,26(18):163-169+179.

[4]韩飞龙,冯淇萌,周晓政,等.基于 CNN-SA-LSTM 的 PM2.5 浓度预测模型[J].智能计算机与应用,2025,15(07):200-203.

[5]于璐,杨柯,马碧涛,等.基于多种机器学习模型的小时 PM2.5 浓度预测研究——以昆明市为例[J环境监控与预警,2025,17(03):21-28.

[6]张西安.基于循环神经网络的城域网流量预测技术研究[J].中国高新科技,2024,(21):15-17.

[7]楼月丹,刘宇杰,缪鹏飞.改进麻雀搜索算法优化的MLP 模型在PM2.5 浓度预测中的应用[J].测绘空间地理信息,2025,48(04):119-122+125.

[8]韩飞龙,冯淇萌,周晓政,等.基于 CNN-SA-LSTM 的 PM2.5 浓度预测模型[J].智能计算机与应用,2025,15(07):200-203.

[9]周啸宇,王海起,王琼,等.融合自注意力机制的双向 LSTM 时空插值模型[J].地球信息科学学报,2024,26(08):1827-1842.

[10]吴晓璇,朱俊,文强.基于 RF-EMD-LSTM 对 PM2.5 浓度预测研究[J].河北师范大学学报(自然科学版),2024,48(03):234-243.

[11]韦晶, 李占清. (2023). 中国高分辨率高质量 PM2.5 数据集(2000-2023). 国家青藏高原科学数据中心.

此论文为2024 年度校级科研课题《基于优化循环神经网络的PM2.5 浓度预测研究》(立项号:YCKY24093)研究成果。