基于长短期记忆神经网络的 PM2.5 浓度预测研究

关键字：长短期记忆神经网络；PM2.5 浓度预测；深度学习；循环神经网络

引言

随着工业化和城市化进程的加速，大气环境污染问题日益严峻，其中细颗粒物（PM2.5）因其对人体健康和生态环境的严重危害，成为全球关注的焦点。PM2.5 是指空气动力学直径小于或等于 2.5微米的颗粒物，能够长时间悬浮于空气中，不仅会引发呼吸系统疾病、心血管疾病等健康问题，还会导致能见度降低、气候异常等环境问题。因此，精准预测PM2.5 浓度变化趋势，对于环境保护决策制定、公众健康以及空气质量改善具有重要的现实意义[1]。PM2.5 浓度的变化受到多种因素的综合影响，包括气象条件（如温度、湿度、风速、气压等）、污染源排放（如工业废气、汽车尾气、燃煤排放等）以及地理因素（如地形、植被覆盖等）。由于这些影响因素具有复杂性、非线性和动态性，传统的预测方法（如统计模型、数值模拟模型等）在处理多变量耦合和非线性关系时往往存在局限性。例如，统计模型（如回归分析、时间序列分析）假设数据服从特定的分布规律，难以捕捉PM2.5 浓度变化中的复杂非线性特征；数值模拟模型虽然能够考虑物理化学过程[2]，但需要大量的气象和污染源数据支持，且计算成本高、预测时效性差，难以满足实时预测的需求[3]。因此，寻找一种能够有效处理非线性、动态性数据的预测方法，成为PM2.5 浓度预测领域的研究热点。

1 神经网络基础与常用模型

1.1 神经网络概述

近年来，随着人工智能技术的快速发展，神经网络因其强大的非线性拟合能力和自适应学习能力，在环境监测、气象预测等领域得到了广泛应用[4]。神经网络是一种模仿人脑神经系统结构和功能的数学模型，通过多层神经元之间的连接权重调整，实现对输入数据的特征提取和模式学习。在PM2.5 浓度预测中，早期研究多采用前馈神经网络（如 BP 神经网络），该模型通过反向传播算法调整权重，能够拟合输入与输出之间的非线性关系[5]。然而 BP 神经网络属于静态网络，无法有效处理具有时间序列特性的数据，而PM2.5 浓度数据本质上是一种随时间变化的序列数据，其当前浓度与历史浓度存在显著的时间依赖性，因此前馈神经网络在捕捉这种时序相关性方面存在不足。

1.2 常用模型介绍

1.2.1 循环神经网络

为解决时间序列数据的建模问题，循环神经网络（Recurrent Neural Network，RNN）应运而生。RNN 通过引入反馈机制，使网络在处理序列数据时能够保留历史信息，从而捕捉数据中的时序依赖关系[6]。与前馈神经网络不同，RNN 的神经元输出不仅取决于当前输入，还与上一时刻的隐藏状态相关，这种结构使其在语音识别、自然语言处理、时间序列预测等领域表现出独特的优势，其网络结构如图 1 所示。在 PM2.5 浓度预测中，RNN 能够利用历史浓度数据和相关影响因素的时序信息，建立浓度变化的动态模型。然而，传统 RNN 存在梯度消失或梯度爆炸的问题，当处理长序列数据时，网络难以有效学习长期依赖关系，导致预测精度下降。例如，当PM2.5 浓度受到多日之前的污染源排放或气象条件影响时，传统RNN 可能无法准确捕捉这种长期影响，从而影响预测结果的可靠性。

图1 循环神经网络结构图

1.2.2 长短期记忆网络

长短期记忆网络（Long Short-Term Memory，LSTM）作为 RNN 的改进模型，通过引入门控机制（输入门、遗忘门、输出门）解决了长期依赖问题，成为处理长序列数据的有效工具。LSTM 的门控结构能够自主决定保留或遗忘历史信息，从而在学习过程中有效缓解梯度消失问题[7]，更好地捕捉时间序列中的长期依赖关系，其结构如图2 所示。在PM2.5 浓度预测中，LSTM 不仅能够处理气象因素、污染源数据等多变量输入，还能充分利用历史浓度数据中的时序特征，尤其是对于具有周期性、趋势性的 PM2.5 浓度变化，表现出更强的适应性和预测精度。目前基于 LSTM 的 PM2.5 浓度预测研究已取得一定进展，但如何进一步优化模型结构、融合多源数据以及提高预测的鲁棒性，仍需深入探索。

2 基于 LSTM 的 PM2.5 浓度预测算法

基于 LSTM 的 PM2.5 浓度预测算法，通常以历史 PM2.5 浓度数据以及相关影响因素（如温度、湿度、风速、气压、降水量、污染物排放数据等）作为输入，通过构建合适的网络结构来实现对未来一段时间内PM2.5 浓度的预测。该算法的核心在于利用LSTM 对时序数据的深度挖掘能力，将时间序列数据转化为监督学习问题，即通过滑动窗口等方式，将过去一段时间的序列数据作为输入特征[8]，对应未来某一时刻的PM2.5 浓度作为输出标签，让模型在训练过程中学习其中的潜在规律。在实际应用中，为了提高预测的准确性和泛化能力，还会结合数据预处理（如归一化、缺失值处理）、特征选择（筛选与PM2.5 浓度相关性高的特征）以及模型优化（如调整网络层数、神经元数量、学习率等超参数）等步骤。目前，基于 LSTM 的 PM2.5 浓度预测研究已取得一定进展。例如，有研究将 LSTM与注意力机制结合，使模型能更关注对预测结果影响较大的历史时刻数据；也有研究通过融合多站点监测数据，利用LSTM 捕捉空间相关性，提升区域PM2.5 浓度预测效果[9]。但这些研究仍存在一些不足，如部分模型仅考虑单一站点数据，忽略了区域间的相互影响；在处理突发污染事件时，模型的适应性有待提高[10]；同时，如何平衡模型复杂度与预测效率，也是实际应用中需要解决的问题。因此，对基于LSTM 的PM2.5 浓度预测算法进行深入研究和优化，具有重要的理论和实践价值。

综上所述，针对 PM2.5 浓度预测中传统方法的局限性，本文提出基于 LSTM 的 PM2.5 浓度预测算法。通过分析PM2.5 浓度的影响因素，构建包含多源时序数据的输入特征集，利用LSTM 模型捕捉数据中的非线性关系和长期时序依赖，实现对PM2.5 浓度的精准预测。本文的研究旨在为空气质量预警和污染防治提供科学依据，推动智能算法在环境监测领域的深入应用。

3 实验研究与分析

3.1 数据集

本数据集聚焦中国地区，涵盖了极为丰富的环境信息。其空间分辨率高达1km，能够精确到每一个细小区域，无论是繁华都市，还是偏远乡村，都能精准捕捉到PM2.5 浓度的变化情况[11]。时间跨度从 2002 年至 2023 年，长达 22 年的数据积累，完整呈现了我国在这一时期内空气质量随时间的动态演变过程，有助于分析长期趋势以及不同年份间的对比。LSTM 通过捕捉数据集中的长距离依赖关系进行训练，该数据集满足其对于数据的要求。在数据构成方面，不仅包含了至关重要的PM2.5 浓度数据，为直接衡量空气质量提供核心指标，还详细记录了经纬度细信息。经纬度信息与PM2.5 浓度数据紧密结合，能清晰定位每一个浓度数据所对应的地理位置，进而直观展示出PM2.5 浓度在全国不同地区的空间分布差异，如图3 所示。

图 3 各地 PM2.5 浓度情况

3.2 实验环境与方法

本实验首先对数据集进行统一处理，针对数据集中的默认背景数据值以及缺失数据进行预处理，按照数据集的空间分辨率进行数据的拆分，使每个单元形成独立的时间序列，并对其进行归一化处理；其次构建LSTM 训练模型，模型结构设计上采用多层LSTM 架构。输入层匹配时间序列长度，将预处理完成的浓度数据作为输入层的输入数据，输入层与模型中第一层LSTM 的神经元形成全连接，然后通过dropout 参数随机删除某些神经元抑制过拟合，经过多层LSTM 后由全连接层输出PM2.5 的浓度预测值；最后采用时间序列交叉验证划分数据集，以MSE（均方误差）为损失函数，Adam 优化器迭代优化。

3.3 实验结果及分析

根据模型预测结果整体表现处于较好水平。决定系数R²为 85% ，预测值与实际值之间存在线性相关性，说明模型对数据的拟合效果较为理想，具备一定的预测能力。平均绝对误差MAE 为 13.45μg/m³ ，意味着预测值与实际值的平均绝对偏离程度为 13.45μg/m³ ，该数值在PM2.5 浓度的常规监测范围内处于中等水平，反映出模型在整体误差控制上有一定成效，但仍存在一定的偏差空间。根均方误差RMSE为 15.47μg/m³ ，由于其对较大误差更为敏感，该数值略高于MAE，说明在部分样本中可能存在相对较大的预测误差，但整体偏差程度仍在可接受范围内。综合来看，模型的预测能力较强，能够较为准确地捕捉PM2.5 浓度的变化趋势。从泛化情况而言，R²达到 85% 且误差指标处于合理区间，表明模型在训练数据所涵盖的范围内具有一定的泛化能力，如表1 所示。

表1 模型训练结果

下图为本次实验中模型预测值与真实值结果图，模型能够较为准确的对大部分区域的PM2.5 浓度数据进行预测，但依然存在预测偏差的区域。模型对于PM2.5 浓度分布情况能够进行有效预测，与真实值分布情况较为吻合，表明该模型具有较好的预测能力。模型的RMSE 为 15.47μg/m³ 表明某些预测值与真实值之间存在较大误差，LSTM 模型虽然引入门控机制可以解决长距离依赖的问题，但是其神经元具有极其复杂的逻辑结构，对于数据集中的内在联系无法全部提取，同时数据集中特征值较为单一，影响PM2.5 的浓度值因素包括温湿度、风速、降水量、污染物排放数据等，因此某些数据会存在较大偏差。

图4 模型预测结果图（左图为预测值，右图为真实值）

3.4 实验总结

本实验研究通过长短期记忆神经网络结合环境数据预测PM2.5 浓度值，利用LSTM 网络能够有效处理长距离依赖的能力，提取PM2.5 浓度数据中的内在关联关系。在具体操作中，首先对数据集实施预处理，处理其中的默认背景数据值与缺失数据，按照空间分辨率进行拆分，形成独立时间序列后再做归一化处理，确保输入数据的有效性。随后构建多层LSTM 模型，输入层接收预处理后的浓度数据，通过设置 dropout 参数抑制过拟合，经多层 LSTM 处理后，由全连接层输出预测结果。模型训练采用时间序列交叉验证划分数据集，以 MSE 为损失函数，借助 Adam 优化器进行迭代优化。预测模型的决定系数 R²为 85% ，表明其具有较好的预测能力，能够通过提取以往数据的内在关联对未来 PM2.5浓度进行预测。

结束语：

本研究运用长短期记忆神经网络（LSTM），结合环境数据开展 PM2.5 浓度预测工作。实验所采用的数据集覆盖2002-2023 年中国地区，空间分辨率达1km，包含PM2.5 浓度、经纬度等信息，为模型训练提供了充足且细致的数据支撑。从实验结果来看，模型的决定系数 R²为 85% ，平均绝对误差MAE 为 13.45μg/m³ ，均方根误差 RMSE 为 15.47μg/m³ ，整体呈现出较好的预测效果，能够对 PM2.5浓度的变化趋势进行有效捕捉。不过，部分样本存在较大预测误差，这与LSTM 模型对数据内在复杂关联的提取能力有限相关，同时数据集中特征值较为单一进而影响其预测能力。未来可进一步丰富输入数据维度，纳入温度、湿度等气象因素及污染源排放数据，让模型更全面地考虑影响PM2.5 浓度的因素；尝试将 LSTM 与卷积神经网络（CNN）等模型结合，利用 CNN 捕捉空间特征的能力，提升模型对区域污染扩散规律的把握；同时，针对突发污染事件增加专项训练，优化模型在极端情况下的表现，使预测结果能更好地服务于空气质量管控与公众健康保障。

参考文献

[1]田小芳，梁栋，孙云.雾霾天气 PM2.5、PM10 质量浓度及相对湿度特征分析[J].气象水文海洋仪器，2024，41（05）：56-58+62.

[2]陈学斌，陈春晖.基于完全集成经验模态分解和深度学习的PM2.5浓度预测模型[J].洛阳师范学院学报，2024，43（11）：10-14.

[3]谢金林，曹良中，张智，等.PM2.5 浓度时空分布特征及驱动因子分析——以华中地区为例[J].绿色科技，2024，26（18）：163-169+179.

[4]韩飞龙，冯淇萌，周晓政，等.基于 CNN-SA-LSTM 的 PM2.5 浓度预测模型[J].智能计算机与应用，2025，15（07）：200-203.

[5]于璐，杨柯，马碧涛，等.基于多种机器学习模型的小时 PM2.5 浓度预测研究——以昆明市为例[J环境监控与预警，2025，17（03）：21-28.

[6]张西安.基于循环神经网络的城域网流量预测技术研究[J].中国高新科技，2024，（21）：15-17.

[7]楼月丹，刘宇杰，缪鹏飞.改进麻雀搜索算法优化的MLP 模型在PM2.5 浓度预测中的应用[J].测绘空间地理信息，2025，48（04）：119-122+125.

[8]韩飞龙，冯淇萌，周晓政，等.基于 CNN-SA-LSTM 的 PM2.5 浓度预测模型[J].智能计算机与应用，2025，15（07）：200-203.

[9]周啸宇，王海起，王琼，等.融合自注意力机制的双向 LSTM 时空插值模型[J].地球信息科学学报，2024，26（08）：1827-1842.

[10]吴晓璇，朱俊，文强.基于 RF-EMD-LSTM 对 PM2.5 浓度预测研究[J].河北师范大学学报（自然科学版），2024，48（03）：234-243.

[11]韦晶，李占清. （2023）. 中国高分辨率高质量 PM2.5 数据集（2000-2023）. 国家青藏高原科学数据中心.