缩略图
Primary Education

基于多源数据的江苏省近地表气温估算研究

作者

陈孟奇

安徽师范大学 数学与统计学院 安徽芜湖 241002

1. 引言

近地面气温是气象预报、农业规划与生态评估的核心参数,但传统气象站点呈离散点状分布,难以满足精细化空间分析需求 [1-3]。遥感地表温度(LST)虽具面状覆盖优势,但与近地面气温存在偏差(LST通常高于近地面气温 2-39C ),亟需通过多源数据融合实现精准转换。MODIS(Moderate Resolution Imaging Spectroradiometer)数据具有较高的时间分辨率(1-2 天)和适中的空间分辨率(1km),其地表温度(LST)和植被指数(NDVI)产品已被广泛应用于气温估算研究 [4-6]。然而,单一遥感因子难以完全解释气温的时空变异,融合地形数据(如DEM)和地面观测数据可有效提升模型精度 [7-9]。

江苏省地处东部沿海,地形涵盖平原、丘陵和水域,气候受季风影响显著,已有研究多基于单一模型(如多元线性回归)开展气温插值,对空间非平稳性(如地形导致的局部气候差异)和非线性关系(如植被与气温的复杂交互)考虑不足。地理加权回归(GWR)通过引入空间权重矩阵,可捕捉变量关系的局部异质性;随机森林(RF)作为非线性集成学习方法,在处理高维数据和复杂交互作用中表现优异。但目前针对江苏省的近地表气温估算研究中,多模型对比分析仍较缺乏。

2. 数据与方法

2.1 研究区域与数据来源

2.1.1 研究区域

江苏省位于 30 ° 45 ′ -35 08′ N,116° 21 ′ - -121 56′ E,面积 10.72 万平方公里,地势平坦(平原占比 86.89% ),但西南部有低山丘陵分布。气候属亚热带向暖温带过渡区,年均温 13-16C ,四季分明,气温空间分布受纬度、海陆位置和地形共同影响。

图1 江苏省气象站点空间分布示意图

2.1.2 数据来源

(1)遥感数据:本文主要利用的是 MODIS 数据产品,从网站https://ladsweb.modaps.eosdis.nasa.gov/search/ 上 下 载 数 据, 包 括 8 天合成的地表反射率产品(MYD09A1)、8 天合成的地表温度产品(MYD11A2)。研究区所覆盖的条带号包括 h27v05 ,h28v05,时间范围 2017 年 1 月 1 日 -2019 年 12 月 31 日。

(2)地形数据: 30m 分辨率 DEM 数据(源自地理空间数据云http://www.gscloud.cn/)。

(3)地面观测数据:江苏省 22 个国家级气象站点 2017 年 1 月 1日-2019 年12 月31 日的日均温数据,来自中国气象数据网(http://data.cma.cn/)的中国地面气候资料日值数据集 (V3.0)

(4)其他数据:江苏省行政区划矢量边界数据,用于空间范围界定。

2.2 数据预处理

2.2.1 遥感数据处理

(1)格式转换与拼接:利用 MRT(MODIS Reprojection Tool)将HDF 格式的MODIS 遥感产品数据转换为TIFF 格式,同时进行投影转换和拼接。基于江苏省行政区划 shapefile 数据进行裁剪,得到研究区8 天合成的地表温度数据。

(2)质量控制与异常值剔除:通过R 语言进行QC(质量控制波段)掩膜处理,剔除云污染像元以及异常值(如LST 值 >60C 或 <-40% )。

(3)单位转换:LST 从开尔文转摄氏度( C ),即应用缩放因子(乘以 0.02)得到真实的开尔文温度,再减去 273.15。高程单位统一为米(m)。从地表反射率产品数据中提取太阳天顶角(SolarZenith)的信息,换算系数为 0.01。从地表反射率产品数据中提取出近红外波段和红光波段的数据,通过波段运算得到8 天的NDVI 数据。

(4)空间匹配:对所有的遥感数据按照 1km×1km 的分辨率进行重采样。基于站点经纬度,从 LST、NDVI、DEM、太阳天顶角等影像中提取对应像元值,构建数据集。

2.2.2 地面观测数据处理

(1)异常值剔除:气温数据遵循 3σ 原则,完成异常值剔除(如连续3 天温差 >15C )。

(2)8 日均温计算:与 8 天合成的 MODIS 产品数据日期相对应,对日均温数据进行对应的8 天均值处理。

2.3 模型构建

2.3.1 变量选择

构建包含 7 个自变量的数据集:LSTad(白天地表温度)、LSTan(夜晚地表温度)、NDVI(植被指数)、SZA(太阳天顶角)、经度(X)、纬度(Y)、高程(DEM)。因变量为日均温(Tave)。

表1 选取变量、缩写及其描述

2.3.2 模型方法

(1) 多元线性回归(MLR):假设变量关系全局线性,模型表达式为:

Ta01LSTad+β2LSTan+β3NDVI+β4SZA+β5Lon+β6Lat+β7DEM+ε

其中, Ta 为近地表气温, β0 , βl ,……β6 为回归系数, σε 为常数项。

(2) 地理加权回归(GWR):考虑空间非平稳性,通过高斯核函数计算局部权重,每个样本点具有独立的回归系数:

Ta,i0(ui,νi)+β1(ui,νi)LSTadi+…......+β7(ui,νi)DEMii

其中, (ui,vi) 为站点i 的坐标。

(3) 随机森林(RF):基于分类回归树(CART)的集成学习方法,通过自助采样(bootstrap)和随机特征选择构建多棵决策树,最终输出回归均值,能有效处理非线性关系和变量交互作用。

2.3.3 模型验证

采用十折交叉验证,使用决定系数( R2 )、均方根误差(RMSE)、平均绝对误差(MAE)评价模型精度。

3. 结果与分析

3.1 变量关系分析

为了进一步分析变量之间的相关性,建立更适用的近期表气温估算模型,利用R 语言对数据集进行处理,得到图2。

图2 各变量与近地表气温的相关性分析图

从图 2 中,可以看出近地表气温数据(Tave)与地表温度数据(LSTad 和 LSTan)高度正相关,这也与各学者的研究结果一致。同时发现,近地表气温数据与太阳天顶角数据成高度负相关。当太阳天顶角较小时,意味着太阳更接近天顶,此时太阳光线几乎垂直照射到地面,到达地面的太阳辐射多,地面传递给近地表空气热量多,气温升高;天顶角大则相反。太阳天顶角还关联日照时间,天顶角小日照长,地面热量积累多使气温高,天顶角大日照短热量少气温低,所以二者高度负相关,有重要的物理依据 [8-10]。此外,近地表气温数据与植被指数也呈现出一定的相关性,不同植被指数代表着不同的植被覆盖和健康程度,植被能够吸收和反射太阳辐射,茂密且健康的植被对太阳辐射的吸收能力较强。研究表明植被覆盖度越高,地表温度与气温之间越接近,从图 2 中也可以发现植被指数与地表温度数据有一定的相关性。

针对以上变量,开展相关系数的显著性检验,计算得到P 值。

表 2 T 检验 P 值

分析 P 值后,发现 DEM、Lon、Lat 与 Tave 不具有显著的线性相关性,不具有显著性的统计学意义。江苏省地势平坦,高程作为静态变量,随时间变化不明显,各气象站点经纬度相差很小,各地均温温差并不大。

3.2 模型精度对比

3.2.1 多元线性回归(MLR)

经过各变量与近地表气温的相关性分析,现建立 Tave 与 LSTad、LSTan、NDVI 和 SZA 的多元线性回归模型。通过方差分析表,发现LSTan 这一变量对 Tave 的影响显著。所有变量通过 T 检验和 F 检验。利用方差膨胀因子(VIF)进行多重共线性检验,得到 LSTad 的 VIF值为 7.49,LSTan 的 VIF 值为 6.03,NDVI 的 VIF 值 1.20,SZA 的 VIF值为 3.80 。结合上述分析,最终确立以下的多元线性回归模型:

对应的 R2 为 0.9705、RMSE 为 、MAE 为 1.2188C 。十折交叉验证结果图(图 3)和残差分析图(图 4)显示,模型性能和预测效果很好,模型的线性假设合理,残差基本服从正态分布。

图3 十折交叉验证结果图

图4 残差分析图

3.2.2 地理加权回归(GWR)

地理加权回归模型是对普通线性回归模型的扩展,它将数据的空间位置嵌入到回归方程中,考虑到了空间对象的局部效应,能更精细地捕捉“空间分异规律”[11-12]。基于已有的数据,通过 R 语言中GWR 数据包(spgwr)编程,得到对应的 R2 为 0.9708、RMSE 为 1.5805C 、MAE 为 1.2151C 。

图5 GWR 局部系数空间分布图

图 5 表明 LSTad 对 Tave 的正向影响在东部、偏北区域更显著,西部、偏南区域影响相对较弱。LSTan 对 Tave 的正向影响规律与LSTad 一致,但影响强度更大,说明该变量是驱动因变量变化的“主导性温度因子”。NDVI 对 Tave 的影响存在双向空间异质性—西部、偏南区域呈“负向作用”,东部、偏北区域呈“正向作用”。这种差异可能与区域植被类型、生态功能的空间分异有关。SZA 对 Tave 的负向影响在西部、偏南区域更显著,东部、偏北区域负向影响减弱,甚至出现微弱正向作用。这种差异可能与区域地形(如山地遮挡)、云量分布等因素的空间变化有关。相比普通线性回归,GWR 模型更贴合地理现象的本质规律。

3.2.3 随机森林(RF)

通过运算,得到随机森林回归模型的对应 R2 为 0.9754、RMSE为 1.4581C 、MAE 为 1.1164C 。对比多元线性回归模型,发现随机森林模型的预测效果要略好一些。图5 表明,LSTan 对模型非常重要,这也其他学者的研究相一致。图 6 表明,当决策树数量大于 300 后模型误差趋于平稳。

图6 随机森林变量重要性

图7 随机森林误差随树数量变化图

4. 结论与展望

本研究以江苏省为研究区,融合 2017-2019 年 MODIS 遥感数据、气象站点观测数据及地形数据,构建多元线性回归(MLR)、地理加权回归(GWR)与随机森林(RF)三种模型,结果显示:RF 模型精度最优( , R2=0.9754 ),较 MLR( RMSE=1.5865C )和 GWR( RMSE=1.5805C )更具优势;GWR 因捕捉变量空间异质性,较 MLR 更贴合地理规律,且 LSTan 是气温估算的主导因子,NDVI、SZA 对气温的影响存在显著空间分异。

未来可进一步提升数据分辨率(如融入 Landsat 系列高分辨率数据),扩展长期研究序列以分析江苏省气温时空演变趋势。还可引入海陆距离、城市化率等变量优化模型,或尝试 LSTM 等深度学习方法挖掘气温时空关联,亦能耦合降水、湿度等要素,为区域精细化气候评估、农业规划及生态调控提供更精准的技术支撑。

参考文献

[1] 白琳 . 基于 Landsat/TM 数据的地表温度与气温的对比分析[A]. 中国气象学会 . 第 32 届中国气象学会年会 S18 气象卫星遥感新资料——新方法——新应用[C]. 中国气象学会: 中国气象学会 ,2015:7.

[2] 白琳 , 徐永明 , 何苗 , 李宁 . 基于随机森林算法的近地表气温遥感反演研究 [J]. 地球信息科学学报 ,2017,19(03):390-397.

[3] 齐会娟 . 陆表温度的重建及其在气温空间模拟中的应用研究[D]. 重庆师范大学 ,2017.

[4] 黄晶晶 . .2003~2017 年江浙沪地表温度重建及其时空变化分析 [D]. 浙江师范大学 ,2019.

[5] 王超 . 重庆市长时序遥感地表温度数据重建方法的对比研究[D]. 重庆师范大学 ,2019.

[6] 徐剑波 , 赵凯 , 赵之重 , 肖志峰 , 钟德福 . 利用 HJ-1B 遥感数据反演西北地区近地表气温 [J]. 农业工程学报 ,2013,29(22):145-153.

[7] 徐伟燕 , 孙睿 , 周爽 , 金志凤 , 胡波 . 基于遥感和 GIS 的日最高最低气温估算 [J]. 北京师范大学学报 ( 自然科学版 ),2017,53(03):344-350.

[8] 徐永明 , 覃志豪 , 沈艳 . 基于 MODIS 数据的长江三角洲地区近地表气温遥感反演 [J]. 农业工程学报 ,2011,27(09):63-68.

[9] 赵登忠 , 谭勇 , 汪朝辉 . 基于神经网络的近地面气温遥感反演研究 [J]. 人民长江 ,2012,43(08):32-37.

[10] 张丽文 , 黄敬峰 , 王秀珍 . 气温遥感估算方法研究综述 [J]. 自然资源学报 ,2014,29(03):540-552.

[11] 周洋 , 祝善友 , 华俊玮 , 刘祎 , 向嘉敏 , 丁文 . 南京市高温热浪时空分布研究 [J]. 地球信息科学学报 ,2018,20(11):1613-1621.

[12] 周义 . 基于 MODIS 数据的近地表气温反演算法研究 [D]. 南京大学 ,2014.

项目信息:本文研究受校级科研项目资助,项目名称:基于时空插值数学建模方法的淮河流域近地表气温估算(项目编号: 2021xjxm039 )。

作者简介:陈孟奇(1994 年 11 月 --),男,安徽合肥人,汉,硕士研究生,辅导员,讲师,研究方向:思想政治教育。