视觉语言大模型引导的机载点云分类多尺度特征学习方法

1. 引言

机载激光雷达技术凭借其高效、精准的特点，能够迅速获取大范围地物的三维点云数据[1]。这些数据不仅包含了丰富的空间结构信息，还蕴含了详细的几何特征，因此在城市规划、环境监测、灾害评估等多个领域得到了广泛应用。点云分类作为三维场景理解的核心任务，其目标是为每个点赋予语义标签，如建筑物、植被、道路等[2]，从而实现地物的自动识别和分类。

近年来，随着深度学习技术的快速发展，基于深度学习的方法在点云分类中取得了显著进展。例如，基于 PointNet++ 、DGCNN、RandLA-Net 等网络结构的方法 [3]，通过直接处理点云数据，有效提取了地物的几何特征。然而，这些方法仍存在一些挑战：1）依赖大量标注数据：点云标注成本高昂，且标注质量直接影响模型性能。2）特征表达能力有限：所学特征多偏向低层几何信息，缺乏高层语义理解，导致在复杂场景下的分类性能受限。3）模型泛化能力弱：难以适应不同采集条件或地域差异的点云数据，限制了模型的广泛应用。

视觉语言大模型（如 CLIP、ALIGN 等）通过在大规模图文对数据上进行预训练，学习到了丰富的视觉 - 语言对应关系，具备强大的跨模态理解与语义表示能力 [4]。如何将 VLM 中蕴含的通用视觉 - 语言知识迁移至点云处理任务，成为当前研究的热点 [5]。本文围绕“VLM引导的多尺度特征学习”这一核心思路，系统设计并实现了一个端到端的点云分类框架，通过多尺度特征提取、注意力融合与语义对齐机制，显著提升分类性能与泛化能力。

2. 相关研究

2.1 点云分类方法

点云分类方法主要可分为基于投影的方法、基于体素的方法和基于点的方法。1）基于投影的方法：早期研究多将点云投影为二维图像，再利用卷积神经网络（CNN）进行处理。然而，投影过程会导致三维结构信息丢失，影响分类精度。2）基于体素的方法：将点云划分为规则网格，适用于 3D CNN 处理。但这种方法存在计算量大和细节损失的问题，尤其是在处理大规模点云数据时。3）基于点的方法：如 PointNet 系列方法，直接处理点云数据，能更好地保留原始几何信息。但在复杂场景和多尺度地物分类中，这类方法仍存在局限性，如对局部特征的捕捉能力不足。

2.2 视觉语言大模型在视觉任务中的应用

视觉语言大模型通过在大规模图文数据上进行预训练，学习到了丰富的视觉 - 语言对应关系。近年来，研究者开始将 VLM 用于图像分类、目标检测、语义分割等任务 [6]，通过提示学习（promptlearning）、特征对齐等手段实现零样本或少样本迁移。例如，CLIP 模型通过对比学习，将图像和文本特征映射到同一语义空间，实现了跨模态检索和分类。然而，将VLM 应用于三维点云数据仍处于探索阶段，主要挑战在于如何克服二维与三维之间的模态差异。

2.3VLM 与点云处理的结合

现有研究尝试将点云通过渲染、投影等方式转化为二维图像，进而利用 VLM 的图像编码器提取特征。这类方法虽实现了初步的知识迁移，但无法避免三维几何信息的损失。近年来，研究者开始探索在点云原生空间中进行特征对齐，如通过轻量级映射网络将点云特征嵌入到 VLM 的语义空间，并通过对比学习实现跨模态对齐。最新研究进一步探索多尺度语义引导、局部注意力对齐等技术，以实现更精细的几何 - 语义融合。例如，通过引入注意力机制，模型可以更加关注判别性区域，提升分类性能。

3. 方法设计

3.1 整体框架

本文提出的 VLM 引导的多尺度特征学习框架包括以下五个模块：数据预处理、多尺度特征提取、特征融合、VLM 语义引导、分类决策。整体流程为：原始点云经预处理后，输入多尺度卷积网络提取特征，再通过注意力机制进行融合，同时引入 VLM 提供的语义信息进行对齐与增强，最终通过分类器输出语义标签。

3.2 多尺度特征提取

为充分捕捉点云中从局部细节到全局结构的特征，本文采用多尺度卷积神经网络。具体步骤如下：1）数据预处理：对原始点云进行去噪、下采样和坐标归一化，以降低噪声干扰并统一数据分布。去噪算法可以采用统计滤波或半径滤波，下采样则通过随机采样或体素网格滤波实现。2）多尺度卷积：使用不同尺寸的卷积核（如 3×3 、5×5、7×7 ）分别提取点云的多尺度特征，每一层后接批归一化（BatchNorm）和 ReLU 激活函数，以增强模型的非线性表达能力。3）特征映射：通过多层感知机（MLP）将卷积特征映射到高维空间，进一步增强特征表达能力。MLP 的层数和神经元数量可以根据具体任务进行调整。

3.3 特征融合机制

为自适应地整合多尺度特征，本文引入通道注意力机制，具体流程如下：1）特征拼接：将多尺度特征沿通道维度拼接，形成包含丰富信息特征图。2）注意力权重计算：通过全局平均池化获取各通道的全局信息，再经由全连接层与 Sigmoid 函数生成注意力权重。这一过程可以看作是对各通道特征的重要性进行评估。3）加权融合：根据注意力权重对特征进行加权求和，得到融合后的特征表示。这样，模型可以更加关注判别性区域，提升分类性能。

3.4VLM 语义引导

为引入高层语义先验，本文使用预训练的 CLIP 模型进行语义引导：1）点云渲染：将点云投影或渲染为多视角二维图像。渲染过程中可以采用不同的视角和光照条件，以增加图像的多样性。2）语义特征提取：使用 CLIP 的图像编码器提取渲染图像的语义特征。CLIP模型通过在大规模图文数据上预训练，学习到了丰富的视觉 - 语言对应关系，因此提取的特征具有较强的语义表达能力。3）语义对齐：通过对比学习损失，使点云特征与对应文本提示（如“建筑物”、“植被”）的语义特征在 CLIP 空间中对齐。这样，点云特征不仅包含了几何信息，还融入了语义信息，增强了特征的判别性。

3.5 分类决策

融合后的特征经全连接层映射至类别数维度，再通过 Softmax 函数输出各类别概率。损失函数采用交叉熵损失，并结合语义对齐损失进行联合优化。联合优化可以确保模型在分类任务和语义对齐任务上都取得较好的性能。在训练过程中，可以采用随机梯度下降（SGD）或Adam 等优化算法来更新模型参数。

4. 结论

本文提出了一种基于视觉语言大模型引导的机载点云分类多尺度特征学习方法，通过多尺度特征提取、注意力融合和语义对齐机制，将有效提升点云分类的准确性与泛化能力。未来工作将围绕以下方向展开：1）探索更高效的跨模态对齐策略：减少渲染带来的信息损失，进一步提升特征对齐的精度。2）优化模型计算效率：适应大规模点云处理需求，降低模型的计算复杂度和内存消耗。3）增强模型的可解释性：理解 VLM 语义引导的具体作用机制，为模型优化提供理论支持。4）更多实际场景中进行验证与部署：推动技术实用化，为城市规划、环境监测等领域提供更准确、更高效的点云分类解决方案。

参考文献

[1] 杨必胜，陈一平，邹勤 . 从大模型看测绘时空信息智能处理的机遇和挑战 [J]. 武汉大学学报（信息科学版）， 2023，48（11）：1756-1768.

[2] 麻卫峰 . 机载激光点云输电线路巡检关键技术研究 [J]. 测绘学报， 2023，52（9）：1612.

[3]Qin N， Tan W， Ma L， et al. Deep learning for filtering the ground from ALS point clouds： A dataset， evaluations and issues[J]. ISPRS journal of photogrammetry and remote sensing， 2023，202：246-261.

[4]Dong S， Wang L， Du B， et al. ChangeCLIP： Remote sensing change detection with multimodal vision-language representation learning[J]. ISPRS journal of photogrammetry and remote sensing， 2024，208：53-69.

[5]Dai M， Xing S， Xu Q， et al. Multiprototype Relational Network for Few-Shot ALS Point Cloud Semantic Segmentation by Transferring Knowledge From Photogrammetric Point Clouds[J]. IEEE transactions on geoscience and remote sensing， 2024，62：1-17.

[6]Zhang J， Liu L， Silvén O， et al. Few-Shot Class-Incremental Learning for Classification and Object Detection： A Survey[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence， 2025，4（47）：2924-2945.

基金项目：本论文得到江苏省高等学校基础科学（自然科学）研究项目资助（项目编号：24KJB420006），苏州经贸职业技术学院院级课题“机载LiDAR 点云多尺度特征深度学习分类研究” 项目资助（项目编号：Y-ZK2304）