足球训练场景中的实时3D人体姿态估计

摘要：由于足球训练场景中的深度模糊和遮挡，从单目视频估计三维人体姿态是一项具有挑战性的任务。本文在现有热点研究方向基于Transformer的解决方案基础上，采用基于Transformer的基础架构作为基础网络，结合Seq2seq交替设计，将每个2D关节作为一个单独的特征来充分学习时空相关性，通过充分识别不同身体关节的时间运动轨迹来精确预测3D姿态序列。在Human3.6M数据集上的实验表明，本文方法获得了较好的定性和定量效果，提高了足球训练场景中实时3D人体姿态估计的一致性和效率。

关键词：足球训练场景；3D姿态序列；人体姿态估计

1引言

在足球运动中能够应用计算机视觉技术，通过三维人体姿态估计，对运动员的技术动作和战术执行进行精确的量化分析，从而提供针对性的训练建议，制定更有效的比赛策略。随着计算机视觉和深度学习技术的发展，对复杂场景中的人体姿态进行准确估计已成为可能。

3D人体姿态估计（HPE）的目标是基于单目视频或2D人体关节序列来定位三维空间中的人体关节。Transformers近年来在图像分类、目标检测和视频识别取得较大进展。Zheng等人[1]引入了一种基于Transformer的3D人体姿态估计网络。它利用时空信息，通过模拟所有关节的空间相关性及连续帧之间的相关性来估计视频中的中心帧姿态。然而，它忽略了身体关节之间的运动差异，导致时空相关性学习不足。另有一些方法[2，3]将视频作为输入，仅估计中心帧的人体姿态，利用相邻帧来提高某一时刻姿态估计的准确性，但由于单帧输出而忽略了序列一致性。

基于以上分析，本文基于关节分离来考虑每个关节的时间运动信息，提出一种使用Seq2seq的交替设计，将每个2D关节作为一个单独的特征来充分学习时空相关性，这有助于降低时域中关节特征的维数，并能在长序列中获得更好的序列一致性，减少了冗余计算和过度平滑。以这种方式，不同身体关节的时间运动轨迹可以被充分地识别用以预测精确的3D姿态序列，轻松适应任何长度的输入序列。在3D人体姿态估计基准上进行的实验表明，本文所提出的方法在精度方面取得的效果优于其他基于Transformer的变体。

2相关工作

现有的单视角三维姿态估计方法可分为两种主流类型：一阶段方法和两阶段方法。一阶段方法在没有中间2D姿态表示的情况下直接从输入图像推断3D姿态，而两阶段方法首先从预训练的2D姿态检测中获得2D关键点，然后将它们送到提升网络中以估计3D姿态。例如，Simple Baseline提出了一种全连接残差网络来将2D关键点从单个帧提升到3D关节位置。Anatomy 3D[2]将任务分解为骨骼方向和骨骼长度预测，以确保序列的时间一致性。尽管通过使用来自完全卷积[2]或基于图的架构的时间相关性获得了一定的效果，但这些方法在捕获跨帧的全局上下文信息时效率较低。

从单目数据估计3D人体姿态是通过依赖运动学特征或骨骼结构开始的。随着深度学习的发展，更多的数据驱动方法被提出，这些方法可以分为端到端方式和2D到3D提升方式。端到端方式直接从输入估计3D坐标，而无需中间2D姿态表示。一些方法遵循这种方式，但由于直接从图像空间回归，因此需要较高计算成本。与端到端方式不同，2D到3D提升管道首先估计RGB数据中的2D关键点，然后利用2D和3D人体结构之间的对应关系将2D关键点提升到3D姿态。由于2D关键点检测工作的可靠成果，最近的2D到3D提升方法优于端到端方法。Pavllo等人提出了基于时间卷积网络（TCN）的扩展时间卷积来提取时间特征，利用注意力提高了TCN的表现机制，但必须固定输入序列的感受野。LSTM被引入从一组2D关键点估计视频中的3D姿态。Hossain等人提出了一种时间导数损失函数来确保序列的时间一致性，但该函数面临计算效率低的问题。Wang等人[3]采用了一种基于GCN的方法，并设计了相应的损失来模拟短时间间隔和长时间范围内的运动，但它缺乏对输入序列的全局建模能力。与它们相比，本文的方法不需要根据卷积核或滑动窗口大小预设每个输入的长度。另一方面，Seq2seq提高了3D姿态估计的一致性和效率，并一次重建输入序列的所有帧。

3方法

3.1体系结构

本方法中的网络采用连接的2D坐标，具有N个关节和T帧的2D姿势序列作为输入。首先，输入关键点序列投影到高维特征，每个联合表示的特征维数为。然后，利用位置嵌入矩阵来保留空间和时间域的位置信息。本文所提出的混合算法将作为输入，目的是交替学习空间相关性和分离时间运动。最后，使用一个回归头来连接编码器的输出，并将的维度设置为3以获得3D人体姿态序列。

3.2基础网络

本文采用基于Transformer的基础架构作为基础网络。首先简要描述Transformer中的基本组件，包括多头自注意（Multi-head Self-Attention， MSA）和多层感知机（Multilayer Perceptron，MLP）。

在MSA中，输入被线性映射到查询，键，和值，其中n是序列长度，d是维度。缩放的点积注意力可以通过以下方式计算：

3.3引入Seq2seq

Seq2seq是一种深度学习方法，主要用于处理输入与输出序列之间的映射关系。它可以一次预测输入2D关键点的所有3D姿态，在本文的3D姿态估计任务中，它有助于提高姿态序列的一致性和连续性。此外，对于包含T帧的序列，Seq2seq需要更少的推理次数，也即是有更高的效率。假设每个输入的序列长度t<T，本文方法的模型和Seq2frame方法之间的推理时间间隔G将随着T的增加而变得更高：

3.4 模型学习

使用空间变换块（Spatial Transformer Block，STB）来学习每帧中关节之间的空间相关性。为了将有效的运动轨迹注入到学习到的表示中，本模型考虑了每个关节的时间对应关系，以便明确地对动态序列中相同关节的相关性进行建模。在时间维度上分离不同的关节，使得每个关节的轨迹是一个单独的token ，并对身体的不同关节进行并行建模。从时间维度的角度来看，身体关节的不同运动轨迹被分别建模以更好地表示时间相关性。首先，将具有N个关节的2D关键点作为输入，用线性嵌入层将每个关键点投影到一个高维特征。然后用位置矩阵嵌入空间位置信息。最后，将第I帧的空间表征送入STB的空间自注意机制以建立依赖模型，并在第l个STB中输出高维表征。

4实验

4.1数据集

本文在Human 3.6M人体姿态估计数据集上进行实验，采用和文献[2]相同的实验协议，将该数据集的子集S1、S5、 S6、S7、S8用于训练，子集S9和S11用于测试。

4.2实施细节

本文方法包括三个参数，分别是在空间编码器中用作输入的帧数（f）、代表扩大感受野的整个输入序列的长度（F），以及用于合并长范围时间信息的保留DCT（Discrete Consine Transform）系数的数量（n）。为了方便起见，实验中简单地设置n = f。实际实验中，这些参数可以进一步调整，以便于达到更灵活的速度-精度平衡。当f等于1时，n被设置为3，因为单个DCT系数不足以对来自冗长输入序列的时间信息进行编码。由于f和n是固定的，因此模型的计算复杂度是预期的，可以通过改变f来有效地将模型的感受野从有限的f扩展到任意值，而不会带来额外的计算开销。这使得本方法能够有效地使用长序列来提高准确性。

4.3与其他方法的比较

本方法与其他基于Transformer的方法在Human 3.6M数据集上进行比较。通过改变f值和序列长度来证明本文模型的灵活性。当扩展比（即全序列长度与f的比值）很大时，本方法特别有效。例如，在相似的计算预算（约350MFLOPs）和相同的全序列长度（81）下，本文方法获得了52.8的MPJPE。

模型在Human3.6M数据集上的实时3D人体姿态估计效果图如图1所示，表现出较好的身体关节的全局序列一致性。

4.4消融研究

本节主要评估本文模型中每个组件的影响和性能。评估数据如表1所示，首先将中心帧3D姿态输出修改为序列输出，而不进行任何其他优化以获得seq2seq基线模型。应用STB设计后，实验结果显示本文方法的MPJPE相对于原网络降低了20.6%，同时计算成本从192485减少到744（每帧FLOPs）。然后利用联合分离实验，证明其提高了性能（从48.5到41.9）。实验结果证明了本文网络设计的合理性。

5结论

本文提出了一种新的基于Transformer的方法，引入seq2seq深度学习方法，用于从单目视频进行3D姿态估计。该模型可以更好地捕捉不同身体关节的全局序列一致性和时间运动轨迹。同时，也提高了三维人体姿态估计的效率。在Human3.6M数据上的实验结果表明，本文模型有较为突出的性能表现，优于其他基于Transformer的方法。

参考文献

[1] Ce Zheng， Sijie Zhu， Matias Mendieta， Taojiannan Yang，Chen Chen， and Zhengming Ding. 3d human pose estimationwith spatial and temporal transformers[C]. In Proceedings of the IEEE/CVF International Conference on Computer Vision（ICCV）， 2021：11656–11665.

[2] Tianlang Chen， Chen Fang， Xiaohui Shen， Yiheng Zhu， Zhili Chen， and Jiebo Luo. Anatomy-aware 3d human pose estimation with bone-based pose decomposition[J]. IEEE Transactions on Circuits and Systems for Video Technology， 2021.

[3] Jingbo Wang， Sijie Yan， Yuanjun Xiong， and Dahua Lin. Motion guided 3d pose estimation from videos[C]. In European Conference on Computer Vision， 2020：764–780.

基金项目：辽宁省教育厅2022年度高校基本科研项目（面上项目）：面向室内足球训练场景的实时三维语义重建技术研究（编号：LJKMZ20221961）

作者简介：高丽，女，1984.10-，汉族，四川省广安市，副教授，硕士研究生，研究方向：软件工程、计算机视觉。