醋醋百科网

Good Luck To You!

AGMS-GCN: Attention-guided

论文题目:AGMS-GCN: Attention-guided multi-scale graph convolutional networks for skeleton-based action recognition

作者&团队:Kilic U, Karadag O O, Ozyer G T.

1.土耳其 埃尔祖鲁姆技术大学 计算机工程系

2.土耳其 阿塔图尔克大学 计算机工程系

3.土耳其 阿拉尼亚·阿拉丁·凯库巴特大学 计算机工程系

发表期刊/会议:Knowledge-Based Systems

中科院分区:SCI 2区

年份、卷号、刊号、页码:2025: 113045.

影响因子/会议级别:IF 7.2

研究动机

随着骨骼动作识别在智能监控、人机交互等领域的重要性不断提升,基于图卷积网络(GCN)的模型逐渐成为主流。然而,现有的 ST-GCN 模型普遍采用固定骨架图和局部卷积核,难以有效建模远距离关节点间的协同依赖和长期的时序动态,导致模型在复杂动作中的识别精度受限。同时,多数方法仅在单一尺度上进行建模,忽略了不同身体部位间在多粒度语义层面的协作关系。为此,本文提出一种融合注意力机制与多尺度图结构的 AGMS-GCN 框架,以动态建图方式捕捉动作特定的空间–时间关系,并引入多尺度策略挖掘高层语义特征,从而提升模型的判别能力与泛化性能。

模型分析(创新点)

1.注意力引导的动态邻接矩阵构建机制,利用注意力机制根据特征图自动生成动作特定的邻接矩阵,从而动态建图并增强空间–时间建模能力。

2.多尺度骨架图结构建模,构建三个不同粒度的图(G1、G2、G3),分别捕捉细粒度到粗粒度的人体部位协作关系,提升特征的语义丰富度。

3.多模态特征学习策略,分别处理并融合关节位置与运动、骨骼方向与骨骼运动四类信息,从多角度表征动作动态。

4.注意力阈值筛选机制,采用自适应阈值方式强化关键关节依赖关系,有效抑制噪声连接,增强特征表示的判别性。

AGMS - GCN总体架构

AGMS-GCN 是一种用于基于骨骼的动作识别的注意力引导多尺度图卷积网络结构,其核心在于结合多尺度建模与动态注意力机制以精准提取空间–时间特征。该架构首先对原始骨骼数据进行预处理,标准化不同坐标系统下的关节坐标,并基于此生成关节位置(J)、关节运动(JM)、骨骼向量(B)和骨骼运动(BM)四种输入信息。在特征提取阶段,AGMS-GCN 采用双流图卷积结构分别对位置和运动信息进行建模,并融合为低层特征图。随后,通过注意力机制生成动作特定的邻接矩阵,并引入自适应阈值策略以强化关键依赖关系。在后续的图特征提取模块中,模型在注意力邻接矩阵的引导下逐层提取更高层次、更具判别性的特征表示。最终,模型通过全局平均池化和Softmax分类器生成各尺度的动作类别得分,并利用投票分类器融合不同尺度的结果,输出最终的识别结果。该结构能够高效捕捉骨骼动作中的空间协同与时间动态,展现出优异的动作识别能力。

骨架图的划分策略

多尺度图结构

成功的动作执行依赖于身体不同部位关节的协调运动,这种协调性是高效、准确动作的基础。然而,现有的许多基于骨骼的动作识别方法通常忽视了这种协调性,使用单尺度图结构,导致无法提取足够的高层次语义特征。为解决这一问题,本文采用了多尺度图结构,借鉴了Feng等人提出的方法,将人体关节根据邻域关系分组,创建了三种不同的图结构(G1、G2、G3),分别表示基础骨架结构、11个主要区域和6个大致区域。AGMS-GCN架构独立处理每种尺度的信息,并通过集成不同尺度的分类结果,增强了动作识别的准确性和泛化能力,从而提高了对人体运动的识别与分类效果。

ST - GC块状结构

时空图卷积网络(ST-GCN)通过堆叠多个时空卷积块(ST-GC)来捕捉骨架数据中的空间和时间依赖关系。每个ST-GC块包括空间卷积(S-GC)和时间卷积(T-GC)。S-GC利用图卷积捕捉节点间的空间依赖关系,并通过归一化邻接矩阵来稳定训练过程。T-GC则通过1D卷积沿时间维度提取特征,捕捉动作的动态变化。每个ST-GC块具有跳跃连接,使得输入数据可以直接与输出相加,防止梯度消失问题。最终,ST-GCN通过多层堆叠的S-GC和T-GC模块,有效地捕捉到人体骨架数据的空间–时间特征,适用于复杂的动作识别任务。

AAMG模块的总体架构

注意力邻接矩阵生成模块(AAMG)

AGMS-GCN架构中的两个注意力邻接矩阵生成模块(AAMG1和AAMG2)通过一系列的卷积、归一化、池化和激活操作来生成基于注意力的邻接矩阵。首先,特征图通过临时的ST-GC块进行处理,以提取更高级别的特征,然后通过1×1卷积调整特征图的维度,并应用批量归一化确保特征的稳定性。接着,通过全局平均池化(GAP)缩小特征图尺寸,同时保留空间信息,将每个特征图压缩为一个向量。然后,特征图经过再次卷积和批量归一化进一步精细化。通过ReLU激活函数,特征图的非线性和正向性得以保证。关键步骤是根据特征图的均值计算阈值,并根据该阈值动态调整注意力权重,低于阈值的特征被抑制,而重要特征得到增强。最终,生成的注意力邻接矩阵用于后续的ST-GC块,有效指导卷积过程,专注于数据中更有信息量的区域和关系,从而提高动作识别性能。

实验分析

在NTU RGB+D 60、NTU RGB+D 120和N-UCLA三大主流数据集上进行的实验表明,AGMS-GCN在各类评估协议下均优于现有SOTA方法,尤其在NTU60的Cross-View任务上取得了97.8%的最高准确率。消融实验验证了多模态输入(位置+运动)在提升性能方面的重要性,同时多尺度图结构融合策略也显著优于单尺度建模,体现了其在特征泛化方面的优势。此外,注意力邻接矩阵的可视化展示了模型能够自适应地捕捉远程且关键的关节关系,有效补全了传统固定图结构的局限。

贡献(结论)

1.提出了一个融合注意力机制和多尺度图建模的 SBAR 框架 AGMS-GCN;

2.构建了动作特定的动态图结构,更有效地捕捉远程空间和时间依赖;

3.多尺度策略显著提升了语义建模的能力;

可改进的地方

尽管本文的方法取得了良好的效果,仍然有一些改进空间:

计算开销问题:多尺度图并行建模会显著增加参数量和推理时间,不利于实时系统部署。

未来优化方向: 作者提议未来将探索将多尺度结构融合为单一精细-粗略流(fine-to-coarse stream),通过层间池化来降低冗余;该策略有望保留特征信息同时减少计算复杂度;

注意力机制解释性:尽管使用 attention 构建邻接矩阵,但没有详细解释关键连接对识别哪些类别动作有显著作用。

控制面板
您好,欢迎到访网站!
  查看权限
网站分类
最新留言