点击蓝字
关注我们
关注并星标
从此不迷路
公众号ID|计算机视觉研究院
计算机视觉研究院专栏
Column of Computer Vision Institute
PART/1
概述
我们提出了Hyper-YOLO,这是一种全新的目标检测方法,它集成了超图计算以捕捉视觉特征之间复杂的高阶相关性。尽管传统的 YOLO 模型功能强大,但其颈部设计存在局限性,限制了跨层特征的融合以及高阶特征相互关系的挖掘。为应对这些挑战,我们提出了超图计算赋能的语义收集与传播(HGC - SCS)框架,该框架将视觉特征图转换到语义空间,并构建一个超图用于高阶消息传播。这使模型能够同时获取语义信息和结构信息,超越了传统的以特征为中心的学习方式。
Hyper-YOLO在其骨干网络中引入了所提出的混合聚合网络(MANet)以增强特征提取能力,并在其颈部引入了基于超图的跨层和跨位置表征网络(HyperC2Net)。HyperC2Net 可在五个尺度上运行,突破了传统的网格结构,允许在不同层级和位置之间进行复杂的高阶交互。
PART/2
引言
这些特征为检测各种尺寸的物体提供了坚实的基础。本文特别强调颈部网络,它对于提升模型跨尺度检测物体的能力至关重要。当代的YOLO模型在颈部采用了路径聚合网络(PANet),该网络利用自上而下和自下而上的路径,促进跨尺度信息的全面融合。然而,PANet的能力主要局限于相邻层之间的特征融合,无法充分解决跨层特征整合的问题。
相比之下,以 Gold-YOLO为代表的收集 - 分发式颈部设计,虽然促进了层间信息交换,但在特征图内的跨位置交互方面仍存在不足。此外,它也没有充分挖掘特征之间相互关系的潜力,尤其是涉及高阶相关性的部分。高阶相关性指的是不同尺度、位置和语义层面的特征之间存在的复杂且往往是非线性的关系,这些关系对于理解视觉数据中的深层上下文和交互至关重要。人们注意到,低层次视觉特征及其相关性的协同表示在目标检测任务中起着关键作用。将这些基本特征与高层次语义信息相结合,对于在给定场景中准确识别和定位物体至关重要。在许多计算机视觉任务中,挖掘低层次特征背后的高阶相关性以进行语义分析,仍然是一个具有挑战性但又必不可少的课题。这种普遍忽视挖掘此类高阶关系的现象,可能会限制视觉任务的性能表现。
在实际应用中,超图常被用于表示复杂的高阶相关性,因为与简单图相比,超图具有更强的表达能力。简单图中的边只能连接两个顶点,这极大地限制了其表达能力,而超图中的超边可以连接两个或更多顶点,能够对更复杂的高阶关系进行建模。与简单图相比,超图可以捕捉多个实体之间更丰富的交互,这对于需要理解复杂多向关系的任务至关重要,例如计算机视觉中的目标检测,其中特征图之间的跨层和跨位置相关性至关重要。
与以往大多数专注于增强特征提取骨干网络的工作不同,我们提出了超图计算赋能的语义收集与传播(HGC - SCS)框架。该框架的构思巧妙,它将视觉骨干网络提取的特征图转换到抽象语义空间,然后构建复杂的超图结构,以此来增强这些特征图。超图作为在这个语义空间中实现特征间高阶消息传播的通道。这种方法赋予视觉骨干网络吸收语义信息和复杂结构信息的双重能力,从而克服了传统的以语义特征为中心的学习方式的局限性,突破了传统的性能界限。
PART/3
新框架
A. 预备知识
YOLO系列方法通常由两个主要部分组成:骨干网络和颈部网络。骨干网络负责提取基本的视觉特征,而颈部网络则用于融合多尺度特征,以实现最终的目标检测。本文针对这两个部分提出了具体的改进策略。为了便于本文中的描述,我们将颈部网络的三个尺度输出表示为{N3,N4,N5},分别对应小尺度、中尺度和大尺度的检测。在骨干网络的特征提取阶段,我们进一步将其分为五个阶段:{B1,B2,B3,B4,B5},它们代表不同语义层次的特征。数字越大,表示该特征是由网络更深层提取的更高层次的语义特征。
B. Hyper-YOLO概述
我们的 Hyper-YOLO框架保留了典型 YOLO 方法的整体架构,包括骨干网络和颈部网络,如下图所示。
对于给定的一幅图像,Hyper-YOLO的骨干网络将所提出的混合聚合网络(MANet)作为其核心计算模块,从而增强了YOLOv8中传统C2f模块的特征辨别能力。与传统的YOLO架构不同,Hyper-YOLO接收由五个主要特征集组成的集合{B1,B2,B3,B4,B5}。Hyper-YOLO的颈部网络(HyperC2Net)采用了一种全新的方式,它基于超图计算理论,在这五个特征集之间融合了跨层和跨位置信息,最终生成了三个不同尺度的最终语义特征{N3,N4,N5}。随后,这些具有层次结构的语义特征将被用于最终的目标检测任务。
C. 混合聚合网络
对于我们的 Hyper - YOLO 的骨干网络,为了增强基础网络的特征提取能力,我们设计了混合聚合网络(MANet),如下图所示。
该架构将三种典型的卷积变体进行了协同融合:用于通道级特征重校准的1×1旁路卷积、用于高效处理空间特征的深度可分离卷积(DSConv),以及用于增强特征层次集成的C2f模块。在训练阶段,这种融合产生了更加多样化且丰富的梯度流,显著增强了在五个关键阶段中每个阶段基础特征所包含的语义深度。我们的 MANet 可以公式化表示如下:
最后,我们通过拼接操作,然后进行一次1×1卷积,对这三种类型特征的语义信息进行融合和压缩,以生成通道数为2c的Xout,具体如下:
D. 基于超图的跨层和跨位置表征网络
对于Hyper-YOLO的颈部网络,为了全面融合来自骨干网络的跨层和跨位置信息,我们进一步提出了基于超图的跨层和跨位置表征网络(HyperC2Net),如下图所示。
HyperC2Net是所提出的HGC-SCS框架的一种实现方式,它能够捕捉语义空间中那些潜在的高阶相关性。
- 超图构建
:我们的骨干网络被划分为五个不连续的阶段。这些阶段的特征图表示为{B1,B2,B3,B4,B5}。为了利用超图计算来阐明基础特征之间复杂的高阶关系,我们首先对这五个基础特征进行通道维度的拼接,从而合成跨层视觉特征。超图G={V,E}通常由其顶点集V和超边集E来定义。在我们的方法中,我们解构基于网格的视觉特征,以构成超图的顶点集V。为了对语义空间内的邻域关系进行建模,使用一个距离阈值从每个特征点构建一个ε球,它将作为一条超边,如下图所示。
为了计算方便,两阶段超图消息传递的矩阵形式可以定义为:
HGC - SCS 框架的一个实例:通过结合前面定义的超图构建和卷积策略,我们引入了 HGC - SCS 框架的一个简化实例,称为基于超图的跨层和跨位置表征网络(HyperC2Net),其总体定义如下:
在我们的HyperC2Net 中,Xmixed本质上包含了跨层信息,因为它是来自多个层次的骨干网络特征的融合。此外,通过将网格特征解构为语义空间内的一组特征点,并基于距离构建超边,我们的方法允许在点集中不同位置的顶点之间进行高阶消息传递。这种能力有助于捕捉跨位置信息,丰富了模型对语义空间的理解。
PART/4
实验及可视化
在COCO Val2017 验证集上的目标检测结果如下所示,我们得出了四个主要结论。
我们进行了全面的消融实验,以评估Hyper-YOLO中骨干网络和颈部网络的改进在四种不同模型尺度下的影响,详细结果见下表。
不同尺度模型的消融研究
YOLOv8 的基线性能列于表格顶部。表格中间部分介绍了我们仅包含骨干网络改进的HyperYOLO 模型。在表格底部,展示了经过全面增强的 HyperYOLO 模型,这些模型同时受益于骨干网络和颈部网络的改进。基于上表中的实验结果,我们有以下三点发现。
首先,无论是单独采用改进措施还是同时采用,都显著提升了-N、-S 和 -M模型的性能,这验证了我们所提出的改进方法的有效性。其次,每种改进的影响似乎与模型尺度相关。当我们从-N模型向 -S、-M和 -L模型过渡时,由于骨干网络改进带来的性能提升幅度逐渐从 2.6 下降到 1.5、0.8,最后到 0.1。相比之下,颈部网络的改进在这些尺度上始终带来更显著的性能提升,提升幅度分别为 1.9、1.6、1.0 和 0.8。这表明,虽然骨干网络中扩大的感受野和宽度缩放的优势在较小的模型中更为明显,但先进的 HyperC2Net 颈部网络通过丰富语义内容,在整体上为目标检测性能提供了更稳定的提升。
第三,当关注小目标检测(APs)时,同时进行了骨干网络和颈部网络改进的HyperYOLO-L模型实现了1.6的显著提升,而仅改进骨干网络仅带来了0.6的提升。这凸显了超图建模的潜力,特别是在颈部网络的改进方面,它能够捕捉小目标之间的复杂关系,并在这些具有挑战性的场景中显著提高检测性能。
END
转载请联系本公众号获得授权
计算机视觉研究院学习群等你加入!
ABOUT
计算机视觉研究院