Advancing Saliency Ranking with Human Fixations: Dataset, Models and Benchmarks
基于人类注视点的显著对象排名研究进展:数据集、模型与基准
研究背景
在计算机视觉领域,显著对象检测(SOD)任务已经取得了显著进展,旨在识别和分割图像中最视觉突出的对象。然而,一个更具挑战性的任务是显著对象排名检测(SRD),它不仅要求识别显著对象,还需要根据它们的显著程度进行排名。现有的SRD数据集大多基于鼠标轨迹数据构建,这种方式不足以准确捕捉人类视觉感知的复杂性。
研究意义
本研究提出了基于人类真实注视点的SRD数据集(SIFR),并使用该数据集来训练和评估模型,以更贴近真实的视觉注意过程。此外,研究还提出了一种新的模型QAGNet,该模型利用查询特征在嵌套图中进行显著对象排名,为SRD任务提供了强大的基线方法。这一研究不仅有助于推动SRD领域的发展,还能为图像标注、图像裁剪和自动驾驶等下游任务提供更有价值的信息。
文献综述
显著对象检测(SOD):SOD任务旨在突出显示场景中最视觉上有趣或重要的对象。现有的方法主要依赖于深度学习模型,并取得了显著成果。然而,这些方法通常不区分不同显著对象的重要性。
显著对象排名检测(SRD):SRD任务在SOD的基础上进一步要求对显著对象进行排名。现有的SRD数据集大多基于鼠标轨迹数据构建,这存在多种问题,如鼠标动作受自愿控制、与眼动在不同参考框架中处理等。此外,这些方法往往只考虑高度显著的对象,忽略了显著性较低的对象。
相关数据集:现有的SRD数据集如ASSR、IRSR和COCO-SalRank均存在局限性,如场景复杂度不足、显著对象数量有限或标注不准确等。
具体方法
数据集构建:
图像选择:从MS-COCO数据集中选择包含至少三个前景对象的图像。
注视点记录与过滤:使用眼动追踪系统记录参与者的自由观看行为,并通过速度基方法将注视点分组为注视事件,同时过滤掉持续时间较短的注视点和首次注视点。
显著对象阈值与标注:结合现有MS-COCO标注、Mask R-CNN和人工标注来识别和标注显著对象,确保每个显著对象都具有高质量的标注。
模型提出(QAGNet):
多尺度显著实例查询提取(SQE):从图像中提取多尺度特征图,并通过transformer解码器生成显著实例查询特征。
QAGNet架构:利用查询特征在嵌套图中进行显著对象排名。嵌套图包括单尺度图(SSG)、多尺度图(MSG)和全局关系图(GRG),通过代表性聚合(RA)和代表性反馈(RF)阶段逐步精炼和聚合特征。
排名预测:最终的特征表示被送入排名头,预测每个显著对象的相对显著性排名分数。
图1
比较不同SRD数据集
- 内容:图1展示了提出的SIFR数据集与现有的ASSR和IRSR数据集之间的比较。所有SRD真值都已着色以便于区分。
- 关键点:SOD与SRD的区别:SOD(显著对象检测)仅检测图像中最视觉上突出的对象,而SRD(显著排名检测)不仅要识别显著对象,还要根据它们的显著程度对它们进行排名。数据集来源:ASSR和IRSR数据集基于鼠标轨迹数据生成显著排名,而SIFR数据集基于真实的人眼注视数据。显著对象数量:SIFR数据集中每幅图像包含至少三个显著对象,没有任意数量限制,而其他数据集可能包含较少数量的显著对象或对其数量有限制。
图2
ASSR和IRSR数据集的局限性
- 内容:图2通过具体例子展示了ASSR和IRSR数据集中存在的问题,如显著对象的缺失、合并错误或注释错误。
- 关键点:显著对象的缺失:在某些场景中,关键显著对象(如广告牌和屏幕)未被注释。对象的合并:不同显著对象可能被错误地合并为一个对象并赋予相同的显著排名。注释错误:某些不显著的对象可能被错误地注释为显著对象。
表1:三个SRD数据集的统计比较
- 图像数量:SIFR数据集包含8389幅图像,ASSR为11500幅,IRSR为8988幅。
- 实例数量:SIFR数据集的实例总数最多,为52173个,显著多于ASSR的4944个和IRSR的30176个。
- 每幅图像中的显著实例数量:SIFR数据集平均每幅图像包含更多显著实例,且没有任意数量限制。
- 实例尺度:SIFR数据集包含更多小尺度实例,这可能增加了显著排名检测的难度。
图3
三个SRD数据集的数值比较
- 内容:图3通过柱状图和折线图展示了SIFR、ASSR和IRSR三个数据集在图像数量、实例数量、每幅图像中的显著实例数量以及实例尺度等方面的统计比较。
- 关键点:图像和实例数量:SIFR数据集包含最多的图像和实例数量。显著实例数量:SIFR数据集中每幅图像平均包含更多的显著实例。实例尺度:SIFR数据集中包含更多小尺度实例,可能给SRD模型带来更大的挑战。
图4
SIFR数据集的示例
- 内容:图4展示了SIFR数据集中的三个示例图像,包括注视点图、多边形注释和真值图。
- 关键点:注视点图:通过颜色编码的注视点表示观察者对图像中不同区域的注视时间。多边形注释:对每个显著实例进行实例级多边形注释。真值图:根据注视点数量对显著对象进行排名,并分配不同的显著值。
图5
QAGNet架构
- 内容:图5展示了提出的QAGNet(查询作为图网络)的整体架构和详细结构。
- 关键点:多尺度显著实例查询提取(SQE):从输入图像中提取多尺度特征图,并通过变压器解码器生成显著实例查询。QAG层:通过构建三级嵌套图(单尺度图、多尺度图和全局关系图)来捕捉每个显著实例的排名感知特征。排名头:最终的特征表示被输入到排名头中,以预测所有显著实例的相对显著排名分数。
这些图像通过直观的方式展示了SIFR数据集的特点、与其他数据集的比较、数据集的示例以及提出的QAGNet模型的架构,有助于理解论文的核心内容和贡献。
- 公式1表示多尺度显著实例查询提取(SQE)模块的处理过程。
- 对于给定的初始查询Q_0,SQE模块通过Transformer解码器的9个连续层处理,并与像素解码器获得的多尺度特征图交互,生成9个更新的查询代表Q_{l,s}。
- l表示解码器中的相对位置(1, 2, 3),s表示特征图的尺度(32, 64, 128)。
- 公式2表示QAGNet网络的整体处理过程。
- QAGNet以所有多尺度查询代表Q_{all}作为输入,输出一个特征代表^Z_{final},该特征代表描述了输入图像中所有N个显著实例的多尺度和排名感知线索。
图6:Tri-tiered Nested Graph Illustration(三层嵌套图说明)
描述:
图6展示了QAGNet中使用的三层嵌套图结构,包括单尺度图(SSG)、多尺度图(MSG)和全局关系图(GRG)。
- 单尺度图(SSG):包含同一尺度的实例级特征。每个SSG代表一个显著实例的单尺度线索,由三个常规节点(来自不同解码层的查询特征)和一个代表节点组成。
- 多尺度图(MSG):包含多尺度实例级特征。每个MSG由三个不同尺度的SSG代表节点组成,代表一个实例的多尺度特征。
- 全局关系图(GRG):不仅包含多尺度实例级线索,还包含显著实例提案之间的关系。GRG由所有MSG代表节点组成,允许实例在全局上下文中进行排名感知的特征更新。
意义:
这种三层嵌套图结构使得QAGNet能够捕捉到每个显著实例的多尺度特征以及它们之间的关系,从而更准确地进行显著性排名。
- 公式3表示在单尺度图(SSG)中,初始代表节点~r_{s_n}的计算方法。
- 它通过取同一尺度下三个常规节点q_{1,s_n}, q_{2,s_n}, q_{3,s_n}的平均值来得到。
- 公式4与前面公式9重复,表示在单尺度图(SSG)中,通过图神经网络层f更新同一尺度下的三个常规节点。
- A_{SSG1}是SSG的初始邻接矩阵,表示节点之间的连接关系。
- 公式5表示在单尺度图(SSG)中,最终代表节点r_{s_n}的计算方法。
- 它通过结合更新后的常规节点^q_{1,s_n}, ^q_{2,s_n}, ^q_{3,s_n}和初始代表节点~r_{s_n},并通过图神经网络层f计算得到。
- A_{SSG2}是SSG的另一个邻接矩阵,只包含从更新后的常规节点到代表节点的有向边。
- 公式组6描述了多尺度图(MSG)代表节点的计算过程。首先,计算三个不同尺度(32, 64, 128)的单尺度图(SSG)代表节点的平均值~z n作为初始多尺度代表。然后,通过图神经网络(GNN)层更新这三个代表节点,得到^r 32n ,^r 64n ,^r 128n。最后,将更新后的代表节点和初始多尺度代表~z n结合,再次通过GNN层更新,得到最终的多尺度图代表节点z n。
公式7描述了全局关系图(GRG)节点的更新过程。它将所有多尺度图(MSG)代表节点z 1,···,z N作为输入,在全局关系图的上下文中通过GNN层更新这些节点,得到最终的排名感知实例代表^z 1,···,^z N。
表2:不同显著排名检测方法的定量比较
- 方法:比较了RSDNet、ASSR、IRSR、SOR、OCOR以及提出的QAGNet在SASR、SOR和MAE指标上的表现。
- 结果:QAGNet在SA-SOR和MAE指标上显著优于其他方法,尽管使用了更少的参数。这表明QAGNet在准确识别和排名显著对象方面表现出色。
图7:Qualitative Comparison(定性比较)
描述:
图7展示了QAGNet与其他SRD方法在提出的数据集上的定性比较结果。
- 图像展示:包含了多张具有挑战性的图像,如低对比度、复杂光照、小物体和高实例数量的场景。
- 结果对比:QAGNet生成的显著性排名图具有清晰的边界和正确的排名顺序,而其他方法在不同程度上存在边界模糊、排名错误或遗漏显著对象的问题。
意义:
定性比较结果证明了QAGNet在处理复杂场景和生成高质量显著性排名图方面的有效性。
表3:QAGNet中不同模块的消融分析
- 配置:分析了基线模型、添加RA阶段、RF阶段以及短连接等模块对性能的影响。
- 结果:完整的QAGNet(包含RA阶段、RF阶段和短连接)取得了最佳性能,表明这些模块对于学习排名感知特征至关重要。
表4:QAGNet中层数和短连接的消融分析
- 配置:比较了不同隐藏层层数和短连接对性能的影响。
- 结果:使用两层隐藏层和短连接的配置在SASOR和SOR指标上表现最佳,同时MAE也较低。这表明适当的层数和短连接有助于提升模型性能。
表5:QAGNet中查询数量的消融分析
- 配置:分析了不同查询数量(N)对性能的影响。
- 结果:查询数量增加到100和200时,模型性能显著提升,尤其是在SASOR和MAE指标上。这表明考虑更多的潜在显著实例对于准确排名至关重要。然而,当查询数量从100增加到200时,性能提升并不明显,因此在实际应用中可以根据需要选择合适的查询数量以平衡性能和计算成本。