醋醋百科网

Good Luck To You!

cvpr 2024|“适应先于比较:跨域少样本分割的新视角”


Adapt Before Comparison: A New Perspective on Cross-Domain Few-Shot Segmentation


研究背景

少样本分割(Few-Shot Segmentation, FSS)在处理与训练域不同的图像时,性能会显著下降,这限制了其在现实世界中的应用。为了缓解这一问题,跨域少样本分割(Cross-Domain Few-Shot Segmentation, CD-FSS)应运而生。然而,现有的CD-FSS方法主要试图通过源域学习一种能够跨域泛化的分割模型,但这种方法的效果并不理想。

研究意义

本文提出了一种新的视角,即测试时的任务适应是CD-FSS成功的关键。通过在传统分类预训练的主干网络上附加小型网络,并在测试时根据少量标注样本进行适应,本文的方法能够在不使用任何源域数据的情况下,实现跨域少样本分割的新状态。这一发现揭示了当前CD-FSS方法中训练下游分割网络的不足,并指出了未来研究的新方向。

文献综述

少样本分割

少样本分割主要通过比较查询特征体积与支持前景类信息表示来实现。早期方法采用查询-支持融合,而后来原型表示和像素级对应分析成为主流。此外,还有一些方法依赖于自监督对比学习来提高分割性能。

域泛化与跨域学习

域泛化(Domain Generalization, DG)和跨域学习(Cross-Domain Learning)旨在处理域偏移问题,其中目标域数据在训练时不可见。跨域少样本学习(Cross-Domain Few-Shot Learning, CDFSL)比DG和DA更具挑战性,因为它不仅要求目标域与训练域不同,还要求任务是新颖的。

跨域少样本分割

近年来,一些研究开始关注CD-FSS问题,并提出了各种方法,如特征增强、原型一致性和域特定风格信息存储等。然而,这些方法仍然依赖于源域数据和复杂的训练过程。

具体方法

特征提取

使用预训练的主干网络从查询和支持图像中提取多层特征。为了保持像素级对应关系,对图像进行几何增强,并将增强后的图像通过主干网络生成特征。

附加适配器

在每个主干瓶颈层后附加一个小型网络(适配器),用于根据查询和支持集从头开始训练这些网络。训练过程包括自监督嵌入对齐和监督类对齐。

密集比较

使用任务适应后的特征进行密集比较,生成查询预测图。通过计算查询和支持特征之间的相似性,得到每个查询像素的前景概率。

分割

将各层的粗查询预测图进行融合、阈值处理和可选的细化,得到最终的分割掩码。


图1

描述

  • 图1展示了两种少样本分割(Few-Shot Segmentation, FSS)方法的对比。
  • 顶部:传统方法通过在一个源域(如PASCAL VOC2012)上训练一个深度网络来学习分割任务,然后希望该网络能够泛化到目标域。然而,当训练和测试任务来自不同域时,这种泛化能力通常很弱。
  • 底部:本文提出的方法(Adapt Before Comparison, ABCDFSS)完全放弃了训练阶段的学习,而是在测试时通过附加到预训练骨干网络特征金字塔的小网络来适应目标任务。

关键点

  • 传统方法依赖于源域数据来训练一个分割网络。
  • 本文方法依赖于测试时的任务适应,无需源域数据。

对于每一层l,任务适应特征^F_l是通过将原始特征F_l(来自主干网络的第l个瓶颈层)传递给对应的小型网络g_l得到的。

自监督嵌入对齐损失L_{nce}用于强制来自增强视图和非增强视图的特征向量之间的点积相似性。其中,f_i和f_{aug_i}是来自同一位置的特征向量对,H和W是特征图的空间维度,τ是温度参数。

  • 图2展示了所提出方法的整体流程。
  • 查询(红色)和支持(蓝色)图像首先通过预训练的骨干网络生成多层特征。
  • 然后,这些特征被送入附加到骨干网络每个瓶颈层的小网络(绿色)以生成任务适应特征。
  • 任务适应特征通过密集比较模块生成查询预测图,最后通过融合和阈值处理得到最终的分割掩码。

关键点

  • 特征提取:使用预训练的骨干网络。
  • 任务适应:通过附加的小网络调整特征。
  • 密集比较:计算查询和支持特征之间的相似性。
  • 分割:融合多层预测图并应用阈值处理。

统计一致性损失L_{stat}用于确保特征图的统计量(均值和方差)在增强视图和非增强视图之间保持一致。其中,C是通道数,stat函数计算特征图的统计量。

监督类对齐损失L_p通过计算前景和背景原型在不同视图之间的余弦相似性来强制类内一致性。其中,p_f和p_{aug_f}是前景原型及其增强视图,p_{aug_b}是背景原型。

总损失L是查询损失L_q、支持损失L_s和监督类对齐损失L_p的总和。这些损失共同优化附加的小型网络,以提高特征的任务适应性和类判别性。

  • 该公式用于计算查询图像和支持图像在第l层特征上的相似性,从而生成查询图像的预测图。
  • 符号解释:Q:查询图像在第l层的特征,形状为(H·W×C)。K:支持图像在第l层的特征,形状为(H·W·k×C)(对于k-shot情况)。V:支持图像的掩码,形状与K相同。d:Q和K进行点积时的维度,即通道维度的大小。softmax:对点积结果进行softmax归一化,得到查询图像上每个像素属于前景类的概率。
  • 该公式用于将各层生成的预测图融合为一个最终的预测图。
  • 符号解释:L:特征金字塔的层数。^q_pred_l:第l层的预测图。upsample:双线性插值上采样,使各层预测图具有与查询图像相同的尺寸。Σ_l=1^L:对各层预测图进行求和。1/L:对求和结果进行平均,以平衡各层贡献。
  • 该公式用于将融合后的预测图转换为二值分割掩码。
  • 符号解释:^q_fused:融合后的预测图,值在0, 1]范围内。thresh:阈值函数,用于确定前景和背景的分割阈值。^M_q:最终的二值分割掩码,前景像素值为True,背景像素值为False。



表1: FB-IoU的重要性

  • 内容:展示了仅考虑mIoU(平均交并比)作为评价指标时的局限性。即使简单地将所有查询像素预测为前景,也能获得较高的mIoU,但这显然不符合实际分割任务的需求。因此,强调了在评估中同时考虑FB-IoU(前景背景交并比)的重要性。
  • 图3展示了不同方法在Deepglobe数据集上的性能对比,特别是本文方法(ABCDFSS)与先前方法(如PATNet)在mIoU和FB-IoU指标上的表现。
  • 图中还指出了Deepglobe数据集标注不准确的问题,并展示了本文方法在某些情况下能够比真实标注更精确地分割农业用地。

关键点

  • 性能对比:ABCDFSS在mIoU和FB-IoU上均优于先前方法。
  • 标注问题:Deepglobe数据集的标注存在不准确之处。
  • 分割质量:ABCDFSS在某些情况下能够提供更精确的分割结果。

表2: CD-FSS基准数据集上的mIoU结果

  • 内容:比较了不同方法在CD-FSS基准数据集(Deepglobe、ISIC、Chest X-ray、FSS-1000)上的1-shot和5-shot mIoU性能。结果显示,提出的方法(ABCDFSS)在大多数数据集上显著优于之前的SOTA方法(如PMNet),平均性能提升显著。

表3: SUIM数据集上的1-shot mIoU结果

  • 内容:在SUIM水下数据集上比较了不同方法的1-shot mIoU性能。提出的方法(ABCDFSS)相较于其他方法(如PMNet、RtD)有一定的性能提升。

表4: 与PATNet和HDMNet的完整结果比较

  • 内容:全面比较了提出的方法(ABCDFSS)与PATNet和HDMNet在多个数据集上的mIoU和FB-IoU性能。结果显示,即使在未进行后处理的情况下,ABCDFSS也能取得优于或接近PATNet和HDMNet的性能。

表5: 快速推理性能

  • 内容:评估了在仅对单个1-shot集合进行任务适应后,将其参数重用于后续查询的性能损失。结果显示,性能损失很小,证明了任务适应参数能够在不同查询之间有效泛化,显著提高了计算效率。

表6: 消融实验结果

  • 内容:分析了不同损失项(L_q, L_s, L_p)和任务适应(TA)对性能的影响。结果显示,所有损失项和任务适应都对性能有重要贡献,且在不同数据集上的影响程度有所不同。去除任何一项都会导致性能下降,证明了所提出方法各个组件的有效性。

表7展示了在SUIM数据集上,对浅层(Low)、中层(Middle)和高层(High)特征图进行任务适应前后,类内(Intra-class,即相同类别之间)和类间(Inter-class,即不同类别之间)相似度的变化。这些相似度是通过计算特征图中像素对的余弦相似度平均值来衡量的。

表7的结果表明,通过任务适应,模型能够学习到更具判别力的特征表示,这对于提升跨域少样本分割的性能至关重要。在任务适应之前,由于域间差异的存在,原始特征空间的判别力较弱,难以直接用于目标任务的分割。而通过任务适应,模型能够针对当前任务调整特征表示,从而提高分割的准确性。

  • 图4展示了在SUIM数据集上,通过任务适应前后,特征嵌入空间中类内和类间相似性的变化。
  • 图中通过热力图表示了相似性的变化,颜色越深表示相似性越高。
  • 可以看出,在任务适应后,类内相似性显著提高,而类间相似性降低,这有助于改善分割性能。

关键点

  • 任务适应的效果:显著提高类内相似性,降低类间相似性。
  • 改善分割性能:通过优化特征嵌入空间。
  • 图5比较了不同架构方案在CD-FSS基准测试上的平均性能。
  • 包括线性分类器(Linear ResNet)、传导式微调(Transductive FT)、无任务适应(w/o TA)、超列任务适应(Hypercolumn TA)以及本文提出的方法(Proposed)和先前最佳方法(Prev. SOTA)。
  • 结果表明,本文提出的方法在性能上优于其他所有方案。

关键点

  • 架构比较:不同方案在CD-FSS基准测试上的性能对比。
  • 性能优势:本文提出的方法在平均性能上显著优于其他方案。
控制面板
您好,欢迎到访网站!
  查看权限
网站分类
最新留言