醋醋百科网

Good Luck To You!

CVPR'24开源 | 准确分割图像中的不同语义区域

来源:3D视觉工坊

添加小助理:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附行业细分群

0. 这篇文章干了啥?

语义线被定义为在图像中分离不同语义区域的有意义的线。除了这个单独的定义外,图像中的多条语义线被认为能够正确传达全局场景结构。检测这样的语义线是具有挑战性的,因为它们通常由复杂的区域边界所暗示。此外,它们应该通过和谐地将图像分成语义区域来最佳地代表图像组成。语义线是许多视觉应用中的重要元素。例如,地平线,作为特定类型的语义线,可以被利用来调整图像的水平度。反射对称轴,作为另一种类型的语义线,为对象识别和模式分析提供视觉线索。在图像中传达深度印象的消失点可以通过检测三维世界中主要的平行语义线来估算。在自动驾驶系统中,道路车道的边界也可以用语义线来描述。

最近,已经有几次尝试来检测语义线。这些技术按顺序执行线检测和细化。在检测阶段,它们提取深线特征来对每个线候选进行分类和回归。在细化阶段,通过删除冗余线来确定可靠的语义线。具体来说,为了细化线候选,非极大值抑制(NMS)在中执行,如图1(a)所示。Lee等人迭代地选择边界像素附近的可靠线,并移除与所选线重叠的线。Han等人通过采用霍夫线空间简化了NMS过程。Jin等人通过比较排名和匹配来处理每个候选。然而,这些技术并不考虑检测到的线之间的整体和谐。为了解决这个问题,Jin等人估算了每对检测到的线的关系得分,然后通过图优化确定和谐的语义线。但是,它们可能产生次优结果,因为只利用了线之间的成对关系,如图1(b)所示。

在本文中,我们提出了一种新算法,称为语义线组合检测器(SLCD),来找到最佳的一组语义线。它同时处理线组(或组合)中的所有线,而不是分析每一对线,以估算整体和谐度,如图1(c)所示。首先,我们从线候选中选择可靠线,然后生成多个线组合。其次,我们评分所有线组合,并确定具有最高得分的组合作为最佳的语义线组。为此,我们为语义特征分组和组合特征提取设计了两个新模块。我们还引入了一个新的损失函数来指导特征分组模块。实验结果表明,SLCD可以可靠地检测现有数据集和名为组合多样线(CDL)的新数据集上的语义线。此外,SLCD在各种应用中被证明可以有效地使用。

下面一起来阅读一下这项工作~

1. 论文信息

标题:Semantic Line Combination Detector

作者:Jinwon Ko, Dongkwon Jin, Chang-Su Kim

机构:高丽大学

原文链接:https://arxiv.org/abs/2404.18399

代码链接:https://github.com/jinwon-ko/slcd

2. 摘要

本文提出了一种称为语义线组合检测器(SLCD)的新算法,用于找到语义线的最佳组合。它一次性处理每个线组合中的所有线条,以评估线条的整体和谐度。首先,我们从可靠的线条中生成各种线条组合。其次,我们估算每个线条组合的分数并确定最佳组合。实验结果表明,所提出的SLCD在各种数据集上优于现有的语义线检测器。此外,还显示SLCD可以有效地应用于消失点检测、对称轴检测和基于构图的图像检索三个视觉任务。

3. 效果展示

在选择可靠线候选之后,存在两种现有方法来进行语义线检测。第一种方法(a)侧重于定位靠近区域边界的线并消除重叠的线。然而,由于这种方法没有考虑检测到的一组线对场景布局的代表性如何,因此仍然存在冗余线。第二种方法(b)只考虑两条线之间的成对相关性,因此可能无法评估超过两条语义线的整体和谐度。相比之下,在(c)中,所提出的SLCD生成了多个线组合,同时分析每个组合中的所有线,然后找到最具整体和谐性的组合,以最佳地传达全局场景组成。

检测到的语义行的比较。从左边开始,从SEL、SEL Hard、NKL和CDL数据集各选择两幅图像。

4. 主要贡献

o SLCD通过同时处理线组中的所有线来找到语义线的最佳组合。

o 我们构建了包含含含意线的多样化图像的CDL数据集。它将公开发布。

o SLCD在大多数数据集上优于传统检测器。此外,其有效性在三个应用中得到证明:消失点检测、对称轴检测和基于组合的图像检索。

5. 基本原理是啥?

SLCD用于检测语义线的最佳组合,其概述如图2所示。首先从线候选项中选择K条可靠的线,然后生成多个线组合。其次对所有线组合进行评分,并确定得分最高的组合作为最佳的语义线组。

当一条线的组合将图像分割不足或将其过度分割为不必要的部分时,它不能正确描述场景的整体结构。相反,语义线的最佳组合应可靠且高效地传达图像的构图(即使用少量线条)。为了找到最佳的线条组合,我们开发了语义线组合检测器(SLCD)。图3显示了SLCD的结构,其中包括编码、语义特征分组、组合特征提取和分数回归。

6. 实验结果

表1比较了所提出的SLCD与现有检测器在SEL、SEL Hard、NKL和CDL数据集上的HIoU分数。现有检测器错过了正确的线条或未能去除多余的线条,产生了次优的结果。相比之下,SLCD比现有检测器更精确地检测语义线条,并更可靠地表示构图。

在SEL上的比较:在表1中,SLCD在SEL上表现优异。与次优的HSLD相比,SLCD的HIoU边际宽度为3.06。这表明SLCD通过同时处理每个组合中的所有线条,而不是在HSLD中进行成对比较,更有效地找到了最佳的语义线组合。

在SEL Hard上的比较:使用在SEL数据集上训练的网络在SEL Hard上进行实验。在表1中,SLCD在SEL Hard上排名第二。DRM提供的结果比SLCD更好,但它要求更高的复杂性,将在第4.5节中讨论。

在NKL上的比较:SLCD超过了所有现有的检测器。例如,它的HIoU分数比次优的HSLD高1.92点。

在CDL上的比较:表1还列出了所提出的CDL数据集上的HIoU分数。SLNet、DHT和DRM的结果较差,因为它们没有考虑到检测到的线条的整体和谐性。HSLD优于这些检测器,但不及所提出的SLCD。

LSRS的效果:在表3中,如果将提出的SRS损失LSRS(8)从训练中排除,则性能下降了2.14点。这意味着基于SRS损失的构图分析对于找到最佳线条组合至关重要。

组合特征提取的有效性:SLCD为每个线条组合提取组合特征图Z,通过处理线条特征图Xl、区域特征图Xr和位置特征图P(6)。在表4中,方法I仅使用线条特征图,而II仅使用区域特征图。方法III利用了两个特征图。方法IV是所提出的SLCD,使用了所有三个映射。

方法I产生了最差的结果,因为它只使用了线条像素附近的上下文信息。方法II比方法I略好一些,利用了区域信息。使用线条和区域特征图,III提供了更好的结果。此外,IV通过利用位置特征图显著改善了性能。这是因为通过将位置特征图中的线条结构与场景上下文结合起来,更有效地估计了整体和谐性。

运行时间:表5比较了SLCD和现有检测器的运行时间,以每帧秒(spf)为单位,使用一台配备AMD Ryzen 9 3900X CPU和NVIDIA RTX 2080 GPU的个人电脑。所提出的SLCD需要0.114spf,分别为0.030spf和0.074spf用于生成和评估线条组合。DHT是最快的检测器,但在所有数据集上都不及SLCD。另一方面,即使DRM在SEL Hard上表现更好,但它比SLCD慢约8.4倍。

7. 总结 & 未来工作

这篇文章提出了一种新颖的语义线检测器,SLCD,它一次处理多条线来可靠地估计整体和谐度。首先从可靠的线中生成所有可能的线组合,然后估计每个线组合的分数,并确定最佳组合。实验结果表明, SLCD能够可靠地检测现有数据集和新数据集CDL上的语义线。此外,SLCD可以成功地用于消失点检测、对称轴检测和图像检索。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉大模型工业3D视觉SLAM自动驾驶三维重建无人机等方向,细分群包括:

2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型:NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机:四旋翼建模、无人机飞控等

除了这些,还有求职硬件选型视觉产品落地最新论文3D视觉最新产品3D视觉行业新闻等交流群

添加小助理: dddvision,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

3D视觉工坊知识星球

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪,无人机等


控制面板
您好,欢迎到访网站!
  查看权限
网站分类
最新留言