醋醋百科网

Good Luck To You!

TU Ilmenau提出新型Complex-YOLO,可实现点云上的实时3D目标检测

图源:unsplash

原文来源:arXiv

作者:Martin Simon、 Stefan Milz、Karl Amende、Horst-Michael Gross

「雷克世界」编译:KABUDA、EVA

基于激光雷达的三维目标检测对于自动驾驶而言是不可避免的选择,因为它与对环境的理解直接相关,从而为预测和运动规划奠定了基础。对于除了自动化车辆之外的许多其他应用领域,例如增强现实、个人机器人或工业自动化,对实时高度稀疏的三维数据进行推断的能力是一个不合适的问题。我们引入了Complex-YOLO,这是一种最先进的仅针对点云(point clouds)的实时三维目标检测网络。在本研究中,我们描述了一个网络,该网络通过一个特定的复杂的回归策略来估计笛卡尔空间(Cartesian space)中的多类三维立方体,从而扩展YOLOv2(一种用于RGB图像的一个快速二维标准目标检测器)。因此,我们提出了一个特定的Euler区域提议网络(Euler-Region-Proposal Network,E-RPN),通过在回归网络中添加一个虚构的和一个真实的分数来估计目标的姿势。这是在一个封闭的复杂空间中结束的,从而避免了单角度估计的奇异性。E-RPN支持在训练过程中进行良好的泛化。我们在KITTI基准套件上进行的实验表明,我们的性能优于当前领先的三维目标检测方法,尤其在效率方面。我们取得了对汽车、行人和骑车者进行测试的最先进的结果,比最快的竞争者快5倍以上。此外,我们的模型能够同时以高精确度估计所有的8个KITTI类,包括货车、卡车或坐着的行人。

Fast YOLO:用于实时嵌入式目标检测(附论文下载)

YoloDotNet v2.1:实时物体检测的利器

YOLO-World-V2.1:实现最新的实时开放词汇目标检测技术

YOLO-World 是下一代 YOLO 检测器,具有强大的开放词汇检测能力和定位能力。

2、YOLOv12架构解析:速度与精度的艺术

前言:拆解YOLO的"超级大脑"

还记得我们上篇文章用5行代码实现的物品检测吗?今天我要带你走进YOLOv12的"大脑",看看这个闪电侠是如何思考的!

用一张贴纸就能在AI前隐身 安全监控摄像还安全么?

本文转自新智元 编辑:肖琴、大明

一张贴纸让你在AI面前”隐身“。

来自比利时鲁汶大学 (KU Leuven) 几位研究人员最近的研究发现,借助一张简单打印出来的图案,就可以完美避开 AI 视频监控系统。

研究人员表示,他们设计的图像可以将整个人隐藏起来,不会让计算机视觉系统发现。这项研究在YOLO (v2) 的开源对象识别系统上进行了演示。

如上图所示,AI 系统成功检测到左边的人,而右边的人被忽略了。右边的人身上挂着一块彩色纸板,在论文中被称为 “对抗性补丁”(adversarial patch),正是这块补丁 “欺骗” 了 AI 系统,让系统无法发现画面中还有一个人。

用通俗的话理解AI专业术语——什么是多头注意力机制

自从Deepseek横空出世以来,人们会情不自禁地拿Deepseek和ChatGPT作比较。看两者到底有何不同。

那么在模型架构和工资机制比较上,有一个术语,非常不容易理解,就是ChatGPT的Transformer模型架构中的

自注意力机制是特征数据相关性计算,主要用到矩阵乘法

有人质疑、嘲讽和挖苦我先前一篇短文说的神经网络大量计算就是矩阵乘法、大模型就是统计模型,但又不提供具体的反例证据,那我就借用别人总结的大模型核心算法-自注意力机制图(类似的图网上有很多)简单解释回应一下:


图中的方块都表示为矩阵,Q、K、V都是X矩阵和相应的权重矩阵相乘而来,再经过Q、K矩阵相乘,归一化处理得到P矩阵,最后P、V矩阵相乘,得到注意力得分矩阵。是否多数时间在进行矩阵乘法运算?

注意力机制作用被高估了?来自苹果等机构新研究

萧箫 发自 凹非寺
量子位 | 公众号 QbitAI

要说Transformer的核心亮点,当然是注意力机制

通过7个版本的attention的变形,搞懂transformer多头注意力机制

——1——

<< < 36 37 38 39 40 41 42 43 44 45 > >>
控制面板
您好,欢迎到访网站!
  查看权限
网站分类
最新留言