本文共 2613 字,大约阅读时间需要 8 分钟。
近日,国际计算机视觉大会 ICCV(International Conference on Computer Vision)公布了 2023 年论文录用结果。本届会议共有 8068 篇投稿,接收率为26.8%。ICCV 是全球计算机领域顶级的学术会议,每两年召开一次,ICCV 2023 将于今年10月在法国巴黎举行。旷视研究院 14 篇论文入选,涵盖纯视觉 3D 目标检测、多模态 3D 检测、图像匹配、光流估计、3D 点云配准等领域。以下为入选论文概览:
PETRv2:一个统一的纯视觉3D感知框架。基于 PETR,PETRv2 首先扩展了 PETR 中的 3D 位置编码进行时序建模,实现了不同帧之间物体位置的时序对齐。为了适用于多任务学习(如 BEV 分割和 3D 车道检测),PETRv2 针对不同任务设计了特定的查询向量,并使用统一的 Transformer 解码器进行解码。在 3D 物体检测、BEV 分割和 3D 车道检测方面,PETRv2 都取得了最先进的性能,并对噪声表现出了很强的鲁棒性。我们还对 PETR 框架进行了详细的稳健性分析。我们希望 PETRv2 能作为 3D 感知的一个稳健基础线。
StreamPETR 是一个面向纯视觉 3D 检测的以目标为中心的时序建模框架。该算法针对视频流进行设计,用可选择的有限帧进行训练,在测试时可以适应更长的时间帧乃至无限帧。StreamPETR 将使用目标查询组成的 memory queue 作为高效的时序表征,利用注意力机制进行高效时序建模。在 nuScenes 榜单上,StreamPETR 是第一个与激光雷达性能相当的在线纯视觉 3D 目标检测算法。
Cross Modal Transformer(CMT)是一个快速且鲁棒的 3D 检测器。我们的模型保留了 DETR 的设计,不同模态的特征仅在 token level 进行融合,融合方式就是最简单的 concat 。我们在 nuScenes 测试集上单模型架构取得了 SOTA 的检测结果 74.1% NDS,且推理速度超过所有现有方案。另外,我们的模型具有非常强的鲁棒性,用于对抗传感器损毁以及抖动问题,即使整个 LiDAR 在运行时损毁,我们的模型依旧能保持纯视觉模型的推理精度。
OnlineRefer 是一个简单的在线参考视频目标分割框架。该方法基于 Deformable DETR,使用上一帧的预测框作为当前帧的参考点(query propogation),逐帧分割目标。我们的工作对单帧检测器进行简单的 query propogation,就在 Refer-Youtube-VOS 和 Refer-DAVIS17 上实现了 SOTA 表现。
CREStereo++ 是一个基于不确定度引导的自适应图像扭曲模块,设计了新的立体匹配框架。该算法在 Robust Vision Challenge 2022 比赛中取得冠军,其轻量级版本在 KITTI 数据集上与同计算量级的其他算法相比也有更出色的表现。
Net 是一种名为带有遮挡的匹配网络:基于3D占据估计的鲁棒的图片匹配网络。图像匹配方法大部分忽略了由于相机运动和场景结构造成的物体之间的遮挡关系。Net 能大幅简化启动多视图一致的3D表征的过程。
DOT 是一个面向蒸馏的优化器。知识蒸馏将大模型中的知识传递给小模型,其损失函数往往包含具体任务损失和蒸馏损失。我们针对蒸馏损失优化不足的问题,提出了一种面向蒸馏的优化器 DOT。DOT 分别考虑任务和蒸馏损失的梯度,然后对蒸馏损失应用较大的动量以加速其优化。
用于 ViT 的渐变空间知识蒸馏(CSKD)将 CNN 的空间知识蒸馏到 ViT 的对应token,无需引入中间特征。CSKD 利用渐变知识融合(CKF)模块,引入了 CNN 的全局响应,并在训练过程中逐渐强调其重要性。
基于真实数据集生成的有监督单应性矩阵学习框架包括生成阶段和训练阶段。生成阶段,给定一组 unlabeled 的图像对,利用预先估计的主平面 mask 和图像对之间的单应性矩阵生成具有真实运动的有 GT 图像对。在训练阶段,生成的数据通过所提出的两个模块 CCM 和 QAM 进行完善并用于训练网络。
MEFLUT 是一种用于多曝光图像融合的新方法。我们发现曝光图像的融合权重可以编码为一个 1D lookup table (1D LUT),该表以像素强度值作为输入,并输出相应的融合权重。我们为每个曝光图像学习一个独立的1D LUT,然后不同曝光下的所有像素都可以独立地查询对应的1D LUT,以实现高质量、高效率的融合。
基于计算机图形渲染技术提出了一个具有准确的事件数据和光流标签的高质量数据集,被称为 MDR。另外,本文提出了一个即插即用的自适应调节模块 ADM,用于将输入的事件数据调整到最佳的稠密度区间,配合光流估计网络得到更准确的估计结果。
GAFlow 是一种新的光流估计方法,将高斯注意力引入光流模型(GAFlow),以在表征学习过程中强调局部特性,并在匹配过程中强化运动关联性。具体来说,本文提出高斯约束层(GCL)和高斯引导注意力模块(GGAM),这些基于高斯的模块可以自然地融入到现有光流框架中。
基于显式运动解耦的高效光流估计框架 EMD-Flow,将全局运动学习与局部光流估计分离开,这样就能用更少的运算资源处理全局匹配和局部细化。网络包含两个新模块:多尺度运动聚合(MMA)和置信度引导光流传播(CFP),这两个模块充分利用跨尺度匹配信息和自包含的置信度图,以全局方式处理密集匹配的不确定性,生成较密集的初始光流。
SIRA-PCR 是一个基于合成到真实域适应的 3D 点云配准框架。我们基于仿真室内场景数据集 3D-FRONT 构建了第一个用于 3D 点云配准的大规模室内场景合成数据集,名为 FlyingShapes。同时,我们还提出了一种生成式的从合成数据到真实数据的域适应 pipeline,名为 SIRA。其中,一种自适应的重采样模块被用于消除合成与真实点云数据之间的低层次分布差异。通过这种方法,我们训练得到的模型在室内场景数据集 3DMatch 和室外场景数据集 ETH 上取得了 SOTA 的配准结果,分别达到了 94.1% 和 99.0% 的配准召回率。
转载地址:http://vxrfk.baihongyu.com/