【论文笔记】LiDAR-based 4D Occupancy Completion and Forecasting

发布时间：2024年01月06日

原文链接：https://arxiv.org/abs/2310.11239

I. 引言

占用体素网格相关的感知任务主要有语义场景补全（SSC）和占用预测。SSC能预测可见区域和不可见区域的语义，而占用预测则预测场景的时间变化。两个任务均基于部分观测，幻想（空间上或时间上的）未知环境。

在这里插入图片描述
目前的方法分开考虑两个任务，但两个任务是相互关联的。本文提出占用补全与预测（OCF）任务，模型输入一组连续的激光雷达扫描，并产生以体素表达的、补全的占用网格序列。该任务的挑战包括：

稀疏到密集的重建：激光雷达产生的点云是稀疏的，场景补全需要算法能插值数据间隙并重建场景表面。
部分到完整的幻想：需要算法推理可视和不可视的空间，并保证空间的一致性。
3D到4D的预测：需要算法能建模环境的时间动态，其中包括物体的运动。

关于模型的监督，本文使用时间积累且运动补偿的激光雷达点云，体素化得到真值。

III. 方法

A. 问题描述

给定点云输入，目标是以占用网格的表达方式在一定的时空范围内补全并预测场景。输入的连续点云表达为体素网格 $\mathcal{P}=\{P_t\}_{t=-T}^0$ ，期望的输出为补全的体素网格序列 $\mathcal{Y}=\{Y_t\}_{t=0}^T$ 。所有输入和输出位于同一坐标系下，且体素分辨率和表达范围相同，即 $P_t,Y_t\in\{0,1\}^{H\times W\times L}$ ，其中0或1表示体素为空或被占用。

B. 基准方案

包括PCF、ConvLSTM、Conv3D。

C. 损失函数

BCE损失：将训练视为体素的二元分类。使用二元交叉熵损失，求取各帧损失的均值。

软性IoU损失：可以更好地评估模型预测的置信度，且其“软性”使得该指标可微。
$\mathcal{L}(y,\tilde y)=-\frac{1}{|C|}\sum_C\frac{\sum_Vy\cdot\tilde y}{\sum_Vy+\tilde y-y\cdot\tilde y}$

其中 $C$ 为mini-batch大小， $V$ 为一个样本中的体素集合， $y\in\{0,1\}$ 为占用真值， $\tilde y$ 为预测的占用概率。3D卷积模型的训练使用上述两个损失之和。

IV. 数据综合处理

A. 处理的挑战和技术

概述：阻碍占用预测发展的因素主要是真实占用的获取难度，即激光雷达无法获取所有物体和结构的密集占用、也不能获取遮挡区域的占用。

“时空管道”：直接将多帧点云积累，会在动态物体处产生“时空管道”的问题。本文使用实例标签将动态物体多帧同步。

未知体素：当多帧点云均未扫描到某处时，对应的占用情况是未知的。使用射线投射算法，检查所有不能被扫描的体素，在监督与评估时忽略之。

自车运动：由于不希望模型学习自车运动情况，将所有输入和真值均转化到 $t = 0$ 的坐标系下。

V. 实验

B. 所有数据集上的共同结果

不同模型结构：Conv3D的性能最优；而PCF因为把时间和高度维度放到一起输入2D卷积处理，性能较差。ConvLSTM性能同样较低。

相同输入下的不同输出间隔：使用相同输入预测不同输出长度时，所有方法的性能均有下降，但降低不明显。这是因为静态体素占大部分，导致难以预测的动态物体对性能的影响较少。

多种输入间隔下的相同输出：提供更多输入帧时，性能均有上升。因为更多时间信息能使模型更准确地抓捕动态特征；此外也能减少单帧噪声的影响，而关注多帧一致性。

时间退化：对各帧分别进行评估，可知所有方法均随 $t$ 的增大而降低性能。此外，改变模型结构相比添加输入帧数，对性能的影响更显著。

跨域一致性：由于不同数据集上的规律基本相同，这表明OCF任务对传感器设置等因素不敏感。

C. 跨域适应的结果

在一个数据集上训练，其余数据集上测试，相比在同一数据集上训练的情况，性能有所下降。

D. 模型规格

Conv3D模型的性能是以模型的计算复杂度为代价的。ConvLSTM的模型参数与输入输出的序列长度无关。

文章来源:https://blog.csdn.net/weixin_45657478/article/details/135292744
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！