原文链接:https://arxiv.org/abs/2310.11239
占用体素网格相关的感知任务主要有语义场景补全(SSC)和占用预测。SSC能预测可见区域和不可见区域的语义,而占用预测则预测场景的时间变化。两个任务均基于部分观测,幻想(空间上或时间上的)未知环境。
目前的方法分开考虑两个任务,但两个任务是相互关联的。本文提出占用补全与预测(OCF)任务,模型输入一组连续的激光雷达扫描,并产生以体素表达的、补全的占用网格序列。该任务的挑战包括:
关于模型的监督,本文使用时间积累且运动补偿的激光雷达点云,体素化得到真值。
给定点云输入,目标是以占用网格的表达方式在一定的时空范围内补全并预测场景。输入的连续点云表达为体素网格 P = { P t } t = ? T 0 \mathcal{P}=\{P_t\}_{t=-T}^0 P={Pt?}t=?T0?,期望的输出为补全的体素网格序列 Y = { Y t } t = 0 T \mathcal{Y}=\{Y_t\}_{t=0}^T Y={Yt?}t=0T?。所有输入和输出位于同一坐标系下,且体素分辨率和表达范围相同,即 P t , Y t ∈ { 0 , 1 } H × W × L P_t,Y_t\in\{0,1\}^{H\times W\times L} Pt?,Yt?∈{0,1}H×W×L,其中0或1表示体素为空或被占用。
包括PCF、ConvLSTM、Conv3D。
BCE损失:将训练视为体素的二元分类。使用二元交叉熵损失,求取各帧损失的均值。
软性IoU损失:可以更好地评估模型预测的置信度,且其“软性”使得该指标可微。
L
(
y
,
y
~
)
=
?
1
∣
C
∣
∑
C
∑
V
y
?
y
~
∑
V
y
+
y
~
?
y
?
y
~
\mathcal{L}(y,\tilde y)=-\frac{1}{|C|}\sum_C\frac{\sum_Vy\cdot\tilde y}{\sum_Vy+\tilde y-y\cdot\tilde y}
L(y,y~?)=?∣C∣1?C∑?∑V?y+y~??y?y~?∑V?y?y~??
其中 C C C为mini-batch大小, V V V为一个样本中的体素集合, y ∈ { 0 , 1 } y\in\{0,1\} y∈{0,1}为占用真值, y ~ \tilde y y~?为预测的占用概率。3D卷积模型的训练使用上述两个损失之和。
概述:阻碍占用预测发展的因素主要是真实占用的获取难度,即激光雷达无法获取所有物体和结构的密集占用、也不能获取遮挡区域的占用。
“时空管道”:直接将多帧点云积累,会在动态物体处产生“时空管道”的问题。本文使用实例标签将动态物体多帧同步。
未知体素:当多帧点云均未扫描到某处时,对应的占用情况是未知的。使用射线投射算法,检查所有不能被扫描的体素,在监督与评估时忽略之。
自车运动:由于不希望模型学习自车运动情况,将所有输入和真值均转化到 t = 0 t=0 t=0的坐标系下。
不同模型结构:Conv3D的性能最优;而PCF因为把时间和高度维度放到一起输入2D卷积处理,性能较差。ConvLSTM性能同样较低。
相同输入下的不同输出间隔:使用相同输入预测不同输出长度时,所有方法的性能均有下降,但降低不明显。这是因为静态体素占大部分,导致难以预测的动态物体对性能的影响较少。
多种输入间隔下的相同输出:提供更多输入帧时,性能均有上升。因为更多时间信息能使模型更准确地抓捕动态特征;此外也能减少单帧噪声的影响,而关注多帧一致性。
时间退化:对各帧分别进行评估,可知所有方法均随 t t t的增大而降低性能。此外,改变模型结构相比添加输入帧数,对性能的影响更显著。
跨域一致性:由于不同数据集上的规律基本相同,这表明OCF任务对传感器设置等因素不敏感。
在一个数据集上训练,其余数据集上测试,相比在同一数据集上训练的情况,性能有所下降。
Conv3D模型的性能是以模型的计算复杂度为代价的。ConvLSTM的模型参数与输入输出的序列长度无关。