原文链接:https://arxiv.org/abs/2312.12961
本文针对合成孔径雷达(SAR)的3D重建,提出雷达场,基于多个SAR对场景的测量学习体积模型。
NeRF将静态场景表达为连续的体积函数 F \mathcal{F} F,该函数可由MLP、体素分解或张量插值编码,预测给定点 x x x和视线方向 d d d下的RGB色彩 c c c和密度 σ \sigma σ。多视图一致性使得网络仅依赖 x x x预测 σ \sigma σ,而依靠 x x x和 d d d预测 c c c。
NeRF的渲染与优化见神经辐射场的简单介绍。
表面模型:将辐射场扩展到表面模型,即将场景表达为表面
S
\mathcal{S}
S:
S
=
{
x
∈
R
3
∣
F
(
x
)
=
0
}
\mathcal{S}=\{x\in\mathbb{R}^3|\mathcal{F}(x)=0\}
S={x∈R3∣F(x)=0}
记
d
d
d为
x
x
x到
S
\mathcal{S}
S的最小距离,
F
\mathcal{F}
F被定义为有符号距离函数(SDF):
F
(
x
)
=
{
d
(
x
,
S
)
若
x
位于
S
外部
?
d
(
x
,
S
)
若
x
位于
S
内部
\mathcal{F}(x)=\left\{\begin{matrix}d(x,\mathcal{S})&若x位于\mathcal{S}外部\\-d(x,\mathcal{S})&若x位于\mathcal{S}内部\end{matrix}\right.
F(x)={d(x,S)?d(x,S)?若x位于S外部若x位于S内部?
可以使用额外的损失项保证SDF的Eikonal属性:
L
E
i
k
o
n
a
l
=
∑
x
∈
Ω
(
∥
?
F
(
x
)
∥
2
2
?
1
)
2
\mathcal{L}_{Eikonal}=\sum_{x\in\Omega}(\|\nabla\mathcal{F}(x)\|^2_2-1)^2
LEikonal?=x∈Ω∑?(∥?F(x)∥22??1)2
其中 Ω \Omega Ω包含表面附近的采样点和整个空间均匀采样的点。
表面模型的优化可以通过拉普拉斯函数的累积分布,转化为体积模型来实现:
Ψ
(
d
)
=
{
1
2
exp
?
(
?
d
β
)
d
≥
0
1
?
1
2
exp
?
(
d
β
)
d
<
0
\Psi(d)=\left\{\begin{matrix}\frac{1}{2}\exp(-\frac{d}{\beta})&d\geq 0\\1-\frac{1}{2}\exp(\frac{d}{\beta})&d<0\end{matrix}\right.
Ψ(d)={21?exp(?βd?)1?21?exp(βd?)?d≥0d<0?
其中 α \alpha α与 β \beta β为可学习的参数。渲染时,使用 σ i = Ψ ( F ( x i ) ) \sigma_i=\Psi(\mathcal{F}(x_i)) σi?=Ψ(F(xi?))得到伪密度。
使用上述方法可以探索更多信息,例如表面法线 n ( x ) = ? F ( x ) n(x)=\nabla\mathcal{F}(x) n(x)=?F(x)。
SAR成像模型的介绍:部署在运动空载或机载平台上的天线会发射侧视几何形状的电磁脉冲,并接收地面反射。卫星飞行方向被称为方位角,射线方向被称为距离。对于每个方位角下发射的脉冲,卫星会收集反射并进行解调和采样,按照距离排序后存储为复数,将幅值(与地面反射率和角度相关)和相位(包含卫星到目标的路径延迟/调制波长的信息)分开。生成的图像被称为原始格式,且因为电磁波束的足迹大、脉冲长,分辨率很低。使用聚焦过程可以大幅提高分辨率,生成与短脉冲和窄波束等价的复值图像。SAR图像保留了距离信息,但在多个反射器有相同距离和方位角的时候,响应是二者相加的结果(有负面影响)。距离图像可以视为垂直入射角方向的投影视图,被雷达脉冲照亮,其中的物体看起来像透明的。SAR的获取过程如下所示。
雷达场的定义:给定射线集合
{
r
j
}
\{r_j\}
{rj?},其在给定方位角平面内的原点和方向为
{
(
o
j
,
v
j
)
}
\{(o_j,v_j)\}
{(oj?,vj?)},
{
d
i
}
i
∈
{
1
,
2
,
?
?
,
N
}
\{d_i\}_{i\in\{1,2,\cdots,N\}}
{di?}i∈{1,2,?,N}?为这些射线的采样距离。设
s
r
j
(
d
i
)
s_{r_j}(d_i)
srj??(di?)为
r
i
r_i
ri?在距离
d
i
d_i
di?处的感知信号,类似NeRF的公式,可得
s
r
j
(
d
i
)
=
?
T
i
,
j
α
i
,
j
?
v
j
∣
n
i
,
j
?
θ
s_{r_j}(d_i)=-T_{i,j}\alpha_{i,j}\langle v_j|n_{i,j}\rangle^\theta
srj??(di?)=?Ti,j?αi,j??vj?∣ni,j??θ
给定
j
j
j时,
T
i
,
j
T_{i,j}
Ti,j?与
α
i
,
j
\alpha_{i,j}
αi,j?的计算与NeRF相同,
n
i
,
j
=
?
F
(
o
j
+
d
i
v
j
)
n_{i,j}=\nabla\mathcal{F}(o_j+d_iv_j)
ni,j?=?F(oj?+di?vj?),系数
θ
\theta
θ用于建模反射的镜面性。传统的SAR仿真中,反射信号
s
s
s由下式给出:
s
=
?
?
v
∣
n
?
θ
s=-\langle v|n\rangle^\theta
s=??v∣n?θ
其中 v v v是入射角, n n n为表面法线。对朗伯模型,通常假设 θ = 1 \theta=1 θ=1;对于镜面反射,需要设置更大的 θ \theta θ,也可以通过学习得到。
注意,如上图所示,聚合是跨射线而非沿射线的:因为对给定的方位角,SAR将来自同一距离的反射器投影到同一像素中。则聚合公式为:
s
(
d
i
)
=
∑
r
j
s
r
j
(
d
i
)
=
∑
r
j
?
T
i
,
j
α
i
,
j
?
v
j
∣
n
i
,
j
?
θ
s(d_i)=\sum_{r_j}s_{r_j}(d_i)=\sum_{r_j}-T_{i,j}\alpha_{i,j}\langle v_j|n_{i,j}\rangle^\theta
s(di?)=rj?∑?srj??(di?)=rj?∑??Ti,j?αi,j??vj?∣ni,j??θ
最后,在所有方位角平面计算结果,得到完整的SAR图像。
辐射场与雷达场的区别:如下表所示。对于辐射场的计算,沿射线采样聚合得到一个像素,而雷达场为跨射线采样得到一行(同一水平角)像素。
在辐射场中,采样距离时可以添加扰动,但雷达场的距离是固定的。但雷达场的信号不需要明确的原点,也就是说原点可以在方位角平面内变动,只要不改变距离。记
w
j
w_j
wj?为方位角平面内与
v
j
v_j
vj?正交的向量,则扰动原点可按下式给出:
o
~
j
=
o
j
+
n
w
j
,
n
~
N
(
0
,
1
)
\tilde{o}_j=o_j+nw_j,n\sim\mathcal{N}(0,1)
o~j?=oj?+nwj?,n~N(0,1)
此外,SAR图像含有大量噪声,服从复杂的Wishart分布。
L
L
L视配置下,噪声样本协方差
C
C
C的
d
d
d维分布
p
p
p为:
p
(
C
)
=
L
L
d
∣
C
∣
L
?
d
Γ
d
(
L
)
∣
Σ
∣
L
exp
?
(
?
L
?Tr
(
Σ
?
1
C
)
)
p(C)=\frac{L^{Ld}|C|^{L-d}}{\Gamma_d(L)|\Sigma|^L}\exp(-L\ \text{Tr}(\Sigma^{-1}C))
p(C)=Γd?(L)∣Σ∣LLLd∣C∣L?d?exp(?L?Tr(Σ?1C))
其中
Σ
\Sigma
Σ为无噪声方差,
Γ
d
(
L
)
=
π
d
(
d
?
1
)
/
2
∏
k
=
1
d
Γ
(
L
?
K
+
1
)
\Gamma_d(L)=\pi^{d(d-1)/2}\prod_{k=1}^d\Gamma(L-K+1)
Γd?(L)=πd(d?1)/2∏k=1d?Γ(L?K+1)。当处理单通道单视强度图像时,样本协方差退化为单位阵
I
I
I,且此模型简化为反射率的乘性散斑噪声:
I
=
n
×
R
,
n
~
Γ
(
1
,
1
)
I=n\times R,n\sim\Gamma(1,1)
I=n×R,n~Γ(1,1)
尽管有噪声,仍然可以学习表面。将无噪声生成视图与有噪声样本比较是足够的。
表面模型实施:遥感中的地表通常使用数字表面模型(DSM)表达,即各点海拔的2D地图。本文使用类似的表达,记
d
s
m
:
[
0
,
1
]
2
→
[
0
,
1
]
dsm:[0,1]^2\rightarrow[0,1]
dsm:[0,1]2→[0,1],定义
F
(
x
,
y
,
z
)
=
z
?
d
s
m
(
x
,
y
)
\mathcal{F}(x,y,z)=z-dsm(x,y)
F(x,y,z)=z?dsm(x,y)
注意该函数不完全是SDF(高度不一定是到表面的距离),但其隐式地表达了表面。对于更细粒度的情况,使用双线性插值和法线计算。DSM的像素值被直接优化。对Eikonal损失,可以替换为简单的表面正则化项:
∑
(
x
,
y
,
z
)
∑
(
x
′
,
y
′
,
z
′
)
∈
N
(
x
,
y
,
z
)
∥
d
s
m
(
x
,
y
,
z
)
?
d
s
m
(
x
′
,
y
′
,
z
′
)
∥
2
2
\sum_{(x,y,z)}\sum_{(x',y',z')\in\mathcal{N}(x,y,z)}\|dsm(x,y,z)-dsm(x',y',z')\|^2_2
(x,y,z)∑?(x′,y′,z′)∈N(x,y,z)∑?∥dsm(x,y,z)?dsm(x′,y′,z′)∥22?
其中 N \mathcal{N} N表示邻域。
合成数据生成:使用第4节的成像模型生成合成SAR图像,并添加噪声: s ~ ( d ) = n × s ( d ) , n ~ Γ ( 1 , 1 ) \tilde{s}(d)=n\times s(d),n\sim\Gamma(1,1) s~(d)=n×s(d),n~Γ(1,1),其中 s ( d ) s(d) s(d)由4.2节最后一式得到。生成的数据/真实SAR数据以及几何参数会输入模型用于优化。
结果:可视化表明,可以从少量SAR图像利用提出的雷达场学习到地表。对于非朗伯表面,同时优化镜面图和几何,也能在输入数据富含噪声的情况下精确学习表面。
多次反射:由于表面设置,传感器的接收信号可能不是来自直接反射,而来自第二次或更多次的反射。当反射仍在同一方位角平面内时,相当于在第一次反射后延长射线,取飞行时间的一半,因此实际的测量位置有所偏差,如下图所示(B点的第二次反射对应的虚拟反射点为C点)。
更一般地,当反射不在同一方位角平面内时,情况更加复杂。可能需要将多个方位角平面一起渲染。
相位和偏振信息:若进一步引入相位和偏振信息,可能对提高精度有所帮助。