APINN 的模型可参数化如下:
考虑一个共享网络
h
:
R
d
→
R
H
h : \mathbb R^d → \mathbb R^H
h:Rd→RH(蓝色),其中
d
d
d 是输入维度,
H
H
H 是隐藏维度,
m
m
m 表示子网络
(
E
i
(
x
)
)
i
=
1
m
(E_i(x))^m_{i=1}
(Ei?(x))i=1m?(红色),其中每个
E
i
:
R
H
→
R
E_i : \mathbb R^H → \mathbb R
Ei?:RH→R,以及门控网络
G
:
R
d
→
Δ
m
G : \mathbb R^d → \Delta m
G:Rd→Δm(绿色),其中
Δ
m
\Delta m
Δm 是
m
m
m 维单纯形,用于权重平均
m
m
m 个子网的输出。由
θ
\theta
θ 参数化的增强 PINN (APINN)
u
θ
u_\theta
uθ? 的输出为:
u
θ
(
x
)
=
∑
i
=
1
m
(
G
(
x
)
)
i
E
i
(
h
(
x
)
)
u_\theta(\boldsymbol{x})=\sum_{i=1}^m(G(\boldsymbol{x}))_iE_i(h(\boldsymbol{x}))
uθ?(x)=i=1∑m?(G(x))i?Ei?(h(x))
其中
(
G
(
x
)
)
i
(G(x))_i
(G(x))i? 是
G
(
x
)
G(x)
G(x) 的第
i
i
i 个条目,
θ
\theta
θ 是
h
、
G
h、G
h、G 和
E
i
E_i
Ei? 中所有参数的集合。
h
h
h 和
E
i
E_i
Ei? 在 APINN 中都是可训练的,而
G
G
G 可以是可训练的或固定的。如果
G
G
G 是可训练的,将模型命名为 APINN,否则将其称为 APINN-F。
在 APINN 中, G G G 被预先训练以模仿 XPINN 的硬离散分解。如果 G 是可训练的,那么模型可以微调预训练的域分解,以通过优化进一步发现更好的分解。如果不是,那么 APINN 正是 XPINN 硬分解相应的软版本。由于自适应域分解和参数效率,APINN 优于 PINN。
如上图左侧所示,XPINN 将整个域 ( x , t ) ∈ Ω = [ ? 1 , 1 ] × [ ? 1 , 1 ] (x, t) \in \Omega = [?1, 1] \times [?1, 1] (x,t)∈Ω=[?1,1]×[?1,1] 分解为两个子域:上面的 Ω 1 = [ ? 1 , 1 ] × [ 0 , 1 ] \Omega_1 = [?1, 1] \times [0, 1] Ω1?=[?1,1]×[0,1],下一个 Ω 2 = [ ? 1 , 1 ] × [ ? 1 , 0 ) \Omega_2 = [?1, 1] \times [?1, 0) Ω2?=[?1,1]×[?1,0),它是基于接口 t = 0 t = 0 t=0。 APINN 中的软域分解如上图中、右所示,这是对应于上子域和下子域的两个子网的预训练门网络。这里, ( G ( x , t ) ) 1 (G(x, t))_1 (G(x,t))1? 在 exp ? ( t ? 1 ) \exp (t ? 1) exp(t?1) 上预训练, ( G ( x , t ) ) 2 (G(x, t))_2 (G(x,t))2? 在 1 ? exp ? ( t ? 1 ) 1 ? \exp(t ? 1) 1?exp(t?1) 上预训练。直观上,第一个子PINN关注 t t t 较大的地方,对应于上部,而第二个子PINN关注 t t t 较小的地方,对应于底部。
另一个例子是将域分解为内部部分和外部部分,如上图所示。具体来说,将整个域分解为 ( x , t ) ∈ Ω = [ 0 , 1 ] × [ 0 , 1 ] (x, t) \in \Omega = [0, 1] \times [0, 1] (x,t)∈Ω=[0,1]×[0,1],分为两个子域:内部子域 Ω 1 = [ 0.25 , 0.75 ] × [ 0.25 , 0.75 ] \Omega_1 = [0.25, 0.75] \times [0.25, 0.75] Ω1?=[0.25,0.75]×[0.25,0.75],外部子域 Ω 2 = Ω \ Ω 1 \Omega_2 = \Omega \backslash \Omega_1 Ω2?=Ω\Ω1?。软域分解由在 exp ? ( ? 5 ( x ? 0.5 ) 2 ? 5 ( t ? 0.5 ) 2 ) \exp(?5(x ? 0.5)^2 ? 5(t ? 0.5)^2) exp(?5(x?0.5)2?5(t?0.5)2) 和 1 ? exp ? ( ? 5 ( x ? 0.5 ) 2 ? 5 ( t ? 0.5 ) 2 ) 1 ? \exp(?5(x ? 0.5)^2 ? 5(t ? 0.5)^2) 1?exp(?5(x?0.5)2?5(t?0.5)2) 上预训练的门函数 ( G ( x , t ) ) 1 (G(x, t))_1 (G(x,t))1? 与 ( G ( x , t ) ) 2 (G(x, t))_2 (G(x,t))2? 生成,使得第一个子网络集中在 ( x , t ) = ( 0.5 , 0.5 ) (x, t) = (0.5, 0.5) (x,t)=(0.5,0.5) 附近的内部,而第二个子网络集中在该领域的其余部分。
通过正确选择相应的门控函数,门控网络还可以适应L形域甚至高维域等复杂域。
有三个选项来构建 APINN 模型。首先,最简单的想法是,如果省略 APINN 中的参数共享,那么模型将变为:
u
θ
(
x
)
=
∑
i
=
1
m
(
G
(
x
)
)
i
E
i
(
x
)
u_\theta(\boldsymbol{x})=\sum_{\boldsymbol{i}=1}^m(G(\boldsymbol{x}))_iE_i(\boldsymbol{x})
uθ?(x)=i=1∑m?(G(x))i?Ei?(x)
本文提出的模型是:
u
θ
(
x
)
=
∑
i
=
1
m
(
G
(
x
)
)
i
E
i
(
h
(
x
)
)
u_\theta(\boldsymbol{x})=\sum_{i=1}^m(G(\boldsymbol{x}))_iE_i(h(\boldsymbol{x}))
uθ?(x)=i=1∑m?(G(x))i?Ei?(h(x))
另一种参数共享的方法是将
h
h
h 放置在几个子网的加权平均值之外:
u
θ
(
x
)
=
h
(
∑
i
=
1
m
(
G
(
x
)
)
i
E
i
(
x
)
)
u_\theta(\boldsymbol{x})=h\left(\sum_{i=1}^m(G(\boldsymbol{x}))_iE_i(\boldsymbol{x})\right)
uθ?(x)=h(i=1∑m?(G(x))i?Ei?(x))
与第一个模型相比,本文中给出的模型采用每个子 PINN 的参数共享来提高参数效率。本文中给出的模型使用相同的
E
i
E_i
Ei? 网络并选择共享网络作为恒等映射是对第一个模型的推广。直观上,每个子 PINN 学习的函数应该具有某种相似性,因为它们是同一目标函数的一部分。本文模型中的网络共享先验明确地利用了直觉,因此参数效率更高。
与第三个模型相比,本文的模型更具可解释性。特别是,本文的模型是 m m m 个子 PINN E i ° h E_i \circ h Ei?°h 的加权平均值,因此可以可视化每个 E i ° h E_i \circ h Ei?°h 来观察它们正在学习什么函数。然而,对于第三个模型,由于 h h h 在外面,没有明确的函数分解,因此不可能将学习到的每个函数分量可视化。
为了便于说明方法的主要泛化界限,首先定义与网络参数相关的几个量。对于网络
u
θ
(
x
)
=
W
L
σ
(
W
L
?
1
σ
(
?
?
?
σ
(
W
1
x
)
?
?
?
)
u_\theta(x) = W_L\sigma(W_{L?1}\sigma(···\sigma(W_1x)···)
uθ?(x)=WL?σ(WL?1?σ(???σ(W1?x)???),对于固定参考矩阵
A
l
A_l
Al?定义 $M(l)=\lceil|W_l|2\rceil $ 和 $N (l) = \lceil\frac{|W_l-A_l|{2,1}}{|W_l|_2}\rceil $ ,其中
A
l
A_l
Al? 可以针对不同的网络而变化。将其复杂度表示如下:
R
i
(
u
θ
)
=
(
∏
l
=
1
L
M
(
l
)
)
i
+
1
(
∑
l
=
1
L
N
(
l
)
2
/
3
)
3
/
2
,
i
∈
{
0
,
1
,
2
}
R_i(u_{\boldsymbol{\theta}})=\left(\prod_{l=1}^{L}M(l)\right)^{i+1}\left(\sum_{l=1}^{L}N(l)^{2/3}\right)^{3/2},\quad i\in\{0,1,2\}
Ri?(uθ?)=(l=1∏L?M(l))i+1(l=1∑L?N(l)2/3)3/2,i∈{0,1,2}
其中
i
i
i 表示导数的阶数,即
R
i
R_i
Ri? 表示网络第
i
i
i 个导数的复杂度。进一步将子 PINN
E
j
°
h
E_j \circ h
Ej?°h 对应的
M
(
l
)
、
N
(
l
)
M (l)、N (l)
M(l)、N(l) 和
R
i
R_i
Ri? 量表示为
M
j
(
j
)
、
N
j
(
l
)
M_j(j)、N_j(l)
Mj?(j)、Nj?(l) 和
R
i
(
E
j
°
G
)
R_i(E_j \circ G)
Ri?(Ej?°G)。同时将门网络
G
G
G 的那些表示为
M
G
(
l
)
、
N
G
(
l
)
M_G(l)、N_G(l)
MG?(l)、NG?(l) 和
R
i
(
G
)
R_i(G)
Ri?(G)。
模型
u
θ
(
x
)
u_\theta(x)
uθ?(x) 的训练损失和测试损失与 PINN 相同,即:
R
S
(
θ
)
=
R
S
∩
?
Ω
(
θ
)
+
R
S
∩
Ω
(
θ
)
=
1
n
b
∑
i
=
1
n
b
∣
u
θ
(
x
b
,
i
)
?
g
(
x
b
,
i
)
∣
2
+
1
n
r
∑
i
=
1
n
r
∣
L
u
θ
(
x
r
,
i
)
?
f
(
x
r
,
i
)
∣
2
.
R
D
(
θ
)
=
R
D
∩
?
Ω
(
θ
)
+
R
D
∩
Ω
(
θ
)
=
E
U
n
i
f
(
?
Ω
)
∣
u
θ
(
x
)
?
g
(
x
)
∣
2
+
E
U
n
i
f
(
Ω
)
∣
L
u
θ
(
x
)
?
f
(
x
)
∣
2
.
\begin{aligned} &R_{S}(\boldsymbol{\theta}) =R_{S\cap\partial\Omega}(\boldsymbol{\theta})+R_{S\cap\Omega}(\boldsymbol{\theta}) \\ &=\frac1{n_b}\sum_{i=1}^{n_b}\left|u_{\boldsymbol{\theta}}(x_{b,i})-g(x_{b,i})\right|^2+\frac1{n_r}\sum_{i=1}^{n_r}\left|\mathcal{L}u_{\boldsymbol{\theta}}(x_{r,i})-f(x_{r,i})\right|^2. \\ &R_D(\boldsymbol{\theta}) =R_{D\cap\partial\Omega}(\boldsymbol{\theta})+R_{D\cap\Omega}(\boldsymbol{\theta}) \\ &=\mathbb{E}_{\mathrm{Unif}(\partial\Omega)}|u_{\boldsymbol{\theta}}(\boldsymbol{x})-g(\boldsymbol{x})|^2+\mathbb{E}_{\mathrm{Unif}(\Omega)}|\mathcal{L}u_{\boldsymbol{\theta}}(\boldsymbol{x})-f(\boldsymbol{x})|^2. \end{aligned}
?RS?(θ)=RS∩?Ω?(θ)+RS∩Ω?(θ)=nb?1?i=1∑nb??∣uθ?(xb,i?)?g(xb,i?)∣2+nr?1?i=1∑nr??∣Luθ?(xr,i?)?f(xr,i?)∣2.RD?(θ)=RD∩?Ω?(θ)+RD∩Ω?(θ)=EUnif(?Ω)?∣uθ?(x)?g(x)∣2+EUnif(Ω)?∣Luθ?(x)?f(x)∣2.?
由于以下假设适用于各种偏微分方程,因此可以通过测试边界和残差损失来限制测试
L
2
L_2
L2? 误差:
假设5.1 假设 PDE 满足以下范数约束:
C
1
∥
u
∥
L
2
(
Ω
)
≤
∥
L
u
∥
L
2
(
Ω
)
+
∥
u
∥
L
2
(
?
Ω
)
,
?
u
∈
N
N
L
,
?
L
C_1\|u\|_{L_2(\Omega)}\leq\|\mathcal{L}u\|_{L_2(\Omega)}+\|u\|_{L_2(\partial\Omega)},\quad\forall u\in\mathcal{NN}_L,\forall L
C1?∥u∥L2?(Ω)?≤∥Lu∥L2?(Ω)?+∥u∥L2?(?Ω)?,?u∈NNL?,?L
其中正常数
C
1
C_1
C1? 不取决于
u
u
u,而是取决于算子
L
\mathcal L
L的域和系数,并且函数类
N
N
L
NN_L
NNL? 包含所有
L
L
L 层神经网络。
假设5.2 ( L \mathcal L L 的对称性和有界性)在本文的整个分析中,假设偏微分方程中的微分算子 L \mathcal L L 满足以下条件。算子 L \mathcal L L 是非散度形式的线性二阶微分算子,即 ( L u ? ) ( x ) = ∑ α = 1 , β = 1 d A α β ( x ) u ^ x α x β ? ( x ) + ∑ α = 1 d b α ( x ) u x α ? ( x ) + c ( x ) u ? ( x ) (\mathcal{L}u^*)(\boldsymbol{x})=\sum_{\alpha=1,\beta=1}^d\boldsymbol{A}_{\alpha\beta}(\boldsymbol{x})\hat{u}_{x_\alpha x_\beta}^*(\boldsymbol{x})+\sum_{\alpha=1}^d\boldsymbol{b}_\alpha(\boldsymbol{x})u_{x_\alpha}^*(\boldsymbol{x})+c(\boldsymbol{x})u^*(\boldsymbol{x}) (Lu?)(x)=∑α=1,β=1d?Aαβ?(x)u^xα?xβ???(x)+∑α=1d?bα?(x)uxα???(x)+c(x)u?(x) ,其中所有 A α β , b α , c : Ω → R A_{\alpha\beta},b_\alpha,c:\Omega\to\mathbb{R} Aαβ?,bα?,c:Ω→R 都给定系数函数, u x α ? u^*_{x\alpha} uxα?? 是函数 u ? u^* u? 相对于其第 α \alpha α 个参数(变量 x α x_\alpha xα?)的一阶偏导和 u x α x β ? u^*_{x_\alpha x_\beta} uxα?xβ??? 是函数 u ? u^* u? 相对于其第 α \alpha α 和 β \beta β 参数(变量 x α x_\alpha xα? 和 x β x_\beta xβ?)的二阶偏导数。此外,存在常数 K > 0 K > 0 K>0,使得对于所有 x ∈ Ω = [ ? 1 , 1 ] d x \in \Omega = [?1, 1]^d x∈Ω=[?1,1]d 和 α , β ∈ [ d ] \alpha, \beta \in [d] α,β∈[d],有 A α β = A β α A_{\alpha\beta} = A_{\beta\alpha} Aαβ?=Aβα? 同时 A α β ( x ) , b α ( x ) , c ( x ) A_{\alpha\beta}(x), b_\alpha(x), c (x) Aαβ?(x),bα?(x),c(x) 均为 K-Lipschitz,其绝对值不大于 K K K。
有两个因素相互抵消影响XPINN的泛化能力,即由于域分解而导致每个子域内分解的目标函数的简单性,以及由于缺乏可用的训练数据而导致的复杂性和负面的过拟合效应。当前者效果更明显时,XPINN 优于 PINN。否则,PINN 优于 XPINN。当这两个因素达到平衡时,XPINN 和 PINN 的表现相似。
具有不可训练门网络的 APINN 的泛化界限。由于门网络是固定的,唯一的复杂性来自子 PINN。以下定理对于任何门函数 G 都成立:
直觉:第一项是训练损失,第三项是概率项,其中将概率
δ
\delta
δ 划分为
δ
(
E
)
\delta(E)
δ(E),以获得
E
j
°
h
E_j \circ h
Ej?°h 中所有参数的并集。第二项是该模型的 Rademacher 复杂度。对于边界损失,网络
u
θ
S
(
x
)
=
∑
j
=
1
m
(
G
(
x
)
)
j
E
j
(
h
(
x
)
)
u_{\boldsymbol{\theta}_S}(\boldsymbol{x})=\sum_{j=1}^{m}(G(\boldsymbol{x}))_jE_j(h(\boldsymbol{x}))
uθS??(x)=∑j=1m?(G(x))j?Ej?(h(x)) 不进行微分。因此,每个
E
j
(
h
(
x
)
)
E_j(h(x))
Ej?(h(x)) 贡献
R
0
(
E
j
°
h
)
R_0(Ej \circ h)
R0?(Ej°h),并且
(
G
(
x
)
)
j
(G(x))_j
(G(x))j? 贡献
max
?
x
∈
?
Ω
∥
G
(
x
)
j
∥
∞
\max_{x\in \partial \Omega} \|G(x)_j\|_\infty
maxx∈?Ω?∥G(x)j?∥∞?,因为它是固定的并且
max
?
x
∈
?
Ω
∥
G
(
x
)
j
∥
∞
\max_{x\in \partial \Omega} \|G(x)_j\|_\infty
maxx∈?Ω?∥G(x)j?∥∞? Lipschitz。对于剩余损失,第二项的情况类似。请注意,APINN 的二阶导数为:
?
2
u
θ
S
(
x
)
?
x
2
=
∑
i
=
0
2
∑
j
=
1
m
?
i
(
G
(
x
)
)
j
?
x
i
?
2
?
i
E
j
(
h
(
x
)
)
?
x
2
?
i
\frac{\partial^2u_{\boldsymbol{\theta}_S}(\boldsymbol{x})}{\partial\boldsymbol{x}^2}=\sum_{i=0}^2\sum_{j=1}^m\frac{\partial^i(G(\boldsymbol{x}))_j}{\partial\boldsymbol{x}^i}\frac{\partial^{2-i}E_j(h(\boldsymbol{x}))}{\partial\boldsymbol{x}^{2-i}}
?x2?2uθS??(x)?=i=0∑2?j=1∑m??xi?i(G(x))j???x2?i?2?iEj?(h(x))?
因此,每个
?
2
?
i
E
j
(
h
(
x
)
)
?
x
2
?
i
\frac{\partial^{2-i}E_j(h(\boldsymbol{x}))}{\partial\boldsymbol{x}^{2-i}}
?x2?i?2?iEj?(h(x))? 贡献
R
2
?
i
(
E
j
°
h
)
R_{2-i}(E_j\circ h)
R2?i?(Ej?°h),而每个
?
i
(
G
(
x
)
)
j
?
x
i
\frac{\partial^i(G(\boldsymbol{x}))_j}{\partial\boldsymbol{x}^i}
?xi?i(G(x))j?? 贡献 $\max_{\boldsymbol{x}\in\partial\Omega}\left|\mathrm{vec}\left(\frac{\partialiG(\boldsymbol{x})_j}{\partial\boldsymbol{x}i}\right)\right|_\infty $ 因为它是固定的。
定理 5.1 表明 APINN 的好处来自 (1) 软域分解,(2) 消除界面损失,(3) 一般目标函数分解,以及 (4) 事实上,APINN 的每个子 PINN 都提供了所有训练数据,这可以防止过度拟合。
对于 APINN 的边界损失,可以将定理 5.1 应用于 APINN 的每个软子域。具体来说,对于 APINN 第
k
k
k 个软子域中的第
k
k
k 个子网,即
Ω
k
,
k
∈
{
1
,
2
,
.
.
.
,
m
}
\Omega_k, k \in \{1, 2, ..., m\}
Ωk?,k∈{1,2,...,m},界限为:
R
D
∩
Ω
k
(
θ
S
)
≤
R
S
∩
Ω
k
(
θ
S
)
+
O
~
(
∑
j
=
1
m
max
?
x
∈
?
Ω
k
∥
G
(
x
)
j
∥
∞
R
0
(
E
j
°
h
)
n
b
,
k
1
/
2
+
log
?
(
4
/
δ
(
E
)
)
n
b
,
k
)
R_{D\cap\Omega_k}(\theta_S)\leq R_{S\cap\Omega_k}(\theta_S)+\tilde{O}\left(\frac{\sum_{j=1}^m\max_{\boldsymbol{x}\in\partial\Omega_k}\|G(\boldsymbol{x})_j\|_\infty R_0(E_j\circ h)}{n_{b,k}^{1/2}}+\sqrt{\frac{\log(4/\delta(E))}{n_{b,k}}}\right)
RD∩Ωk??(θS?)≤RS∩Ωk??(θS?)+O~(nb,k1/2?∑j=1m?maxx∈?Ωk??∥G(x)j?∥∞?R0?(Ej?°h)?+nb,k?log(4/δ(E))??)
其中
n
b
,
k
n_{b,k}
nb,k? 是第
k
k
k 个子域中的训练边界点的数量。
如果门网络模仿 XPINN 的硬分解,那么假设第
k
k
k 个子 PINN
E
k
E_k
Ek? 集中于
Ω
k
\Omega_k
Ωk?,特别是
∥
G
(
x
)
j
∥
∞
≤
c
ˉ
\|G(x)_j\|_\infty\leq\bar{c}
∥G(x)j?∥∞?≤cˉ 对于
j
≠
k
j\neq k
j=k,其中
c
c
c 接近于零。需要注意的是,定理 5.1 不依赖于对
c
c
c 的任何要求,做出这样的假设是为了说明。然后,界限减少为:
R
D
∩
Ω
k
(
θ
S
)
≤
R
S
∩
Ω
k
(
θ
S
)
+
O
~
(
∥
G
(
x
)
k
∥
∞
R
0
(
E
k
°
h
)
+
c
ˉ
∑
j
≠
k
R
0
(
E
j
°
h
)
n
b
,
k
1
/
2
+
log
?
(
4
/
δ
(
E
)
)
n
b
,
k
)
≈
R
S
∩
Ω
k
(
θ
S
)
+
O
~
(
R
0
(
E
k
°
h
)
n
b
,
k
1
/
2
+
log
?
(
4
/
δ
(
E
)
)
n
b
,
k
)
\begin{aligned} R_{D\cap\Omega_{k}}(\boldsymbol{\theta}_{S})& \leq R_{S\cap\Omega_k}(\theta_S)+\tilde{O}\left(\frac{\|G(\boldsymbol{x})_k\|_\infty R_0(E_k\circ h)+\bar{c}\sum_{j\neq k}R_0(E_j\circ h)}{n_{b,k}^{1/2}}+\sqrt{\frac{\log(4/\delta(E))}{n_{b,k}}}\right) \\ &\approx R_{S\cap\Omega_k}(\boldsymbol{\theta}_S)+\tilde{O}\left(\frac{R_0(E_k\circ h)}{n_{b,k}^{1/2}}+\sqrt{\frac{\log(4/\delta(E))}{n_{b,k}}}\right) \end{aligned}
RD∩Ωk??(θS?)?≤RS∩Ωk??(θS?)+O~(nb,k1/2?∥G(x)k?∥∞?R0?(Ek?°h)+cˉ∑j=k?R0?(Ej?°h)?+nb,k?log(4/δ(E))??)≈RS∩Ωk??(θS?)+O~(nb,k1/2?R0?(Ek?°h)?+nb,k?log(4/δ(E))??)?
如果域分解困难,这正是 XPINN 的界限。
因此,APINN具有XPINN的优点,即它可以将目标函数分解为某些子域中的几个更简单的部分。此外,由于APINN不需要复杂的界面损失,其训练损失 R S ( θ S ) R_S(\theta_S) RS?(θS?) 通常比XPINN小,并且在界面附近没有误差。
除了软域分解之外,即使
G
G
G 的输出不集中在某些子域上,即不模仿XPINN,APINN仍然享有通用函数分解的好处,并且APINN的每个子PINN都提供了所有训练数据,防止过度拟合。具体来说,对于 APINN 的边界损失,模型的复杂度项为:
∑
j
=
1
m
max
?
x
∈
?
Ω
∥
G
(
x
)
j
∥
∞
R
0
(
E
j
°
h
)
n
b
1
/
2
\frac{\sum_{j=1}^m\max_{\boldsymbol{x}\in\partial\Omega}\|G(\boldsymbol{x})_j\|_\infty R_0(E_j\circ h)}{n_b^{1/2}}
nb1/2?∑j=1m?maxx∈?Ω?∥G(x)j?∥∞?R0?(Ej?°h)?
这是所有子 PINN 复杂度的加权平均值。请注意,与 PINN 类似,如果在整个域上查看 APINN,则所有子 PINN 都能够利用所有训练样本,从而防止过度拟合。希望每个部分的加权和比整体更简单。更具体地说,如果训练一个 PINN,
u
θ
u_\theta
uθ?,复杂度项将是
R
0
(
u
θ
)
R_0(u_\theta)
R0?(uθ?)。如果APINN能够将目标函数分解为几个更简单的部分,使得它们的复杂度加权和小于PINN的复杂度,那么APINN可以优于PINN。
具有可训练门网络的 APINN 的泛化界限。在这种情况下,门网络和 m m m 个子 PINN 都会增加 APINN 模型的复杂性,同时影响泛化。
直觉:与定理5.1有些相似。在这里将 APINN 模型视为一个整体。现在, G ( x ) G(x) G(x) 将贡献其复杂性 R i ( G ) R_i(G) Ri?(G),而不是其无穷范数,因为它是可训练的而不是固定的。
根据定理 5.2,除了定理 5.1 所解释的好处之外,受 XPINN 启发的软分解的良好初始化有助于泛化。如果是这种情况,训练后的门网络的参数将不会显着偏离其初始化。因此,所有 j ∈ { 1 , … , m , G } j \in \{1, \dots, m, G\} j∈{1,…,m,G} 和 l ∈ { 1 , … , L } l \in \{1, \dots , L\} l∈{1,…,L} 的 N j ( l ) N_j(l) Nj?(l) 数量将较小,因此 R i ( G ) R_i(G) Ri?(G) 将较小,从而降低定理 5.2 中右侧规定的界限,这意味着良好的泛化性。
一维粘性 Burgers 方程由下式给出:
u
t
+
u
u
x
?
0.01
π
u
x
x
=
0
,
x
∈
[
?
1
,
1
]
,
t
∈
[
0
,
1
]
.
u
(
0
,
x
)
=
?
sin
?
(
π
x
)
.
u
(
t
,
?
1
)
=
u
(
t
,
1
)
=
0.
\begin{aligned} &u_t+uu_x-\frac{0.01}\pi u_{xx}=0,x\in[-1,1],t\in[0,1]. \\ &u(0,x)=-\sin(\pi x). \\ &u(t,-1)=u(t,1)=0. \end{aligned}
?ut?+uux??π0.01?uxx?=0,x∈[?1,1],t∈[0,1].u(0,x)=?sin(πx).u(t,?1)=u(t,1)=0.?
Burgers 方程的难点在于
x
=
0
x = 0
x=0 附近的陡峭区域,该区域解变化很快,这是 PINN 难以捕获的。
真实解如上图左侧所示。在这种情况下,XPINN 在接口附近表现很差。因此,APINN 通过消除界面损失和提高参数效率来提高 XPINN,特别是在界面附近的精度。
对于PINN,使用20宽度的10层 tanh 网络,具有3441个神经元,并提供300个边界点和20000个残差点。使用 20 作为边界上的权重,使用 1 作为残差的权重。通过 Adam 优化器以 8e-4 学习率训练 PINN 100k epoch。 XPINNv1根据x是否大于 0 来分解域。边界损失、残差损失、界面边界损失和界面残差损失的权重分别为20、1、20、1。 XPINNv2 与 XPINNv1 的分解相同,但其边界损失、残差损失、界面边界损失和界面一阶导数连续性损失的权重分别为 20、1、20、1。子网是20宽度的6层tanh网络,总共3522个神经元,为XPINN中的所有子网提供150个边界点和10000个残差点。接口点的数量为 1000。XPINN 的训练点如上图右侧所示。通过 Adam 优化器以 8e-4 学习率训练 XPINN 100k epoch。两个模型均由 Adam 优化收敛后由 L-BFGS 优化器进行微调。
为了模拟基于 x x x 是否大于 0 的硬分解,在函数 ( G ( x , t ) ) 1 = 1 ? ( G ( x , t ) ) 2 = exp ? ( x ? 1 ) (G(x, t))_1 = 1 ? (G(x, t))_2 = \exp(x ? 1) (G(x,t))1?=1?(G(x,t))2?=exp(x?1) 上预训练门网络 G G G,这样第一个子PINN关注 x x x 较大的地方,第二个子PINN关注 x x x 较小的地方。相应的模型被命名为APINN-X。此外,在 ( G ( x , t ) ) 1 = 1 ? ( G ( x , t ) ) 2 = 0.8 (G(x, t))_1 = 1 ? (G(x, t))_2 = 0.8 (G(x,t))1?=1?(G(x,t))2?=0.8 上对门网络 G G G 进行预训练,以模拟多级 PINN (MPINN) Anonymous [2022],其中第一个子网主要负责多数部分,第二个子网负责少数部分。相应的模型被命名为APINN-M。所有网络的宽度均为 20。门网络、子 PINN 网络和共享网络的层数分别为 2、4 和 3,参数数为 3462 / 3543,具体取决于门网络是否可训练。所有模型均由 L-BFGS 优化器进行微调,直至 Adam 优化后收敛。
Burgers 方程的结果如上表所示。报告的相对 L 2 L_2 L2? 误差是 10 次独立运行的平均值,这是整个优化过程中最好的 L 2 L_2 L2? 误差。 XPINNv1 和 APINN-X 的误差图分别如下图中左图和右图所示。
上图显示了收敛后一些具有代表性的优化门网络。在第一行中,可视化了 APINN-X 的两个门网络。尽管它们的优化门不同,但随着界面位置的变化,它们保留了原始的左右分解。因此,它们的 L 2 L_2 L2? 误差是相似的。在第二行中,展示了 APINN-M 的两个门网络。它们的性能差异很大,并且对两个子网的权重也不同。第三张图对子网 1 使用 0.9 的权重,对子网 2 使用 0.1 的权重,而第四张图对子网 1 使用 0.6 的权重,对子网 2 使用 0.4 的权重。这意味着 MPINN 型分解的训练不稳定,APINN-M 在 Burgers 问题中比 XPINN 更差,并且 MPINN 型分解中的权重对其最终性能至关重要。从这些例子中,可以看到初始化对于 APINN 的成功至关重要。尽管进行了优化,训练后的门仍然与初始化类似。
此外,上图可视化 Burgers 方程中第一个子网的门控网络的优化轨迹,其中每个快照都是 epoch = 0、1E4、2E4、3E4 处的门控网络。对于第二个子网 G 2 G_2 G2?,可以使用单位划分 G 1 + G 2 = 1 G_1 + G_2 = 1 G1?+G2?=1 的属性轻松计算。轨迹是平滑的,并且通过从左到右移动界面并移动界面,门控网络逐渐收敛。
地震学、电磁辐射和声学等物理学问题可以使用亥姆霍兹方程求解,该方程由下式给出:
u
x
x
+
u
y
y
+
k
2
u
=
q
(
x
,
y
)
,
x
∈
[
?
1
,
1
]
,
y
∈
[
?
1
,
1
]
.
u
(
?
1
,
y
)
=
u
(
1
,
y
)
=
u
(
x
,
?
1
)
=
u
(
x
,
1
)
=
0.
q
(
x
,
y
)
=
(
?
(
a
1
π
)
2
?
(
a
2
π
)
2
+
k
2
)
sin
?
(
a
1
π
x
)
sin
?
(
a
2
π
y
)
.
\begin{aligned}&u_{xx}+u_{yy}+k^2u=q(x,y),x\in[-1,1],y\in[-1,1].\\&u(-1,y)=u(1,y)=u(x,-1)=u(x,1)=0.\\&q(x,y)=\left(-(a_1\pi)^2-(a_2\pi)^2+k^2\right)\sin(a_1\pi x)\sin(a_2\pi y).\end{aligned}
?uxx?+uyy?+k2u=q(x,y),x∈[?1,1],y∈[?1,1].u(?1,y)=u(1,y)=u(x,?1)=u(x,1)=0.q(x,y)=(?(a1?π)2?(a2?π)2+k2)sin(a1?πx)sin(a2?πy).?
解析解为:
u
(
x
,
y
)
=
sin
?
(
a
1
π
x
)
sin
?
(
a
2
π
y
)
u(x,y)=\sin(a_1\pi x)\sin(a_2\pi y)
u(x,y)=sin(a1?πx)sin(a2?πy)
如下图左所示。
在这种情况下,由于接口附近的误差较大,XPINNv1 的性能比 PINN 差。通过额外的正则化,与 PINN 相比,XPINNv2 降低了 47% 的相对 L 2 L_2 L2? 误差,但由于每个子域中训练数据的可用性较小而导致的过拟合效应,它的性能仍然比 APINN 差。
对于 PINN,提供 400 个边界点和 10000 个残差点。 XPINN 根据 y 是否大于 0 来分解域,其训练点如上图右所示。为 XPINN 中的两个子网提供了 200 个边界点、5000 个残差点和 400 个接口点。 PINN 和 XPINN 的其他设置与 Burgers 方程中的相同。
在函数 ( G ( x , y ) ) 1 = 1 ? ( G ( x , y ) ) 2 = exp ? ( y ? 1 ) (G(x, y))_1 = 1 ? (G(x, y))_2 = \exp(y ? 1) (G(x,y))1?=1?(G(x,y))2?=exp(y?1) 上预训练门网络 G G G 以模拟 XPINN,并在 ( G ( x , y ) ) 1 = 1 ? ( G ( x , y ) ) 2 = 0.8 (G( x, y))_1 = 1 ? (G(x, y))_2 = 0.8 (G(x,y))1?=1?(G(x,y))2?=0.8 模拟 MPINN。其他实验设置参考 Burgers 方程中 APINN 的介绍。
结果如上表所示。报告的相对 L 2 L_2 L2? 误差是 10 次独立运行的平均值,这些运行在优化过程中被选择为具有最低的误差。 XPINNv1、APINN-X 和 XPINNv2 的误差图分别如下图左、中和右所示。
该问题的随机性较小,因此不同运行的最终相对 L 2 L_2 L2? 误差相似。 APINN-X 收敛后的一些代表性优化门控网络如下图所示。具体而言,每个门控网络大致保持了上域和下域的原始分解,尽管每次运行中接口都会发生一些变化。从这些观察来看,XPINN 类型分解为上域和下域对于 XPINN 来说已经令人满意。还注意到 XPINN 的性能优于 PINN,这与预期结果一致。
此外,下图可视化 Helmhotz 方程中第一个子网的门控网络的优化轨迹,其中每个快照都是 epoch = 0 到 5E2 的门控网络,总共有 6 个快照。对于第二个子网 G 2 G_2 G2?,可以使用单位划分属性门控网络轻松计算,即 ∑ i G i = 1 \sum_i G_i = 1 ∑i?Gi?=1。该轨迹与 Burgers 方程中的情况类似。这里,亥姆霍兹方程的门控网络比之前的伯格斯方程中的门控网络收敛得快得多。
在现代物理学中,该方程被广泛应用于粒子物理学、天体物理学、宇宙学、经典力学等领域,由下式给出:
u
t
t
?
u
x
x
+
u
3
=
f
(
x
,
t
)
,
x
∈
[
0
,
1
]
,
t
∈
[
0
,
1
]
.
u
(
x
,
0
)
=
u
t
(
x
,
0
)
=
0.
u
(
x
,
t
)
=
h
(
x
,
t
)
,
x
∈
{
0
,
1
}
,
t
∈
[
0
,
1
]
.
\begin{aligned} &u_{tt}-u_{xx}+u^3=f(x,t),x\in[0,1],t\in[0,1].\\&u(x,0)=u_t(x,0)=0.\\&u(x,t)=h(x,t),x\in\{0,1\},t\in[0,1]. \end{aligned}
?utt??uxx?+u3=f(x,t),x∈[0,1],t∈[0,1].u(x,0)=ut?(x,0)=0.u(x,t)=h(x,t),x∈{0,1},t∈[0,1].?
其边界和初始条件由真实解给出:
u
(
x
,
y
)
=
x
cos
?
(
5
π
t
)
+
(
x
t
)
3
u(x,y)=x\cos(5\pi t)+(xt)^3
u(x,y)=xcos(5πt)+(xt)3
如下图左所示。在这种情况下,由于子网之间的连续性不理想导致接口附近存在较大误差,XPINNv1 的性能比 PINN 差,而 XPINNv2 的性能与 PINN 类似。 APINN 的性能比 XPINNv1 好得多,也比 PINN 和 XPINNv2 好。
PINN 和 XPINN 的实验设置与之前的亥姆霍兹方程相同,不同之处在于 XPINN 现在根据 x 是否大于 0.5 来分解域,并且对 200k epoch 执行 Adam 优化。
在函数 ( G ( x , t ) ) 1 = 1 ? ( G ( x , t ) ) 2 = exp ? ( ? x ) (G(x, t))_1 = 1 ? (G(x, t))_2 = \exp(?x) (G(x,t))1?=1?(G(x,t))2?=exp(?x) 上预训练门网络 G G G 以模拟 XPINN,并在 ( G ( x ) , t ) ) 1 = 1 ? ( G ( x , t ) ) 2 = 0.8 (G(x) , t))_1 = 1 ? (G(x, t))_2 = 0.8 (G(x),t))1?=1?(G(x,t))2?=0.8 模拟 MPINN。其他实验设置请参考第一个方程中APINN的介绍。
Klein-Gordon 方程的结果如上表所示。报告的相对 L 2 L_2 L2? 误差是 10 次独立运行的平均值。 XPINNv1、APINN-X 和 XPINNv2 的误差图分别如下图左、中和右所示。
考虑由下式给出的波动问题:
u
t
t
=
4
u
x
x
,
x
∈
[
0
,
1
]
,
t
∈
[
0
,
1
]
u_{tt}=4u_{xx},x\in[0,1],t\in[0,1]
utt?=4uxx?,x∈[0,1],t∈[0,1]
边界和初始条件由解析解给出:
u
(
x
,
t
)
=
sin
?
(
π
x
)
cos
?
(
2
π
t
)
u(x,t)=\sin(\pi x)\cos(2\pi t)
u(x,t)=sin(πx)cos(2πt)
如下图左侧所示。在此示例中,XPINN 已经明显优于 PINN。但是,即使 XPINN 已经足够好,APINN 的性能仍然略好于 XPINN。
对 PINN 使用具有 3441 个神经元和 400 个边界点和 10,000 个残差点的 10 层 tanh 网络。在边界上使用 20 权重,在残差上使用单位权重。使用 Adam 优化器以 8E-4 学习率训练 PINN 100k epoch。 XPINN 根据 t t t 是否大于 0.5 来分解域。边界损失、残差损失、界面边界损失、界面残差损失和界面一阶导数连续性损失的权重分别为20、1、20、0、1。子网是 20 宽度的 6 层 tanh 网络,总共 3522 个神经元,为 XPINN 中的所有子网提供 200 个边界点、5000 个残差点和 400 个接口点。 XPINN 的训练点如上图右侧所示。使用 Adam 优化器以 1e-4 的学习率训练 XPINN 100k epoch。
APINN 通过在 ( G ( x , t ) ) 1 = 1 ? ( G ( x , t ) ) 2 = exp ? ( ? t ) (G(x, t))_1 = 1 ? (G(x, t))_2 = \exp(?t) (G(x,t))1?=1?(G(x,t))2?=exp(?t) 上预训练来模拟 XPINN,并通过在 ( G ( x , t ) ) ) 1 = 1 ? ( G ( x , t ) ) 2 = 0.8 (G(x, t) ))_1 = 1 ? (G(x, t))_2 = 0.8 (G(x,t)))1?=1?(G(x,t))2?=0.8 上预训练来模拟 MPINN。其他实验设置请参考第一个方程中APINN的介绍。
波动方程的结果如上表所示。报告的相对 L 2 L_2 L2? 误差是 10 次独立运行的平均值,被选为最后 10% epoch 中训练损失较小的 epoch 的误差。 PINN、XPINNv2 和 APINN-X 的误差图分别如下图左、中和右所示。
一些具有代表性的收敛后的优化门控网络如上图所示。第一行显示了优化 APINN-X 的门网络,第二行显示了 APINN-M 的门网络。在这种情况下,方差要小得多,并且优化后的门网络保持初始化时的特征,即APINN-X的门网络保持上下分解,APINN-M的门网络保持多级划分。相同初始化下的门网络在不同的独立运行中也相似,这与其相似的性能一致。
这里考虑 Boussinesq-Burger 系统,它是由两个未知数组成的非线性水波模型。彻底了解此类模型的解对于将其应用于港口和沿海设计非常重要。所考虑的 Boussinesq-Burger 方程由下式给出:
u
t
=
2
u
u
x
+
1
2
v
x
,
v
t
=
1
2
v
x
x
x
+
2
(
u
v
)
x
x
∈
[
?
10
,
15
]
,
t
∈
[
?
3
,
2
]
u_t=2uu_x+\frac12v_x,\quad v_t=\frac12v_{xxx}+2(uv)_x\quad x\in[-10,15],t\in[-3,2]
ut?=2uux?+21?vx?,vt?=21?vxxx?+2(uv)x?x∈[?10,15],t∈[?3,2]
其中,Lin 和 Chen [2022] 中给出了狄利克雷边界条件和真解,对于未知的
u
u
u 和
v
v
v 分别如下图(左和中)所示。在这个实验中,考虑一个偏微分方程系统,并尝试具有两个以上子域的 XPINN 和 APINN。
对于 PINN,使用 10 层 Tanh 网络,并提供 400 个边界点和 10,000 个残差点。在边界上使用 20 权重,在残差上使用单位权重。它由 Adam 进行训练,学习率为 8E-4 100K epoch。
对于(硬)XPINN 的域分解,设计了两种不同的策略。首先,具有两个子域的 XPINN 根据 t > ? 0.5 t \gt -0.5 t>?0.5 是否分解域。子网是 20 宽度的 6 层 tanh 网络,为XPINN中的每个子网提供 200 个边界点和 5000 个残差点。其次,具有四个子域的 XPINN4 将基于 t = ? 1.75 、 ? 0.5 t = ?1.75、?0.5 t=?1.75、?0.5 和 0.75 0.75 0.75 的域分解为 4 个子域,其训练点如上图右侧所示。 XPINN4 中的子网是 20 宽度的 4 层 tanh 网络,我们为 XPINN4 中的每个子网提供 100 个边界点和 2500 个残差点。界面点数为 400 个。边界损失、残差损失、界面边界损失、界面残差损失和界面一阶导数连续性损失的权重分别为20、1、20、0、1。使用 Adam 优化器以 8E-4 的学习率训练 XPINN 和 XPINN4 100k epoch。为了进行公平比较,PINN、XPINN 和 XPINN4 中的参数计数分别为 6882、7044 和 7368。
对于具有两个子域的 APINN,在函数 ( G ( x , t ) ) 1 = 1 ? ( G ( x , t ) ) 2 = exp ? ( 0.35 ? ( t ? 2 ) ) (G(x, t))_1 = 1 ? (G(x, t))_2 = \exp(0.35 ? ( t ? 2)) (G(x,t))1?=1?(G(x,t))2?=exp(0.35?(t?2)) 来模拟 XPINN,并在函数 ( G ( x , t ) ) 1 = 1 ? ( G ( x , t ) ) 2 = 0.8 (G(x, t))_1 = 1 ? (G(x, t))_2 = 0.8 (G(x,t))1?=1?(G(x,t))2?=0.8 上预训练 APINN-M 以模拟 MPINN。在APINN-X 和 APINN-M 中,所有网络的宽度均为 20。门网络、子PINN网络和共享网络的层数分别为 2、4 和 5,总共有 6945 个参数。对于具有四个子域的 APINN,在函数 ( G ( x , t ) ) i = u i ( x , t ) / ( ∑ i = 1 4 u i ( x , t ) ) (G(x, t))_i = u_i(x, t)/(\sum^4_{i=1} u_i(x, t)) (G(x,t))i?=ui?(x,t)/(∑i=14?ui?(x,t)) 上预训练 APINN4-X 的门网络 G G G,其中 u 1 ( x , t ) = exp ? ( t ? 2 ) , u 2 ( x , t ) = exp ? ( ? ∣ t ? 1 3 ∣ ) , u 3 ( x , t ) = e x p ( ? ∣ t + 4 3 ∣ ) , u 4 ( x , t ) = e x p ( ? 3 ? t ) u_1(x, t) = \exp(t ? 2), u_2(x, t) = \exp(?|t ? \frac 1 3 |), u_3(x, t) = exp(?|t + \frac 4 3 |), u_4(x, t) = exp(?3 ? t) u1?(x,t)=exp(t?2),u2?(x,t)=exp(?∣t?31?∣),u3?(x,t)=exp(?∣t+34?∣),u4?(x,t)=exp(?3?t),模仿 XPINN。此外,在函数 ( G ( x , t ) ) 1 = 0.8 (G(x, t))_1 = 0.8 (G(x,t))1?=0.8 和 ( G ( x , t ) ) 2 , 3 , 4 = 1 15 (G(x, t))_{2,3,4} = \frac 1 {15} (G(x,t))2,3,4?=151? 上对 APINN4-M 进行预训练,以模仿 MPINN。 APINN4-X 的预训练门函数如下图所示。在 APINN4-X 和 APINN4-M 中, h h h 和 G G G 的宽度为 20,而 E i E_i Ei? 的宽度为 18。门网络、子 PINN 网络中的层数、共享网络分别为2、4、3个,总共 7046 个参数。
Boussinesq-Burger 方程的结果如上表所示。报告的相对 L2 误差是 10 次独立运行的平均值,被选择为最后 10% epoch中训练损失较小的 epoch 的误差。主要观察结果如下。
上图中对具有两个子网的 APINN 以及 APINN4-X 和 APINN4-M 收敛后具有类似相对 L 2 L_2 L2? 误差的几个代表性优化门控网络进行了可视化。请注意,此 Boussinesq-Burger 方程的方差较小,因此这些模型具有相似的性能。关键的观察结果是优化后的门网络保持了初始化时的特性,特别是对于 APINN-M。具体来说,对于 APINN-M,优化后的门网络与初始化相比没有太大变化。对于APINN-X,虽然子域之间的界面的位置和斜率发生了变化,但优化后的APINN-X仍然将整个域划分为从上到下的四个部分。因此,有以下结论。
此外,下图在 Boussinesq-Burger 方程中可视化了所有子网的门控网络的优化轨迹,其中每个快照都是 epochs = 0、10、20、30、40 和 50 处的门控网络。变化是快速且持续的。
本文提出了增强物理信息神经网络(APINN)方法,该方法采用门网络进行软域划分,可以模拟硬扩展 PINN(XPINN)域分解,并且可对门网络训练和微调。满足统一划分性质的门网络对多个子网络进行平均作为APINN的输出。
感觉就是将 FBPINN 中的门函数换为了可训练的网络,以对域分解方法进行微调。
相关链接: