很多人在完成升学考试后便很少参与公式推导这种数学锻炼,导致大家对数学公式避之不及。事实上,很多经典的神经网络框架正是基于简单、直观的数学推导搭建的。本文将要介绍的 EGNN (2021 ICML) 正是其中之一。
EGNN 的诸多作者中并没有长期从事 AI for Science 的研究员。第一通讯 Max Welling 是被引 10w+ 的传统 AI 领域大牛,第一作者 Victor Garcia Satorras 在发完这篇后,似乎没再发过有影响力的作品。倒是第二作者 Emiel Hoogeboom 在这篇论文后发布了鼎鼎大名的 EDM 。由于 EDM 中使用的表征模型正是 EGNN,所以 EGNN 被计算机领域的各路大神奉为圭臬,尤其是各种各样的扩散生成模型,其表征框架一般都是 EGNN。因此说,EGNN 是当下扩散模型的宠儿一点不为过。
在阅读 EGNN 论文时,能明显感觉到作者是行外玩家,行文逻辑中看不到一点化学、物理含义,就是拼凑各种网红关键词的裁缝作品。比如,作者说自己的网络是一个等变网络,就在标题里大大方方写上 Equivariant 。各种引文在引用这篇文章时也不分青红皂白,直接说这是一个等变网络。这里想吐槽下,传统 AI 会议论文有时候真的就是直白、逻辑简单。因为 AI 发展到今天更像是一个搭积木的游戏。很多行外人其实并不关心积木本身是怎么样的,他们大多只是听到一些关键词,比如,等变,等变的好,我就找一个等变的模型,大家都用 EGNN,我也用 EGNN,没了。
OK,闲话少说,咱们进入正题
使用数学公式清晰、准确的描述先有框架是理性设计新模型的基础。在 EGNN 中,作者首先对 GNN 进行了公式化描述:
作者将图神经网络的工作流程划分成了三段:
作者随后对常见神经网络进行公式化,例如,Schnet 如下:
我们对应下之前的解析:
可以看到,schnet 框架被精准解析,该框架在后两步消息聚合和隐变量迭代跟传统 GNN 并无区别,只是在第一步制备消息时加了一个平滑的激活函数
?
c
f
\phi_{cf}
?cf?。
在对前人工作进行总结之后,EGNN 作者们变开始着手设计等变网络,其设计思路可谓是简单粗暴。
首先,等变是什么?可以参考前一篇文章
简单来说,当分子的输入坐标进行旋转时,分子中原子受力等性质也会随着坐标的旋转而旋转。
那么,为什么之前那么多模型不是等变的呢?
作者指出,之前的模型只用了原子间距离,这是一个标量啊,不会随分子旋转而发生变化。
那怎么把距离信息转化成有方向的矢量呢?作者提出了和 PAINN 同样的思路:使用向量。
但是实操起来,非常简单粗暴,直接把原子坐标信息加到了神经网络的迭代过程中。说实话,看到这里呆住了。不愧是计算机大佬。没那么多弯弯绕。读过我的 PAINN解析 的朋友可能还记得,PAINN 讲了一个非常物理、有深度的故事,一步步将向量引入进来。EGNN 的行文逻辑太简单了: