自注意力网络已经在自然语言处理领域取得了革命性的进展,并在图像分析任务(如图像分类和目标检测)中取得了令人瞩目的成就。受到这一成功的启发,我们研究了将自注意力网络应用于三维点云处理的可能性。我们设计了针对点云的自注意力层,并利用这些层构建了用于语义场景分割、对象部分分割和对象分类等任务的自注意力网络。我们的Point Transformer设计在不同领域和任务上都取得了改进。例如,在用于大规模语义场景分割的具有挑战性的S3DIS数据集上,Point Transformer 在Area 5上取得了70.4%的mIoU,优于最强先前模型3.3个百分点,首次突破了70%的mIoU阈值。
我们首先简要回顾一下transformers和自注意力算子的一般公式。然后,我们介绍用于三维点云处理的Point Transformer层。最后,我们呈现了我们用于三维场景理解的网络架构。
Transformers和自注意力网络已经在自然语言处理[39,45,5,4,51]方面取得了革命性的进展,并在二维图像分析[10,28,54,6]中展现了令人印象深刻的结果。自注意力算子可以分为两种类型:标量注意力[39]和矢量注意力[54]。
设 X = {