Vision Transformer Explained | Papers With Code
在cnn中处理的不太好,但是在transformers 都能处理的很好的例子。
Intriguing Properties of Vision Transformers | Papers With Code
AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE
理解一下:把每个图片都切分为16*16的patch
他们工作 证明了在一个标准的大规模数据集上做预训练的话, 是可以不用做其他更多的修改,就可以很好的迁移到其他场景。