YOLOv8改进 更换层次化视觉变换器的网络结构

发布时间:2024年01月12日

一、SwinTransformer论文

论文地址:arxiv.org/pdf/2103.14030.pdf

二、 SwinTransformer网络结构

SwinTransformer是一种基于transformer的图像分类网络结构。SwinTransformer是由微软亚洲研究院提出的,其特点是具有高效的计算和参数效率。

SwinTransformer的网络结构主要包括以下几个部分:

图片块划分:将输入的图片划分成多个非重叠的小块。

窗口分区:将小块按照一定的窗口大小进行分区。每个分区由一个可学习的线性变换独立处理。

深层网络:每个分区的特征经过深层网络处理,得到更高级别的特征表示。

跨窗口连接:不同分区之间通过跨窗口连接(window-based token mixing)进行信息交流,以增强特征的表达能力。

注意力机制:使用transformer中的多头自注意力机制,对输入的特征进行加权融合和信息交互。

分类头:在顶层引入一个全局的平均池化操作,产生图像级别的特征表示?

文章来源:https://blog.csdn.net/zmyzcm/article/details/135367558
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。