目录
参考论文:https://arxiv.org/abs/2304.08069
github相关链接:https://github.com/lyuwenyu/RT-DETR
T-DETR是第一个实时端到端目标检测器。具体而言,我们设计了一个高效的混合编码器,通过解耦尺度内交互和跨尺度融合来高效处理多尺度特征,并提出了IoU感知的查询选择机制,以优化解码器查询的初始化。此外,RT-DETR支持通过使用不同的解码器层来灵活调整推理速度,而不需要重新训练,这有助于实时目标检测器的实际应用。RT-DETR-L在COCO val2017上实现了53.0%的AP,在T4 GPU上实现了114FPS,RT-DETR-X实现了54.8%的AP和74FPS,在速度和精度方面都优于相同规模的所有YOLO检测器。RT-DETR-R50实现了53.1%的AP和108FPS,RT-DETR-R101实现了54.3%的AP和74FPS,在精度上超过了全部使用相同骨干网络的DETR检测器。?
RT-DETR采用了多尺度的Transformer Encoder(MSE),这是其设计的核心。它能够处理不同尺度的特征,实现了特征间有效的信息交互和融合,这对于提升模型的检测精度至关重要。RT-DETR通过这种方式优化了传统DETR模型中的特征处理方法,显著提高了处理速度和精度.
RT-DETR采用了高效的混合编码器设计,这一设计包括两个主要部分:基于注意力的尺度内特征交互(AIFI)和基于CNN的跨尺度特征融合模块(CCFM)。这种创新的结构设计使得RT-DETR能够在维持高精度的同时,显著提升处理速度??。
另一个关键的创新是IoU-aware查询选择机制。这一机制能够在训练期间对高IoU的特征产生高分类分数,对低IoU的特征产生低分类分数,从而优化模型的检测性能。这种方法改进了传统DETR中的查询选择方式,提高了预测框的准确性????。
在性能方面,RT-DETR展示了卓越的结果。例如,RT-DETR-L在COCO val2017数据集上达到了53.0%的AP(平均精度),同时在T4 GPU上实现了114 FPS(每秒帧数),这证明了其在实时目标检测领域的强大性能【8?source】。
RT-DETR的官方GitHub项目提供了详细的代码和使用说明,方便研究人员和开发者进行实验和应用。这个项目不仅包括代码实现,还有关于如何使用和调整RT-DETR模型的详细指南【5?source】。
Model | Epoch | Input shape | Dataset | AP^val | AP^val_50 | Params(M) | FLOPs(G) | T4 TensorRT FP16(FPS) |
---|---|---|---|---|---|---|---|---|
RT-DETR-R18 | 6x | 640 | COCO | 46.5 | 63.8 | 20 | 60 | 217 |
RT-DETR-R34 | 6x | 640 | COCO | 48.9 | 66.8 | 31 | 92 | 161 |
RT-DETR-R50-m | 6x | 640 | COCO | 51.3 | 69.6 | 36 | 100 | 145 |
RT-DETR-R50 | 6x | 640 | COCO | 53.1 | 71.3 | 42 | 136 | 108 |
RT-DETR-R101 | 6x | 640 | COCO | 54.3 | 72.7 | 76 | 259 | 74 |
RT-DETR-HGNetv2-L | 6x | 640 | COCO | 53.0 | 71.6 | 32 | 110 | 114 |
RT-DETR-HGNetv2-X | 6x | 640 | COCO | 54.8 | 73.1 | 67 | 234 | 74 |
RT-DETR-R18 | 5x | 640 | COCO + Objects365 | 49.2 | 66.6 | 20 | 60 | 217 |
RT-DETR-R50 | 2x | 640 | COCO + Objects365 | 55.3 | 73.4 | 42 | 136 | 108 |
RT-DETR-R101 | 2x | 640 | COCO + Objects365 | 56.2 | 74.6 | 76 | 259 | 74 |