BotNet:CNN与Transformer结合的backbone.

本文提出一个用于图像任务的backbone网络:BotNet。该网络没有用Transformer完全取代卷积网络,而是把ResNet中的$3 \times 3$卷积替换为Multi-Head Self-Attention (MHSA)

替换前后的网络结构对比(ResNet50BotNet50):

替换后的网络性能有所提升:

引入的MHSA层结构如下图所示,相较于non-local网络增加了位置编码,更接近NLP中的自注意力操作:

值得一提的是,考虑到自注意力机制的计算量与内存占用问题,只在最小分辨率特征阶段添加自注意力模块。实验证明这类混合模型可以同时利用卷积与自注意力的特性,取得优于纯注意力模型的效果。