
SimPLR: A Simple and Plain Transformer for Object Detection and Segmentation

Under Review ICLR 2024, 2024-02-21 기준 0회 인용 (Withdraw 한 것 같음)


  • Object Detection
  • DETR


  • Multi-sacle feature 를 사용하는 것이 성능 향상에 좋지만 꼭 필요할까?
  • Plain Backbone Vision Transformer (ViT) 를 사용, Feature pyramids 는 필요없다
  • Sacle-aware attention 을 제안하여 SimPLR 을 제안


Feature scale 과 object size 와의 correlation 은 크다
그렇기에 기존의 방법들은 single-scale 만 사용했을 때 성능은 multi-scale 일때보다 떨어진다

본 논문에서 제안하는 방법은 scae-ware attention 을 적용시켜 single-scale 에서도 좋은 성능을 보여준다

Proposed Method

Background (BoxeR)

BoxeR 에서 제안한 box-attention mechanism 을 strong baseline 으로 사용


reference windows 를 transform 해서 사용하겠다는 수식
(본 논문에서의 거의 유일한 수식..)

Single-scale detector


Multi-scale feature 를 만들어서 사용하는 것이 아닌 single-scale 으로만 설계

Scale-aware attention

Box-Attention 을 그대로 사용

저자들은 아래와 같이 설명

  • 각 query 마다 reference windows 를 만들고 mutli-head attention
  • reference windows transform 하면서 attention 하니까 여러 scale, translation 을 고려

-> 그러니 scale-aware mechanisms 이다!

하지만 Box-Attention 에서 reference windows 를 transform 하더라도 전체 size 자체는 고정되어있고 조금씩 움직이는 것이기 때문에 여러 scale 의 object 를 커버해주지는 못한다

While this behaviour may not impact the multi-scale box-attention

그래서 두 가지 scale attention 을 제안

  1. Fixed-Scale Attention
    • 단순하게 그전에는 고정된 사이즈의 reference windows 를 사용했더라면 $m$ 개의 다른 scale 의 reference windows 를 사용
    • $w=h \in {s \cdot 2^j }^{m-1}_{j=0}$
    • 최소 size $s$ 로부터 키워나가는 방식
    • $m$ 개의 scale 에 대한 reference windows 들을 $n$ 개의 multi-head 에 uniform 하게 배분
  2. Adaptive-Scale Attention
    • Fixed-Scale Attention 과 거의 동일
    • query vector 로 부터 $m$ 개의 scale 에 대한 attention weights 를 prediction
    • small object 는 fine-grained scale 의 reference windows를 더 보도록 설계

Experimental Results


single-scale 로 해더 성능차이가 크지 않다


Ablation study & Adative-scale attention 에서의 각 scale과 검출된 object 크기에 따른 수


다른 방법들과 비교했을 때 성능이 비교할만 하다

