Post

DETR Does Not Need Multi-Scale or Locality Design

DETR Does Not Need Multi-Scale or Locality Design

ICCV 2023, 2024-04-15 기준 6회 인용

Task

  • Object Detection
  • DETR

Contribution

  • 최근 많은 DETR 기반 방법들에서 사용하고 있는 multi-scale 방법과 Locality constraint 방법들이 필요없다
  • single scale feature 만 사용하는 Improved “Plane“ DETR 방법을 제안
  • Masked image modeling (MIM) -based backbone network 사용
  • Box-to-pixel relative position bias (BoxRPB) 제안

Proposed Method

alt

기존 DETR 에 비해 큰 향상을 보여줌
multi-scale 과 locality design 을 사용하는 deformable detr 에 비해서도 향상됨

Enhanced Plain DETR baseline

기존의 여러 DETR 기반 연구들에서 제안된 기법들을 적용

alt

MTE - Merging Transformer encoder into the backbone
FL - Focal Loss
IR - Iterative refinement
TS - Two-stage
LFT - Look forward twice → DINO
MQS - Mixed query selection → DINO
HM - Hybrid matching

Box-to-Pixel Relative Position Bias

alt

기존 DETR 의 cross-attention 연산 과정

alt

Relative Position Bias (RPB) 를 추가
일반 RPB 와 다른점은 box 정보를 활용

Naive BoxRPB implementation

left-top, right-bottom 과의 relative position 사용

alt

K x H x W x 4 → K x H x W x 256 → K x H x W x M

M = number of attention head

Decomposed BoxRPB implementation

alt

alt

연산 효율을 위해서 x, y 를 따로 진행
K x W x 2 → K x W x 256 → K x W x M
K x H x 2 → K x H x 256 → K x H x M

Masked image modeling (MIM) pre-training

Masked image modeling 방법중 SimMIM pre-trained weights를 사용
Swin-Transformer 사용

Bounding box regression with re-parameterization

기존의 DETR 학습방식은 large objects가 loss에 주는 영향이 큼

alt

$l-1$ decoder layer의 예측된 bounding box 정보를 활용해서 re-parameterization

Experimental Results

다른 방법들과 비교하기보단 Ablation study 로 각각의 방법의 효과를 입증하는 방향

alt

BoxRPB, MIM, parameterization 에 대한 ablation study

alt

box relative position bias 에 대한 ablation study

alt

alt

MIM pre-training 에 대한 ablation study

This post is licensed under CC BY 4.0 by the author.