Accelerating DETR Convergence via Semantic-Aligned Matching

Posted Apr 19, 2024

By Geonu-Lee 2 min read

Accelerating DETR Convergence via Semantic-Aligned Matching

CVPR 2022, 2024-04-19 기준 78회 인용

Task

Object Detection
DETR

Contribution

기존의 DETR 들에서 encoded image feature와 object query 가 cross-attention 하는 부분이 문제가 있다고 지적
encoded image feature 와 object query 의 semantic embedding spaces 가 서로 다르다 → slow convergence
Semantic-Aligned-Matching DETR (SAM-DETR) 구조를 제안
- Cross-Attention 전에 align을 맞춰주는 모듈을 추가
- Encoded image feature, Object queries, reference boxes 들을 활용
SAM 구조를 SMCA-DETR (Spatially Modulated Co-Attention) 에 적용해서 성능을 향상

Proposed Method

기존의 방법들보다 convergence가 빠르다
SMCA 에 붙이면 더 좋다

A Review of DETR

본 논문에서는 cross-attention 부분을 matching & Distillation 으로 나눠서 설명
Encoder feature 와 Object query 와의 연산으로 attention weight map 을 만드는 부분을 matching
해당 attention weight map으로 encoder feature (value) 에 연산하는 부분을 Distillation
Figure 2에서 볼 수 있듯이 각 쿼리에 대한 attention weights는 관련있는 Region에 값이 커진다
하지만 기존의 방법은 initialization 으로 부터 relevant regions을 찾아 매칭하기 위해서는 많은 학습이 필요하다.