
Rank-DETR for High Quality Object Detection

Rank-DETR for High Quality Object Detection

NeurIPS 2023, 2024-02-02 기준 3회 인용


  • Object Detection
  • DETR


  • 최종 detection results 를 사용할 때 top-ranked predictions 을 사용
  • 하지만 localization quality 와 classification scores 간의 misalignment 문제가 존재
  • Rank-oriented designs 를 제안함으로써 false postivie rates 와 false negative rates 를 줄임

Proposed Method


Rank-oriented Architecture Design: ensure lower FP and FN

Decoder Layer 전에 Query Rank Layer 를 후에는 Rank-adpative Classification Head 를 구성
이를 통해서 false positive 와 false negative를 줄였다

Rank-adaptive Classification Head

adding a set of learnable logit bias vectors


classification MLP 를 통과하고 나온 score 값에 bias 로 더해준다

$S^l = {\text{s}^l_1, \text{s}^l_2, \text{s}^l_3, …, \text{s}^l_n }$
learnable logit bias vectors

$Q^l={\text{q}^l_1, \text{q}^l_2, · · · , \text{q}^l_n }$
Decoder Layer 를 통과한 embedding 값

This is practicable because the associated $Q^l$ has already been sorted in the query rank layer

Query rank layer 에서 이미 정렬이 되었기 때문에 bias 를 바로 더해주는 것이 가능하다고 설명

Query Rank Layer

$L-1$ Deocder Layer 결과를 활용


$\hat{P}^{l-1} = \text{MLP}_{cls}(Q^{l-1}_c)$
$\hat{P}^{l-1}$ 는 $K$-dimensional vector
$K$ 는 categories 수

$K$ categoreis 의 score 에 대해서 maximum value 를 사용하여 sorting
그 후 기존의 content query 에 concatenate

Rank-oriented Matching Cost and Loss: boost the AP under high IoU thresholds


GIoU-aware Classification Loss


target 을 아래와 같이 설계
$t=(\text{GIoU}(\hat{\text{b}}, \text{b})+1)/2$


VFNet Loss 랑 매우 유사한데 수식적으로만 비교해주고 성능적으로 비교하는 부분은 찾지 못함

High-order Matching Cost

Hungarian algorithm 에 대한 matching cost 를 부여하는 부분을 변경


classification score 에 IoU 를 곱한 형태

Experimental Results


다른 DETR 방법들과 비교했을 때 제안하는 방법의 성능이 제일 좋다


H-DETR (DETRs with hybrid matching )에 적용했을 때의 결과


DINO 에 적용했을 때의 결과


각 components 에 따른 ablation study
어떠한 특정 component 가 critical 한 성능 향상을 가져다 주는 것 같지는 않다
각 모듈들의 성능 향상이 조금씩 모인 느낌


target 값 설정에 따른 비교 분석 실험


Hungarian algorithm 의 matching cost 에 따른 비교 분석 실험

This post is licensed under CC BY 4.0 by the author.