Cascade-DETR: Delving into High-Quality Universal Object Detection
ICCV 2023, 2024-04-12 기준 8회 인용
- Object Detection
- 기존의 방법들은 다양한 도메인들에 약하다
- object-centric attention 을 하는 Cascade Attention 구조를 제안
- Classification confidence score를 사용하는 것보다 expected IoU를 사용하도록 하는 IoU-aware Query Recalibration 제안
- 여러 도메인의 데이터셋을 모은 데이터셋 제안
기존의 방법 Faster R-CNN, DN-DETR 경우 실제 세계와 같은 다양한 도메인에서 성능이 많이 하락
Existing DETR-based methods still have substantial room for improvement.
성능이 향상될 공간이 존재한다
Proposed Method
Cascade Attention
Cascade 모양으로 attention module를 설계
이전 decoder layer 에서의 prediction box 값을 활용
이전 레이어에서 prediction 된 box 내부만 cross-attention 진행
First 레이어에서는 DAB (Dynamic anchor box) DETR 에서 제안한 learnable anchor box를 사용
cross-attention region $S_i$ not only brings object-centric bias, but will also be iteratively refined
cross-attention region 은 object-centric bias 와 iteratively regined 효과가 있다
기존의 방법은 Cityscapes 데이터셋에서 특정 object를 attention 하지 못하는 문제가 있다
IoU-aware Query Recalibration
computing final detection results, classification confidence is adopted as a surrogate to rank all query proposals
최종 detection results를 위해서 classification confidence 값들이 판단 기준이 된다
However, the classification score does not explicitly account for the accuracy of the predicted bounding box
이를 해결하기 위해 IoU-aware scoring 을 제안
query $q$ 와 groundtruth box에 대한 expected IoU 를 구하는 것
별도의 Linear Layer 로 expected IoU를 연산
최종 스코어는 expected IoU score와 classification confidence score를 같이 사용 (마지막 layer에 대해서만)
Upper bound - 실제 GT 와의 IoU 값을 기반으로 sorting
Baseline - classification confidence score 로 sorting
Cascade - expected IoU score 로 sorting
UDB10 Dataset
제안이라기 보다 기존의 데이터셋들 조합
10개 데이터셋을 모음
Domain Generalization & Adaptation 이 아니라 각각 학습하고 평가
Experimental Results
COCO 데이터셋 결과
UDB 10 데이터셋 결과