Post

AlignDet: Aligning Pre-training and Fine-tuning in Object Detection

AlignDet: Aligning Pre-training and Fine-tuning in Object Detection

ICCV 2023, 2024-01-23 기준 1회 인용

Task

  • Object Detection
  • DETR

Contribution

  • 기존의 방법들은 pre-training 과정과 fine-tuning 과정이 서로 불일치하는 문제가 존재한다
  • data, model, task 관점에서 discrepancies 가 존재한다
  • Pre-training 과정을 image-domain 과 box-domain 으로 two-stage 로 나눈 구조를 제안
  • 제안하는 방법을 다양한 Detector 에 적용할 수 있으며, 유의미한 성능향상을 보여준다

Motivation

alt

  • Data Discrepancy
    • Pre-training 에서 학습에 사용되는 데이터셋은 ImageNet과 같이 하나의 Object가 중심이 데이터셋을 활용
    • Fine-tuning 에서는 Multi-object 들이 존재하는 데이터셋을 활용
  • Model Discrepancy
    • Pre-training 과정에서는 Backbone 만 학습하고 Detector 에서 중요한 Neck&Head는 random initialization 되고 Fine-tuing
  • Task Discrepancy
    • Pre-training 에서는 classification task 로 학습되기 때문에 object detection 에서 필요한 object-aware positional context 정보를 포함하지 못함

alt

Data, object, model discrepancies 를 해결하는 방법을 제안

  • Image-domain pre-training
  • Box-domain pre-training
  • 다양한 Detector 에 적용할 수 있는 Generalization 도 갖추었다

Proposed Method

alt

Image-domain Pre-training

optimizes the backbone to extract high-level semantic

ImageNet 데이터셋으로 backbone 부분만 pre-training
supervised 로 진행하거나 self-supervised 으로 학습

Box-domain Pre-training

Selective search 으로 물체 위치를 대략적으로 예측
두 가지 view 로 augmentation -> Figure 3 에서의 $P_1, P_2$

alt

$P_1, P_2$ 를 GT로 두고 Online Detector $f_q$ 와 Momentum Detector $f_k$ 으로 얻어지는 prediction box 를 matching -> IoU 를 기준으로

Box-domain Contrastive Learning

alt

Contrastive Learning 을 위해 feature 를 추출한다

alt

Positive set 와 Negative set 을 구한다
Eq 3. 에서 아무리 봐도 $z \in Z_1$ 이 $z \in Z_2$ 가 되어야할 것 같다..

alt

하고 issue 를 찾아보니 오타라고 한다

Overall Loss

alt

Regression Loss 는 Online Detector $f_q$ 의 prediction 결과와 $P_1$ 에 대해서 연산

alt

Experimental Results

alt

여러 Detector 방법들에 대해서 제안하는 pre-training 을 진행
1%, 5%, 10%, 20%, 100% 는 COCO 데이터셋에서 샘플링 비율\

To avoid over-fitting and demonstrate the advantage of faster convergence

제안하는 방법을 적용했을때 성능이 향상

alt

Mask R-CNN 에서 여러 backbone 에 대해서 적용해보았을 때
CVNet v2 에도 적용했을 때 성능 향상

alt

Pascal VOC 에 Transfer learning 해보았을 때도 성능 향상

This post is licensed under CC BY 4.0 by the author.