Post

Sparse R-CNN: End-to-End Object Detection with Learnable Proposals

Sparse R-CNN: End-to-End Object Detection with Learnable Proposals

CVPR 2021 , 2024-04-03 기준 973회 인용

Task

  • Object Detection

Contributions

  • propose purely sparse method for object detection in images
  • 이전 방법들은 완전한 sparse 방법이 아니다
    • Faster R-CNN : anchor box 의 size 와 ratio 같은 요소들로 인해 density 정도가 차이나고 그에 따라 결과 차이가 크다 –> 즉, sensitive to heuristic assign rules
    • DETR : N개의 object query 와 이미지의 global feature 가 interact 해야하므로 pure sparse가 아니다

alt

alt

DETR 은 학습시간도 오래걸린다
기존의 Dense 한 방법들과 비슷한 학습 시간에 더 좋은 성능을 보여준다

Proposemd Method

alt

Sparse box - N개의 learnable proposal box ( N X 4 )
Sparse features - N개의 learnable proposal features ( N X C ) C = 256

Dynamic instance interactive head
learnable proposal features 를 활용해서 sparse box로 구해진 ROI feature 와의 interaction

ROI feature will interact with corresponding proposal features to filter out ineffective bins and outputs the final object feature

학습 과정 (2~7 과정을 k 번 반복)
Backbone feature extractor 로부터 feature 추출
N 개의 proposal box를 통해서 RoI feature 얻기
Proposal feature 를 self-attention → object 간 관계 파악
Proposal feature를 통해서 2개의 1x1 convolution weight 생성
RoI feature를 2개의 convolution 에 통과
classification layer, bounding boxes layer 통과
예측된 bboxes, proposal features 를 다음 stage 입력으로 사용

alt

k-번째 dynamic instance interaction pseudo-code (3~5 번 과정)
proposal features를 활용해서 2개의 1x1 convolution weight를 만든다
만들어진 convolution weights를 통해서 roi features에 적용

alt

Inference
N 개를 그대로 사용 (100개)
학습과정에서 no object ground truth 랑 매칭 되면서 이미지에 없는 애들은 no object 로 prediction 될 것

Experimental Results

alt

Sparse R-CNN-R50 > Faster R-CNN-R50, Faster R-CNN-R101
*은 learnable proposal box를 300개 사용, random crop augmentation 추가

alt

COCO 2017 test-dev set 결과
Test-time augmentation (TTA) 적용시에도 성능 향상

This post is licensed under CC BY 4.0 by the author.