Post

FS-DETR: Few-Shot DEtection TRansformer with Prompting and without Re-Training

FS-DETR: Few-Shot DEtection TRansformer with Prompting and without Re-Training

ICCV 2023, 2024-04-17 기준 11회 인용

Task

  • Object Detection
  • Few-Shot Learning

Contributions

  • fine-tuning free, re-training free Few-Shot DEtection TRansformer (FS-DETR) 을 제안
  • Template encoding 과 Pseudo-class embedding 구조를 제안

Proposed Method

Practical perspective
(1) without requiring any fine-tuning at test time
(2) be able to process an arbitrary number of novel objects concurrently while supporting an arbitrary number of examples from each class
(3) achieve accuracy comparable to a closed system

alt

$C = C_{novel} \cup C_{base}$
$C_{novel} \cap C_{base} = \emptyset$

학습에는 base class 데이터만 사용
Test 는 학습에 사용되지 않은 데이터인 novel class 데이터로 진행
(novel 과 base 간에는 같은 object category 일지라도 다른 이미지일 경우 다른 class)

$O \in \mathbb{R}^{N \times d}$

기존 DETR 은 object queries $O$ 를 사용 → prompts (closed-set detection)

Method

provide novel classes’ templates as additional visual prompts in order to condition and control the detector’s output

Template encoding

$T_{i, j} \in \mathbb{R}^{H_p \times W_p \times 3}$

$i$ - 1~m, $j$ - 1~k
m - class 개수, k - class 당 example 수
m x k 개 만큼 template 을 뽑는다
같은 category 에 있는 다른 이미지의 object 를 crop

X = CNN(T)

backbone 인 CNN을 태운다 → average pooling → mk x d

Templates as visual prompts

$\text{C}^s \in \mathbb{R}^{mk \times d}$

pseudo-class embeddings
initialised normal distribution and learned during training

alt

template image 의 feature 에 pseudo-class embeddings 을 더해준다

alt

templates 를 visual prompt 로 여기고 기존의 object queries와 concatenate

FS-DETR encoder

alt

encoder 부분에 MHCA(Multi-Head-Cross-Attention) 을 추가
image featured와 template와 cross-attention

FS-DETR decoder

alt

alt

alt

$(mk + N) \times d$ 에서 $mk \times d$ 따로 $N \times d$ 따로 MLP 하고 concat

FS-DETR training and loss functions

alt

set prediction 할때에는 $V_O$ 만 사용
즉, $N \times d$ 에 해당하는 부분만 마지막 head를 통해서 set prediction
visual prompt 는 object query와 함께 self-attention 되고 cross-attention 되는데 사용 되서 template image의 정보를 파악할 수 있게 해준다 라고 이해

Experimental Results

k-shot setting

alt

PASCAL VOC dataset에 대한 실험 결과

alt

COCO dataset 에 대한 실험 결과

This post is licensed under CC BY 4.0 by the author.