
Multi-modal Queried Object Detection in the Wild

Multi-modal Queried Object Detection in the Wild

NeurIPS 2023, 2024-03-18 기준 6회 인용


  • Object Detection
  • Multi-modal


  • Vision-language (VL) detection foundation models 에서 multi-modal queries 를 사용하는 구조 제안
  • Multi-modal Queried object Detection (MQ-Det) 제안
  • Gated Class-scalable Perceiver (GCP) 모듈을 제안
  • Paving a new path to the object detection in the wild

Proposed Method


제안하는 방법의 overview

Language-queried detection model (GLIP)


GLIP 을 baseline 으로 하고 있다

Architecture design


(a) - Prompt-based desings (e.g., CoOp)
(b) - two-branch few-shot detection architectures (e.g., FCT)
(c) - 본 논문에서는 (a), (b) 에 대하는 것을 모두 가져가겠다

Gated Class-scalable Perceiver (GCP)


visual queries 정보와 text queries 의 정보간 관계를 파악


categories $C$ 마다 $k$ exemplars 를 통해서 visual queries 를 생성

visual queries 를 Image Encoder 통과시킨 feature 를 query 로 사용
Image 전체가 Iamge Encoder 를 통과시킨 feature 를 key, value

그 다음에 text feature 를 query, 위에서 연산된 visual feature 를 key, value
Cross-Attention -> text token에 따른 multi views 효과

Conditional Gate
three-layer perceptron (MLP) 으로 learnable scalar 생성
$\hat v_i$ 로 부터 구해서 $\hat v_i$ 에 곱해주고 원래 text feature 에 더해준다

Modulated pre-training

Vision query extraction


각 category 별로 $K$ 개의 vision queries 를 bank $D$ 에 저장
each forward process 마다 $k$ 개 random select
$K = 5000, k =5$

Training upon frozen pre-trained language-queried detectors

Full model 을 학습할 경우 catastrophic forgetting 문제가 발생

full-model training on a limited number of categories faces the risk of catastrophic forgetting

Vision conditioned masked language prediction

gated architecture will rapidly converge around the initial optimum point

visual queries 의 영향이 크지 않고 결국 initial optimum point 로 돌아갈 것이다
-> 나머지들이 fix 되어 있기 때문에


text queries 중에서 random 으로 [MASK] 처리
mask 처리된 곳이 visual queries 의 영향을 크게 맞으면서 학습될 것이다

Experimental Results


MQ-GLIP-T-Img 는 query 로 visual query 만 역할하도록 설계
Text queries 를 모두 [MASK] 로 처리

This post is licensed under CC BY 4.0 by the author.