Post

TR-DETR: Task-Reciprocal Transformer for Joint Moment Retrieval and Highlight Detection

TR-DETR: Task-Reciprocal Transformer for Joint Moment Retrieval and Highlight Detection

AAAI 2024, 2024-03-18 기준 0회 인용

Task

  • Video moment retrieval
  • Highlight detection

Contributions

  • Video Moment Retrieval (MR), Highlight Detection (HD) 을 동시에 해결
  • DETR-based method 로 두 가지 task 다룸
  • Task-reciprocal transformer based on DETR (TR-DETR) 구조를 제안

Proposed Method

alt

Feature Extraction

비디오를 2s 간격으로 안겹치기 나누어서 사용

CLIP 을 통해서 visual feature extraction
$F_v = [f^1_v,f^2_v, …, f^L_v] \in \mathbb{R}^{L \times d_v}$

“UMT: Unified Multi-modal Transformers for Joint Video Moment Retrieval and Highlight Detection”
위 논문에서 제안된 방법을 기반으로 audio feature extraction
$F_a \in \mathbb{R}^{L \times d_a}$

natural language query 를 위해서 CLIP textual encoder 사용
$F_t = [f^1_t,f^2_t, …, f^N_t] \in \mathbb{R}^{N \times d_t}$

Local-Global Multi-Modal Alignment

visual feature 와 textural feature 에 대한 alignment

Local regulator

각 clip 별로 text 와 관련있는 feature 만 고려할 수 있도록

alt

동일한 dimension 으로 조절

alt

similiarty matrix 를 연산

alt

Moment Retrieval (MR) 에 있는 정보 활용
text query 와 clip 간의 relevant 있는 경우 1, 없는 경우 0

Global regulator

전체적인 semantic space 가 가까워지도록

alt

$G^i_v$ 는 $\hat F_v$ 의 모든 clip feature 를 average
$G^i_t$ 는 $\hat F_t$ 의 모든 word feature 를 average

Visual Feature Refinement for Modal Interaction

visual feature 와 textual feature 간 interaction 을 한번 더 강화

alt

visual feature 와 textual feature 에 대해서 similarity matrix 생성

alt

$A_r$ - row 방향으로 softmax
$A_c$ - column 방향으로 softmax

$F_{v2q}$ - visual 에 대한 값들을 textual feature 에 곱
$F_{q2v}$ - textual 에 대한 값들을 visual feature 에 곱

alt

구해진 feature 들을 concatenate 하고 Linear Layer 통과
$F^G_t$ 는 textual global features 를 단순히 copying 해서 $\mathbb{R}^{L \times d}$ 로 만든 것

그러고 한번 더 textual feature 랑 cross-attention 진행

alt

Task Cooperation

Highlight score 는 MR 하는데 도움을 줄 수 있다
MR 의 결과 또한 Highlight score 예측에 도움을 줄 수 있다

alt

Multi-head attention, Linear 를 통해서 Highlight score 를 예측

alt

기존에 있던 feature $Z$ 에 연산하고 MHA 를 통해서 강화된 feature $\hat Z$ 를 연산
해당 값을 Transformer Decoder 입력으로 사용해서 MR 결과를 prediction

alt

gated recurrent unit (GRU) 를 통해서 global information 을 포함하는 feature를 연산
$m$ 은 MR 에서 예측된 moment
$\hat F_v$ 에서 해당 moment의 feature

alt

alt

moment 에 해당하는 feature 와 전체 clip 에 대한 feature 와 correlation 을 연산
이를 기반으로 Highlight score 를 refine

Experimental Results

alt

Moment Retrieval (MR) 과 Highlight Detection (HD) 에 대한 실험 결과

alt

Highlight score 를 visualization
제안하는 TR-DETR 은 높은 threshold 를 사용

alt

TVSum 데이터셋에 대해서 Highlight score 와 GT 와 visulaization

This post is licensed under CC BY 4.0 by the author.