[논문 리뷰] Referring Transformer: A One-step Approach to Multi-task Visual Grounding
한 단계 트랜스포머 프레임워크를 도입하여 참조 표현 이해(REC)와 분할(RES)을 공동으로 수행하고, 맥락화된 구문 쿼리를 학습하여 바운딩 박스와 마스크로 디코딩한다; 간단한 사전학습으로 최첨단 결과를 달성한다.
As an important step towards visual reasoning, visual grounding (e.g., phrase localization, referring expression comprehension/segmentation) has been widely explored Previous approaches to referring expression comprehension (REC) or segmentation (RES) either suffer from limited performance, due to a two-stage setup, or require the designing of complex task-specific one-stage architectures. In this paper, we propose a simple one-stage multi-task framework for visual grounding tasks. Specifically, we leverage a transformer architecture, where two modalities are fused in a visual-lingual encoder. In the decoder, the model learns to generate contextualized lingual queries which are then decoded and used to directly regress the bounding box and produce a segmentation mask for the corresponding referred regions. With this simple but highly contextualized model, we outperform state-of-the-arts methods by a large margin on both REC and RES tasks. We also show that a simple pre-training schedule (on an external dataset) further improves the performance. Extensive experiments and ablations illustrate that our model benefits greatly from contextualized information and multi-task training.
연구 동기 및 목표
- 시각적 그라운딩을 위한 간단하고 엔드-투-엔드 접근법으로 단일 모델에서 REC와 RES를 통합하는 것을 동기화한다.
- dense proposal 단계와 작업별 아키텍처의 필요성을 제거하기 위해 시각-언어 트랜스포머를 활용한다.
- 맥락화된 구문 쿼리와 다중 작업 학습이 그라운딩 성능을 향상시키는지 탐구한다.
- 외부 데이터에서의 사전학습이 REC와 RES 성능을 더욱 향상시키는지 보여준다.
제안 방법
- 시각-언어 인코더를 사용하여 이미지 특징과 텍스트 맥락을 융합한다.
- 구문 임베딩과 맥락 신호를 통해 구문별 쿼리를 생성하며 학습 가능한 바이어스를 가진 MLP로 한다.
- 다중 작업 트랜스포머 디코더와 교차 모달 어텐션을 사용하여 바운딩 박스(REC)와 분할 마스크(RES)로 디코딩한다.
- 탐지에 대해 L1 및 IoU 손실의 조합으로 REC와 RES를 함께 학습하고, 분할에 대해서는 포컬/다이스 손실을 사용한다.
- 선택적으로 지역-설명 데이터셋에서 트랜스포머를 사전 학습하여 다운스트림 성능을 향상시킨다.
실험 결과
연구 질문
- RQ1dense anchors나 Hungarian 매칭 없이 단일의 한 단계 트랜스포머 모델이 REC와 RES를 함께 처리할 수 있는가?
- RQ2맥락화된 교차 모달 질의는 이미지 내 다중 참조 표현의 그라운딩 정확도를 향상시키는가?
- RQ3다중 작업 학습과 사전학습이 REC와 RES 성능에 어떤 영향을 미치는가?
- RQ4표준 REC/RES 벤치마크에서 이전의 최첨단 방법과 비교했을 때 모델의 성능은 어떤가?
주요 결과
- 제안된 Referring Transformer는 여러 데이터세트(예: RefCOCO, RefCOCO+, RefCOCOg)에서 REC와 RES에 대해 최첨단 방법보다 큰 차이로 우수한 성능을 보인다.
- 다중 작업 학습은 REC와 RES 모두를 개선하고 작업 간 일관성을 줄인다.
- Visual Genome에서의 간단한 사전학습 일정이 성능을 추가로 향상시키며, 여러 분할에서 두드러진 이득을 보인다.
- 모델은 여러 참조 표현의 병렬 디코딩을 가능하게 하여 실시간 추론을 달성한다.
- 변형(Ablation) 결과는 맥락화된 구문 쿼리와 쿼리 인코더/디코더 설계가 성능에 결정적임을 보여준다.
- 결과에는 논문에 보고된 REC에서 최대 8.5% 절대 이득, RES에서 19.4% 이득이 포함된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.