Skip to main content
QUICK REVIEW

[논문 리뷰] Referring Transformer: A One-step Approach to Multi-task Visual Grounding

Muchen Li, Leonid Sigal|arXiv (Cornell University)|2021. 06. 06.
Multimodal Machine Learning Applications참고 문헌 58인용 수 73
한 줄 요약

한 단계 트랜스포머 프레임워크를 도입하여 참조 표현 이해(REC)와 분할(RES)을 공동으로 수행하고, 맥락화된 구문 쿼리를 학습하여 바운딩 박스와 마스크로 디코딩한다; 간단한 사전학습으로 최첨단 결과를 달성한다.

ABSTRACT

As an important step towards visual reasoning, visual grounding (e.g., phrase localization, referring expression comprehension/segmentation) has been widely explored Previous approaches to referring expression comprehension (REC) or segmentation (RES) either suffer from limited performance, due to a two-stage setup, or require the designing of complex task-specific one-stage architectures. In this paper, we propose a simple one-stage multi-task framework for visual grounding tasks. Specifically, we leverage a transformer architecture, where two modalities are fused in a visual-lingual encoder. In the decoder, the model learns to generate contextualized lingual queries which are then decoded and used to directly regress the bounding box and produce a segmentation mask for the corresponding referred regions. With this simple but highly contextualized model, we outperform state-of-the-arts methods by a large margin on both REC and RES tasks. We also show that a simple pre-training schedule (on an external dataset) further improves the performance. Extensive experiments and ablations illustrate that our model benefits greatly from contextualized information and multi-task training.

연구 동기 및 목표

  • 시각적 그라운딩을 위한 간단하고 엔드-투-엔드 접근법으로 단일 모델에서 REC와 RES를 통합하는 것을 동기화한다.
  • dense proposal 단계와 작업별 아키텍처의 필요성을 제거하기 위해 시각-언어 트랜스포머를 활용한다.
  • 맥락화된 구문 쿼리와 다중 작업 학습이 그라운딩 성능을 향상시키는지 탐구한다.
  • 외부 데이터에서의 사전학습이 REC와 RES 성능을 더욱 향상시키는지 보여준다.

제안 방법

  • 시각-언어 인코더를 사용하여 이미지 특징과 텍스트 맥락을 융합한다.
  • 구문 임베딩과 맥락 신호를 통해 구문별 쿼리를 생성하며 학습 가능한 바이어스를 가진 MLP로 한다.
  • 다중 작업 트랜스포머 디코더와 교차 모달 어텐션을 사용하여 바운딩 박스(REC)와 분할 마스크(RES)로 디코딩한다.
  • 탐지에 대해 L1 및 IoU 손실의 조합으로 REC와 RES를 함께 학습하고, 분할에 대해서는 포컬/다이스 손실을 사용한다.
  • 선택적으로 지역-설명 데이터셋에서 트랜스포머를 사전 학습하여 다운스트림 성능을 향상시킨다.

실험 결과

연구 질문

  • RQ1dense anchors나 Hungarian 매칭 없이 단일의 한 단계 트랜스포머 모델이 REC와 RES를 함께 처리할 수 있는가?
  • RQ2맥락화된 교차 모달 질의는 이미지 내 다중 참조 표현의 그라운딩 정확도를 향상시키는가?
  • RQ3다중 작업 학습과 사전학습이 REC와 RES 성능에 어떤 영향을 미치는가?
  • RQ4표준 REC/RES 벤치마크에서 이전의 최첨단 방법과 비교했을 때 모델의 성능은 어떤가?

주요 결과

  • 제안된 Referring Transformer는 여러 데이터세트(예: RefCOCO, RefCOCO+, RefCOCOg)에서 REC와 RES에 대해 최첨단 방법보다 큰 차이로 우수한 성능을 보인다.
  • 다중 작업 학습은 REC와 RES 모두를 개선하고 작업 간 일관성을 줄인다.
  • Visual Genome에서의 간단한 사전학습 일정이 성능을 추가로 향상시키며, 여러 분할에서 두드러진 이득을 보인다.
  • 모델은 여러 참조 표현의 병렬 디코딩을 가능하게 하여 실시간 추론을 달성한다.
  • 변형(Ablation) 결과는 맥락화된 구문 쿼리와 쿼리 인코더/디코더 설계가 성능에 결정적임을 보여준다.
  • 결과에는 논문에 보고된 REC에서 최대 8.5% 절대 이득, RES에서 19.4% 이득이 포함된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.