QUICK REVIEW

[논문 리뷰] Referring Transformer: A One-step Approach to Multi-task Visual Grounding

Muchen Li, Leonid Sigal|arXiv (Cornell University)|2021. 06. 06.

Multimodal Machine Learning Applications참고 문헌 58인용 수 73

한 줄 요약

한 단계 트랜스포머 프레임워크를 도입하여 참조 표현 이해(REC)와 분할(RES)을 공동으로 수행하고, 맥락화된 구문 쿼리를 학습하여 바운딩 박스와 마스크로 디코딩한다; 간단한 사전학습으로 최첨단 결과를 달성한다.

ABSTRACT

As an important step towards visual reasoning, visual grounding (e.g., phrase localization, referring expression comprehension/segmentation) has been widely explored Previous approaches to referring expression comprehension (REC) or segmentation (RES) either suffer from limited performance, due to a two-stage setup, or require the designing of complex task-specific one-stage architectures. In this paper, we propose a simple one-stage multi-task framework for visual grounding tasks. Specifically, we leverage a transformer architecture, where two modalities are fused in a visual-lingual encoder. In the decoder, the model learns to generate contextualized lingual queries which are then decoded and used to directly regress the bounding box and produce a segmentation mask for the corresponding referred regions. With this simple but highly contextualized model, we outperform state-of-the-arts methods by a large margin on both REC and RES tasks. We also show that a simple pre-training schedule (on an external dataset) further improves the performance. Extensive experiments and ablations illustrate that our model benefits greatly from contextualized information and multi-task training.

연구 동기 및 목표

시각적 그라운딩을 위한 간단하고 엔드-투-엔드 접근법으로 단일 모델에서 REC와 RES를 통합하는 것을 동기화한다.
dense proposal 단계와 작업별 아키텍처의 필요성을 제거하기 위해 시각-언어 트랜스포머를 활용한다.
맥락화된 구문 쿼리와 다중 작업 학습이 그라운딩 성능을 향상시키는지 탐구한다.
외부 데이터에서의 사전학습이 REC와 RES 성능을 더욱 향상시키는지 보여준다.

제안 방법

시각-언어 인코더를 사용하여 이미지 특징과 텍스트 맥락을 융합한다.
구문 임베딩과 맥락 신호를 통해 구문별 쿼리를 생성하며 학습 가능한 바이어스를 가진 MLP로 한다.
다중 작업 트랜스포머 디코더와 교차 모달 어텐션을 사용하여 바운딩 박스(REC)와 분할 마스크(RES)로 디코딩한다.
탐지에 대해 L1 및 IoU 손실의 조합으로 REC와 RES를 함께 학습하고, 분할에 대해서는 포컬/다이스 손실을 사용한다.
선택적으로 지역-설명 데이터셋에서 트랜스포머를 사전 학습하여 다운스트림 성능을 향상시킨다.

실험 결과

연구 질문

RQ1dense anchors나 Hungarian 매칭 없이 단일의 한 단계 트랜스포머 모델이 REC와 RES를 함께 처리할 수 있는가?
RQ2맥락화된 교차 모달 질의는 이미지 내 다중 참조 표현의 그라운딩 정확도를 향상시키는가?
RQ3다중 작업 학습과 사전학습이 REC와 RES 성능에 어떤 영향을 미치는가?
RQ4표준 REC/RES 벤치마크에서 이전의 최첨단 방법과 비교했을 때 모델의 성능은 어떤가?

주요 결과

제안된 Referring Transformer는 여러 데이터세트(예: RefCOCO, RefCOCO+, RefCOCOg)에서 REC와 RES에 대해 최첨단 방법보다 큰 차이로 우수한 성능을 보인다.
다중 작업 학습은 REC와 RES 모두를 개선하고 작업 간 일관성을 줄인다.
Visual Genome에서의 간단한 사전학습 일정이 성능을 추가로 향상시키며, 여러 분할에서 두드러진 이득을 보인다.
모델은 여러 참조 표현의 병렬 디코딩을 가능하게 하여 실시간 추론을 달성한다.
변형(Ablation) 결과는 맥락화된 구문 쿼리와 쿼리 인코더/디코더 설계가 성능에 결정적임을 보여준다.
결과에는 논문에 보고된 REC에서 최대 8.5% 절대 이득, RES에서 19.4% 이득이 포함된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.