QUICK REVIEW

[논문 리뷰] Cross-Modal Self-Attention Network for Referring Image Segmentation

Linwei Ye, Mrigank Rochan|arXiv (Cornell University)|2019. 04. 09.

Multimodal Machine Learning Applications참고 문헌 31인용 수 46

한 줄 요약

이 논문은 참조 이미지 분할을 위해 언어와 비전 간의 장거리 의존성을 포착하는 교차 모달 자체 주의(CMSA) 모듈과 다중 스케일 특징을 선택적으로 정보 흐름 제어 방식으로 통합하는 게이트된 멀티 레벨 퓨전으로, 네 가지 데이터셋에서 최첨단 결과를 달성합니다.

ABSTRACT

We consider the problem of referring image segmentation. Given an input image and a natural language expression, the goal is to segment the object referred by the language expression in the image. Existing works in this area treat the language expression and the input image separately in their representations. They do not sufficiently capture long-range correlations between these two modalities. In this paper, we propose a cross-modal self-attention (CMSA) module that effectively captures the long-range dependencies between linguistic and visual features. Our model can adaptively focus on informative words in the referring expression and important regions in the input image. In addition, we propose a gated multi-level fusion module to selectively integrate self-attentive cross-modal features corresponding to different levels in the image. This module controls the information flow of features at different levels. We validate the proposed approach on four evaluation datasets. Our proposed approach consistently outperforms existing state-of-the-art methods.

연구 동기 및 목표

이미지에서 자연어로 설명된 객체의 정확한 분할을, 단순한 카테고리 기반 단서를 넘어 달성하는 것을 목표로 한다.
언어적 특성과 시각적 특징 간의 장거리 의존성을 포착하여 참조 분할을 개선한다.
다중 수준 CNN 특징을 선택적이고 정보 흐름을 제어하는 방식으로 통합하는 메커니즘을 개발한다.

제안 방법

각 이미지 위치와 단어에 대해 이미지 특징, 단어 임베딩, 8-D 공간 좌표를 결합하여 다중모달 특징을 구성한다.
학습된 질의(query), 키(keys), 값(values)와 잔여 연결(residual connections)을 사용하여 언어와 공간 영역 간의 장거리 의존성을 학습하기 위해 교차 모달 자체 주의(CMSA) 모듈을 적용한다.
CMSA 출력의 평균 풀링으로 단어 간 평균 풀링을 통해 위치별 다중모달 특징을 얻고 이를 집계한다.
Res3, Res4, Res5의 세 CNN 레벨에서 특징을 선택적으로 융합하기 위해 기억 게이트, 리셋 게이트, 맥락 제어기를 사용하고 1x1 합성으로 구성된 게이트드 멀티-레벨 퓨전(GF) 모듈을 도입한다.
최종 분할 마스크를 3x3 합성곱과 시그모이드로 생성하고 이진 교차 엔트로피 손실로 학습되며 Adam으로 최적화한다.

실험 결과

연구 질문

RQ1크로스-모달 자체 주의가 참조 이미지 분할을 위해 언어와 비전 간의 장거리 의존성을 효과적으로 모델링할 수 있는가?
RQ2게이트드 멀티-레벨 퓨전 메커니즘이 세 가지 CNN 레벨의 다중 스케일 특징 통합의 정제 및 정확도를 향상시키는가?
RQ3단어 수준 주의가 다중 모달 분할 성능에 대한 문장 수준 인코딩과 비교하여 어떤 차이가 있는가?
RQ4표준 벤치마크에서 다중 레벨 특징 융합 접근법이 분할 품질에 미치는 영향은 어떠한가?

주요 결과

CMSA 접근 방식은 네 가지 벤치마크 데이터셋(UNC, UNC+, G-Ref, ReferIt)에서 일관되게 최첨단 방법을 능가한다.
CMSA를 이용한 단어 수준 다중모달 표현은 어블레이션에서 문장 기반 인코딩 및 다른 주의 변형을 능가한다.
게이트드 멀티-레벨 퓨전 모듈은 다중 스케일 CMSA 특징의 통합을 개선하여 Deconv, PPM, ConvLSTM 및 단순 게이팅 베이스라인을 능가한다.
정성적 분석은 레벨별 단어 주의가 속성, 관계 또는 객체 명사에 초점을 맞추고, 공간 히트맵은 다양한 질의에 반응하는 것을 보여준다.
어블레이션 연구는 교차 모달 자체 주의와 게이트형 퓨전의 우수성을 개별 구성요소보다 확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.