QUICK REVIEW

[논문 리뷰] Improving Referring Expression Grounding with Cross-modal Attention-guided Erasing

Xihui Liu, Zihao Wang|arXiv (Cornell University)|2019. 03. 03.

Multimodal Machine Learning Applications참고 문헌 45인용 수 24

한 줄 요약

이 논문은 참조 표현 기반 작업의 성능을 햖을 위해 온라인으로 가장 두드러진 시각적 또는 텍스처적 특징을 제거함으로써 어려운 훈련 샘플을 생성하는 교차 모달 주의 지도형 지우기 방법을 제안한다. 가장 두드러진 단서를 넘어서 보완적인 교차 모달 일치를 찾도록 모델을 강제함으로써, 이 방법은 세 가지 벤치마크 데이터셋에서 최신 기술 수준의 성능을 달성하며, 주의 기반의 다중 모달 지우기를 통해 강건성과 일반화 능력이 향상됨을 보여준다.

ABSTRACT

Referring expression grounding aims at locating certain objects or persons in an image with a referring expression, where the key challenge is to comprehend and align various types of information from visual and textual domain, such as visual attributes, location and interactions with surrounding regions. Although the attention mechanism has been successfully applied for cross-modal alignments, previous attention models focus on only the most dominant features of both modalities, and neglect the fact that there could be multiple comprehensive textual-visual correspondences between images and referring expressions. To tackle this issue, we design a novel cross-modal attention-guided erasing approach, where we discard the most dominant information from either textual or visual domains to generate difficult training samples online, and to drive the model to discover complementary textual-visual correspondences. Extensive experiments demonstrate the effectiveness of our proposed method, which achieves state-of-the-art performance on three referring expression grounding datasets.

연구 동기 및 목표

주의 기반 모델이 참조 표현 기반 작업에서 가장 두드러진 시각적 또는 텍스처적 단서에 과도하게 집중하여 보완 정보를 忽시하는 한계를 해결하기 위해.
양방향 모달에서 높은 주의도 특징을 대상으로 지우기를 통해 어려운 훈련 샘플을 생성함으로써 모델의 일반화 능력을 향상시키기 위해.
자주 관찰되는 시각적 또는 언어적 증거에 대한 편향을 줄이고, 잠재적이고 덜 두드러진 대응 관계를 발견하도록 유도하기 위해.
추론 복잡도를 증가시키지 않으면서도 교차 모달 주의 지도를 통해 일치 학습을 향상시키는 방법을 설계하기 위해.

제안 방법

이 방법은 교차 모달 주의 점수를 기반으로 두드러진 특징—즉, 참조 표현 내의 단어 또는 이미지 내의 공간적 영역—을 식별하고 제거한다.
세 가지 지우기 전략을 도입한다: 이미지 인식 기반 참조 문장 지우기 (높은 주의도 단어를 '알 수 없음'으로 대체), 문장 인식 기반 주어 영역 지우기 (높은 주의도 주어 영역 제거), 문장 인식 기반 맥락 객체 지우기 (두드러진 맥락 객체 제거).
지우기는 훈련 중에 온라인으로 수행되어, 모델이 가장 두드러진 단서가 아닌 보완적 단서에 의존하도록 강제하는 어려운 음성 샘플을 생성한다.
모달 별 특징과 교차 모달 상호작용을 모두 활용하여 지우기를 유도함으로써, 가장 두드러진 특징이지만 반드시 가장 정보적인 특징은 아닐 수 있는 특징을 제거한다.
이러한 지워진 샘플을 통해 모델은 종합적으로 훈련되며, 추론 과정을 수정하지 않아도 효율성을 유지한다.
이 방법은 적대적 네트워크나 반복적 지우기에 의존하지 않으며, 효율성과 효과성을 위해 주의 지도 기반 단일 단계 지우기를 중심으로 한다.

실험 결과

연구 질문

RQ1두드러진 특징에 대한 주의 지도 기반 지우기가 참조 표현 기반 작업에서 교차 모달 일치를 향상시키는가?
RQ2교차 모달 주의 기반 지우기가 자기 주의 또는 무작위 지우기보다 보다 우수한 보완적인 시각-텍스트 대응 관계를 발견하는 데 기여하는가?
RQ3지우기의 성능 향상 효과가 모달(텍스트 대비 시각)과 그 상호작용에 따라 달라지는가?
RQ4훈련 중 지우기를 통해 추론 복잡도를 증가시키지 않으면서도 모델의 강건성을 향상시킬 수 있는가?
RQ5주의 지도 기반 지우기가 다양한 일치 관계를 학습하는 데서 스택형 주의 메커니즘과 비교해 어떻게 성능을 냈는가?

주요 결과

제안된 교차 모달 주의 지도 기반 지우기 방법은 RefCOCO, RefCOCO+, RefCOCOg 세 가지 참조 표현 기반 작업 벤치마크에서 최신 기술 수준의 성능을 달성한다.
RefCOCOg에서 검증 세트에서는 80.23%의 정확도, 테스트 세트에서는 80.37%의 정확도를 기록하여 이전 방법들을 능가한다.
절단 실험 결과, 주의 지도 기반 지우기가 무작위 지우기(검증 시 79.08%)와 적대적 지우기(검증 시 79.31%)보다 유의미하게 뛰어나며, 주의도가 지도 신호로서의 효과를 입증한다.
텍스트와 시각 양 모달의 지우기가 모두 필수적임을 확인하였으며, 한 모달만 지우는 경우 성능이 열등해진다 (예: 오직 텍스트 지우기 시 79.21% 성능).
반복적 지우기는 짧은 참조 표현에서 의미를 손상시킬 위험이 있어 효과가 떨어지며, 모델 학습에 제약을 끼친다.
추론 중 지우기를 수행해도 성능 향상이 없음을 확인하였으며, 이는 모델이 추론 시 동적 마스킹이 필요 없이 훈련 과정에서 특징 균형을 학습함을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.