Skip to main content
QUICK REVIEW

[논문 리뷰] Deep Modular Co-Attention Networks for Visual Question Answering

Yu Zhou, Jun Yu|arXiv (Cornell University)|2019. 06. 25.
Multimodal Machine Learning Applications참고 문헌 33인용 수 99
한 줄 요약

MCAN은 자기-주Attention과 가이드-주Attention을 결합한 심층 Modular Co-Attention 층을 도입하여 질문과 이미지 모두에 대해 작동하며, 심층 인코더-디코더 또는 스태킹 설계로 VQA-v2에서 최첨단 성능을 달성합니다.

ABSTRACT

Visual Question Answering (VQA) requires a fine-grained and simultaneous understanding of both the visual content of images and the textual content of questions. Therefore, designing an effective `co-attention' model to associate key words in questions with key objects in images is central to VQA performance. So far, most successful attempts at co-attention learning have been achieved by using shallow models, and deep co-attention models show little improvement over their shallow counterparts. In this paper, we propose a deep Modular Co-Attention Network (MCAN) that consists of Modular Co-Attention (MCA) layers cascaded in depth. Each MCA layer models the self-attention of questions and images, as well as the guided-attention of images jointly using a modular composition of two basic attention units. We quantitatively and qualitatively evaluate MCAN on the benchmark VQA-v2 dataset and conduct extensive ablation studies to explore the reasons behind MCAN's effectiveness. Experimental results demonstrate that MCAN significantly outperforms the previous state-of-the-art. Our best single model delivers 70.63$\%$ overall accuracy on the test-dev set. Code is available at https://github.com/MILVLG/mcan-vqa.

연구 동기 및 목표

  • VQA를 위한 이미지 영역과 질문 단어 간의 밀도 높은 상호 작용 학습으로 미세한 멀티모달 이해를 향상시키려는 aim.
  • 질문-모달과 이미지-모달을 점진적으로 정제하는 크로스-모달 표현을 쌓아올리는 심층 아키텍처를 설계하려는 목표.
  • 시각적 추론 및 카운팅 과제에서 자기 주의의 이점과 심층 공동 주의의 역할을 조사하려는 목표.

제안 방법

  • Self-Attention(SA)과 Guided-Attention(GA) 유닛을 결합한 Modular Co-Attention(MCA) 층을 도입한다.
  • 두 가지 기본 주의 단위를 모델링한다: 내부 모달 간 상호 작용에 대한 SA(단어-단어 또는 영역-영역)와 서로 다른 모달 간의 상호 작용에 대한 GA(질문 단어와 이미지 영역)
  • 다수의 MCA 층을 Cascade하여 스태핑 및 인코더-디코더 변형을 갖는 심층 MCAN을 구성한다.
  • 이미지는 Faster R-CNN의 바텀-업 영역 특징으로 표현하고, 질문은 단어 임베딩(GloVe)과 그 다음 LSTM으로 질문 특성 행렬을 얻는다.
  • SA와 GA 유닛 내에서 잔차 연결과 층 정규화를 활용한 다중-헤드 스케일드 닷-프로덕트 주의(attention) 사용.
  • MCA L층(L ∈ {1,2,4,6,8})를 스태킹 또는 인코더-디코더 전략으로 수행하고, 두 층의 어텐션 감소를 통해 출력한 뒤 선형 다중모달 융합으로 BCE 3,129-way 분류기로 답을 예측한다.
Figure 1 : Accuracies vs . co-attention depth on VQA-v2 val split. We list most of the state-of-the-art approaches with (deep) co-attention models. Except for DCN [ 24 ] which uses the convolutional visual features and thus leads to inferior performance, all the compared methods ( i.e. , MCAN, BAN [
Figure 1 : Accuracies vs . co-attention depth on VQA-v2 val split. We list most of the state-of-the-art approaches with (deep) co-attention models. Except for DCN [ 24 ] which uses the convolutional visual features and thus leads to inferior performance, all the compared methods ( i.e. , MCAN, BAN [

실험 결과

연구 질문

  • RQ1깊은 MCA 층의 연쇄 학습이 얕은 공동 주의 모델보다 VQA 성능을 향상시키는가?
  • RQ2이미지 모달과 질문 모달에서 자기 주의가 VQA 정확도(객체 카운팅 포함)에 미치는 영향은 무엇인가?
  • RQ3스태킹과 인코더-디코더 심층 공동 주의 모델은 성능과 최적화 안정성에서 어떻게 비교되는가?
  • RQ4제안된 MCAN 융합 및 분류기 설계가 VQA-v2 벤치마크에서 얼마나 효과적인가?
  • RQ5GloVe, 무작위(random), LSTM 등 서로 다른 질문 표현이 결과에 어떤 영향을 미치는가?

주요 결과

  • 깊은 MCA 층을 갖춘 MCAN은 VQA-v2에서 이전의 공동 주의 모델보다 현저히 우수한 성능을 보인다.
  • 질문과 이미지 영역 모두에서 자기 주의가 성능을 향상시키며, SA(Y)-SGA(X,Y)가 강력한 결과를 낳는다.
  • 깊은 공동 주의는 깊이가 증가함에 따라 일반적으로 스태킹보다 인코더-디코더 구조가 더 나은 성능과 계층화된 표현의 활용에 유리하다.
  • 최고의 단일 모델(MCAN ed-6)은 VQA-v2 test-dev 분할에서 70.63%의 전체 정확도, test-std에서 70.90%를 달성하며 카운팅 능력도 경쟁력 있다.
  • MCAN은 BAN 및 MFH에 비해 매개변수 효율적이며(예: MCAN ed-2 약 2700만 매개변수), 더 높은 정확도를 전달한다.
  • 시각화 결과 학습된 주의가 핵심 단어 및 관련 이미지 영역과 정렬되며, 이미지 자기 주의는 객체 영역에 초점을 맞춰 카운팅을 개선한다.
(a) Self-Attention (SA)
(a) Self-Attention (SA)

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.