Skip to main content
QUICK REVIEW

[논문 리뷰] Multi-modality Latent Interaction Network for Visual Question Answering

Peng Gao, Haoxuan You|arXiv (Cornell University)|2019. 08. 10.
Multimodal Machine Learning Applications참고 문헌 57인용 수 34
한 줄 요약

MLIN은 시각 정보와 언어 정보를 소수의 잠재 벡터로 요약하는 다중 모달 잠재 상호작용 모듈을 도입하고, 이 요약들 간의 교차 모달 관계를 모델링하며, 주의 기반 집계를 통한 특징 업데이트로 VQA 성능을 향상시킵니다.

ABSTRACT

Exploiting relationships between visual regions and question words have achieved great success in learning multi-modality features for Visual Question Answering (VQA). However, we argue that existing methods mostly model relations between individual visual regions and words, which are not enough to correctly answer the question. From humans' perspective, answering a visual question requires understanding the summarizations of visual and language information. In this paper, we proposed the Multi-modality Latent Interaction module (MLI) to tackle this problem. The proposed module learns the cross-modality relationships between latent visual and language summarizations, which summarize visual regions and question into a small number of latent representations to avoid modeling uninformative individual region-word relations. The cross-modality information between the latent summarizations are propagated to fuse valuable information from both modalities and are used to update the visual and word features. Such MLI modules can be stacked for several stages to model complex and latent relations between the two modalities and achieves highly competitive performance on public VQA benchmarks, VQA v2.0 and TDIUC . In addition, we show that the performance of our methods could be significantly improved by combining with pre-trained language model BERT.

연구 동기 및 목표

  • 각 모달리티의 고수준 잠재 요약을 학습함으로써 영역-단어 관계를 넘어서는 필요성을 제시한다.
  • 시각 정보와 언어 정보를 소수의 잠재 벡터로 요약하는 MLIN 프레임워크를 제안한다.
  • 잠재 시각-언어 요약 간의 교차 모달 관계를 모델링하고 이들 간의 정보를 전달한다.
  • 주의 메커니즘을 통해 원래의 시각 및 단어 특징을 업데이트하여 정답을 예측한다.
  • 사전 학습된 언어 모델(BERT)과의 통합이 VQA 성능을 향상시킨다는 점을 보인다.

제안 방법

  • Faster R-CNN으로 시각 영역을 인코딩하고 bidirectional Transformer로 질문을 인코딩하여 R ∈ R^{M x 512}와 E ∈ R^{N x 512}를 얻는다.
  • 학습된 선형 매핑으로 각 모달리티에 대한 k개의 잠재 요약 벡터를 생성하여 R과 E를 각 모달리티의 잠재 표현으로 바꾼다.
  • A(i,j,:) = W_A [ overline{R}(i,:) ⊗ Doverline{E}(j,:)] + b_A를 이용해 쌍별 잠재 상호작용을 포착하는 k x k 교차 모달 관계 텐서를 구성한다.
  • 두 가지 연산으로 쌍으로 묶인 잠재 특징 간 정보를 전달한다: (i) A에 대한 교차 모달 변환으로 lat_A_c를 생성, (ii) 모든 쌍 간 상위 정보 교환을 위한 두 번째 전파로 lat_A_p를 생성; 이를 더해 lat_A를 얻는다.
  • 업데이트된 잠재 표현을 원래의 모달리티로 다시 집계하기 위해 키-쿼리 주의(attention)를 사용하여 R_U와 E_U를 얻는다.
  • 여러 MLIn 모듈을 쌓아 특징을 점진적으로 정제하고, 최종 답 prediction을 위해 원소별 곱셈으로 풀고 선형 분류기로 예측한다.

실험 결과

연구 질문

  • RQ1작은 수의 잠재 교차 모달 요약을 학습하는 것이 고수준 상호작용에 초점을 맞춰 VQA를 개선할 수 있는가?
  • RQ2잠재 요약 간의 정보 전달이 교차 모달 추론 및 최종 VQA 정확도에 어떤 영향을 미치는가?
  • RQ3MLIN 프레임워크에 사전 학습된 언어 모델(BERT)을 통합하는 것이 VQA 성능에 미치는 영향은 무엇인가?

주요 결과

  • MLIN은 VQA v2.0 및 TDIUC 벤치마크에서 경쟁력 있는 성능을 달성한다.
  • 3x3 주의 헤드를 가진 6개의 시각 잠재 요약과 6개의 질문 잠재 요약을 사용할 때의 제거 연구(ablation)에서 강력한 결과를 보인다.
  • 잠재 요약을 통한 관계 추론은 DFAF 등 기존 방법과 비교해 메시지 전달 필요성을 줄이면서도 경쟁력 있는 정확도를 유지한다.
  • 사전 학습된 BERT 파인튜닝을 도입하면(학습률 일정 관리와 함께) MLIN 베이스라인보다 정확도가 더 향상된다.
  • 더 깊은 스택링(MLIN-8)은 제거 연구에서 얕은 구성을 넘어 일반적으로 성능을 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.