QUICK REVIEW

[논문 리뷰] Multi-modal Factorized Bilinear Pooling with Co-Attention Learning for Visual Question Answering

Yu Zhou, Jun Yu|arXiv (Cornell University)|2017. 08. 04.

Multimodal Machine Learning Applications참고 문헌 36인용 수 101

한 줄 요약

이 논문은 이미지와 질문 특징을 융합하기 위한 다중 모달 팩터라이즈드 바이럴(MFB) 풀링과 공동 주의(co-attention) 메커니즘을 도입하여 VQA에서 최첨단 결과를 달성한다.

ABSTRACT

Visual question answering (VQA) is challenging because it requires a simultaneous understanding of both the visual content of images and the textual content of questions. The approaches used to represent the images and questions in a fine-grained manner and questions and to fuse these multi-modal features play key roles in performance. Bilinear pooling based models have been shown to outperform traditional linear models for VQA, but their high-dimensional representations and high computational complexity may seriously limit their applicability in practice. For multi-modal feature fusion, here we develop a Multi-modal Factorized Bilinear (MFB) pooling approach to efficiently and effectively combine multi-modal features, which results in superior performance for VQA compared with other bilinear pooling approaches. For fine-grained image and question representation, we develop a co-attention mechanism using an end-to-end deep network architecture to jointly learn both the image and question attentions. Combining the proposed MFB approach with co-attention learning in a new network architecture provides a unified model for VQA. Our experimental results demonstrate that the single MFB with co-attention model achieves new state-of-the-art performance on the real-world VQA dataset. Code available at https://github.com/yuzcccc/mfb.

연구 동기 및 목표

VQA를 더 나은 다중 모달 특징 융합과 미세한 주의로 향상시키려는 동기 부여.
이미지와 질문 특징을 융합하기 위한 효율적이고 표현력이 있는 이진 풀링 방법을 개발.
엔드투엔드 네트워크에서 이미지와 질문 주의를 공동으로 학습하는 공동 주의 메커니즘을 도입.
바이너리 모델에 중요한 정규화 기법의 중요성을 Demonstrate.
단일 모델을 사용하여 실제 VQA 데이터셋에서 최첨단 결과를 달성.

제안 방법

이미지와 질문 특징을 저랭크 분해로 융합하기 위한 다중 모달 팩터라이즈드 바이럴(MFB) 풀링을 제안.
바이너리 가중치를 U와 V 행렬로 분해하고 요소별 곱셈 후 합풀링을 적용.
MFB 이후 파워 정규화와 L2 정규화를 적용하여 학습을 안정화.
엔드투엔드 네트워크에서 이미지와 질문 주의를 공동으로 학습하는 공동 주의 학습 모듈을 도입.
ResNet-152 이미지 인코더와 2층 LSTM-질문 인코더를 사용하여 다중 모달 융합 특징을 생성하고 정답 분류에 사용.
VQA 데이터셋에서 개방형(Open-Ended)과 다지선다(MC) 태스크를 평가하며 MCB/MLB 기반선 및 ablation과 비교.

실험 결과

연구 질문

RQ1제안된 MFB 풀이 기존의 바이너리 풀링 방법(MCB, MLB)보다 다중 모달 융합을 개선하는가?
RQ2파워 정규화와 L2 정규화를 도입하면 학습 안정성과 정확도가 개선되는가?
RQ3공동 주의 학습이 이미지와 질문의 주의를 함께 향상시켜 VQA 성능을 높이는가?
RQ4다양한 설정(주의 여부, 외부 임베딩, VG 데이터)에서 MFB 기반 아키텍처가 최첨단 방법과 비교하여 어떤 차이를 보이는가?

주요 결과

모델	정확도	모델 크기
MCB (d=16000)	59.8	63M
MLB (d=1000)	59.7	25M
MFB(k=1,o=5000)	60.4	51M
MFB(k=5,o=1000)	60.9	46M
MFB(k=10,o=500)	60.6	38M
MFB(k=5,o=200)	59.8	22M
MFB(k=5,o=500)	60.4	28M
MFB(k=5,o=2000)	60.7	62M
MFB(k=5,o=4000)	60.4	107M

MFB는 Open-Ended VQA 정확도에서 MCB 및 MLB 기반선보다 우수한 성능을 보인다.
인자 k를 1에서 5로 증가시키면 성능이 향상되며, 더 큰 증가에는 수익이 감소하고 k=10 부근에서 포화가 나타난다.
파워 정규화와 특히 L2 정규화가 성능과 학습 안정성을 크게 개선한다.
공동 주의(MFB+CoAtt)는 단일 주의 모델 대비 추가적인 정확도 향상을 제공한다.
외부 GloVe 임베딩 및 Visual Genome 데이터를 사용하면 MFB+CoAtt+GloVe+VG가 OE 및 MC 태스크에서 단일 모델 중 최고 성능에 가까워지거나 이를 달성하며, 앙상블은 성능을 더욱 개선한다.
최첨단과 비교했을 때, MFB+CoAtt+GloVe+VG는 많은 비앙상블 방법에 근접하거나 이를 능가하며, 인간 성능은 여전히 더 높다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.