QUICK REVIEW

[논문 리뷰] Multimodal Residual Learning for Visual QA

Jin-Hwa Kim, Sangwoo Lee|arXiv (Cornell University)|2016. 06. 05.

Multimodal Machine Learning Applications참고 문헌 27인용 수 209

한 줄 요약

MRN는 질문(q)과 시각(feature) 간의 요소별 곱셈을 이용한 결합 잔차 매핑을 통해 다중 모달 시각 QA에 깊은 잔차 학습을 확장하고, VQA Open-Ended 및 Multiple-Choice 작업에서 최첨단 성능을 달성하며 암묵적 시각 주의 시각화를 가능하게 한다.

ABSTRACT

Deep neural networks continue to advance the state-of-the-art of image recognition tasks with various methods. However, applications of these methods to multimodality remain limited. We present Multimodal Residual Networks (MRN) for the multimodal residual learning of visual question-answering, which extends the idea of the deep residual learning. Unlike the deep residual learning, MRN effectively learns the joint representation from vision and language information. The main idea is to use element-wise multiplication for the joint residual mappings exploiting the residual learning of the attentional models in recent studies. Various alternative models introduced by multimodality are explored based on our study. We achieve the state-of-the-art results on the Visual QA dataset for both Open-Ended and Multiple-Choice tasks. Moreover, we introduce a novel method to visualize the attention effect of the joint representations for each learning block using back-propagation algorithm, even though the visual features are collapsed without spatial information.

연구 동기 및 목표

심층 잔여 학습을 다중 모달 시각 질문 응답(VQA)으로 확장한다.
명시적 주의 매개변수 없이 시각-언어의 공동 표현을 학습한다.
효과적인 아키텍처를 식별하기 위해 대안적인 다중 모달 숏컷 구성들을 탐색한다.
Open-Ended 및 Multiple-Choice 과제에서 VQA 데이터셋의 최첨단 성능을 입증한다.
역전파를 사용한 결합 잔여 주의 효과의 시각화를 도입한다.

제안 방법

다중 모달 입력에 대해 잔여 스타일 아키텍처로 다수의 학습 블록을 쌓는다.
질문 q와 시각 특징 v를 융합하기 위해 공동 잔여 함수 F(k)(q,v) 를 tanh(Wq^{(k)}q) ⊙ tanh(W2^{(k)} tanh(W1^{(k)}v)) 로 정의한다.
시각 경로에 대한 항등 숏컷을 사용하고 차원을 맞추기 위해 질문 경로에 대해 선형 투영을 학습한다.
사전 계산된 시각 특징(VGG-19 또는 ResNet-152)과 GRU 기반 질문 임베딩을 사용하여 RMSProp으로 엔드-투-엔드 학습한다.
다양한 정답 어휘(1k/2k/3k)를 갖춘 VQA 데이터셋(Open-Ended 및 Multiple-Choice)에서 평가하고 블록 깊이(L) 및 특징 선택을 분석한다.
입력에 대해 V와 F의 차이를 역전파시켜 주의 효과를 시각화하는 방법을 제공한다.

실험 결과

연구 질문

RQ1명시적 주의 매커니즘 없이도 다중 모달 잔여 학습이 시각과 언어를 효과적으로 융합할 수 있는가?
RQ2숏컷의 선택과 공동 잔여 함수가 VQA 성능에 어떤 영향을 미치는가?
RQ3시각 특징 유형(VGG-19 대 ResNet-152)과 목표 답변 수가 정확도에 미치는 영향은 무엇인가?
RQ4더 깊은 MRN 아키텍처(더 많은 학습 블록)가 VQA 성능을 향상시킬 수 있으며 체감 수익 감소의 임계점이 있는가?
RQ5축소된 시각 특징으로부터 공간 주의 효과를 역전파를 사용해 시각화하는 것이 가능한가?

주요 결과

모델	Open-Ended 전체	Open-Ended 예/아니오	Open-Ended 숫자	Open-Ended 기타	Multiple-Choice 전체	Multiple-Choice 예/아니오	Multiple-Choice 숫자	Multiple-Choice 기타
DPPnet	57.36	80.28	36.92	42.24	62.69	80.35	38.79	52.79
D-NMN	58.00	-	-	-	-	-	-	-
Deep Q+I	58.16	80.56	36.53	43.73	63.09	80.59	37.70	53.64
SAN	58.90	-	-	-	-	-	-	-
ACK	59.44	81.07	37.12	45.83	-	-	-	-
FDA	59.54	81.34	35.67	46.10	64.18	81.25	38.30	55.20
DMN+	60.36	80.43	36.82	48.33	-	-	-	-
MRN	61.84	82.39	38.23	49.41	66.33	82.41	39.57	58.40
Human	83.30	95.77	83.39	72.67	-	-	-	-

MRN은 Open-Ended 및 Multiple-Choice 과제 모두에서 VQA 데이터셋의 최첨단 결과를 달성한다(표로 제시된 결과는 MRN이 여러 베이스라인보다 우수함을 보인다).
Open-Ended에서, ResNet-152 특징과 2k 정답으로 MRN은 61.84(All) 및 82.39(Y/N), 38.23(Num), 49.41(Other)에 도달한다.
Multiple-Choice에서 MRN은 66.33(All)로 도달하고 82.41(Y/N), 39.57(Num), 58.40(Other).
더 깊은 MRN 블록은 L=3까지 Open-Ended 정확도를 향상시키며 3블록에서 60.53에 도달하지만 L=4에서 약간 감소한다.
ResNet-152 시각 특징은 Open-Ended 및 Multiple-Choice 과제에서 VGG-19에 비해 성능을 크게 향상시키며 특히 Other 카테고리에서 그렇다.
MRN은 명시적 주의 매개변수 없이 암시적 주의 모델로 작동하며, 역전파된 그래디언트를 통해 주의 효과를 시각화하는 방법을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.