Skip to main content
QUICK REVIEW

[논문 리뷰] Self-Critical Reasoning for Robust Visual Question Answering

Jialin Wu, Raymond J. Mooney|arXiv (Cornell University)|2019. 05. 24.
Multimodal Machine Learning Applications참고 문헌 37인용 수 91
한 줄 요약

이 논문은 VQA에 대해 가장 영향력 있는 이미지 영역에 과도하게 민감하게 반응하는 잘못된 답변을 처벌하는 자기 비판적 학습 목표를 도입합니다. 인간 또는 QA에서 유도된 설명을 사용해 객체 중요도를 안내하고, VQA-CP 데이터셋에서 최첨단 일반화 성능을 달성합니다.

ABSTRACT

Visual Question Answering (VQA) deep-learning systems tend to capture superficial statistical correlations in the training data because of strong language priors and fail to generalize to test data with a significantly different question-answer (QA) distribution. To address this issue, we introduce a self-critical training objective that ensures that visual explanations of correct answers match the most influential image regions more than other competitive answer candidates. The influential regions are either determined from human visual/textual explanations or automatically from just significant words in the question and answer. We evaluate our approach on the VQA generalization task using the VQA-CP dataset, achieving a new state-of-the-art i.e., 49.5% using textual explanations and 48.5% using automatically annotated regions.

연구 동기 및 목표

  • VQA 모델이 언어 편향에 과적합하고 QA 분포 변경에서 일반화가 저하되는 문제를 동기부여합니다.
  • 잘못된 답변의 influential한 이미지 영역에 대한 민감성을 억제하는 자기 비판적 학습 목표를 제안합니다.
  • 인간 시각/문자 설명 또는 QA에서 유래한 객체 집합을 활용해 영향력 있는 영역을 식별합니다.
  • 사람의 설명 여부와 상관없이 UpDn 기반 모델에서 VQA-CP의 일반화를 개선합니다.

제안 방법

  • 기본 VQA 시스템: Bottom-Up Top-Down(UpDn) 아키텍처.
  • 시각적 설명(VQA-HAT), 텍스트 설명(VQA-X), 또는 QA 기반 명사에서 per QA 쌍의 영향력 있는 객체 집합 I를 식별합니다.
  • 수정된 Grad-CAM( ReLU 미적용, 특징 벡터 가중치 미사용)으로 객체에 대한 답변 민감도를 계산합니다.
  • 가장 영향력 있는 객체를 강화하는 영향력 강화 손실 L_infl을 통해 정답이 영향력 있는 영역에 grounded되도록 합니다.
  • 가장 영향력 있는 객체 v*에 대해 경쟁적인 잘못된 답변의 민감도 차이를 최소화하는 자기 비판 손실 L_crit를 도입합니다( GloVe 임베딩의 코사인 거리 가중).
  • 학습 방식: L_vqa로 사전 훈련, L_infl로 미세 조정 후 L_vqa + λ_infl L_infl + λ_crit L_crit를 함께 최적화하며, 상위 5개 경쟁 답변의 버킷을 사용합니다; 객체 집합 크기는 작고(6) 제안은 설명 또는 QA 명사에서 나옵니다.

실험 결과

연구 질문

  • RQ1자기 비판적 목표가 VQA에서 잘못된 답변의 가장 영향력 있는 이미지 영역에 대한 민감도를 줄일 수 있습니까?
  • RQ2인간(시각/문자) 설명이나 QA에서 파생된 객체 집합을 활용하면 priors(VQA-CP) 변경에 대한 일반화를 개선합니까?
  • RQ3제안된 방법이 데이터셋 전반에서 올바른 답변과 잘못된 답변의 영향력 있는 객체에 대한 grounding에 어떤 영향을 미칩니까?

주요 결과

Expl.VQA-CP v2 test AllVQA-CP v2 test Yes/NoVQA-CP v2 test NumVQA-CP v2 test OtherVQA v2 val AllVQA v2 val Yes/NoVQA v2 val NumVQA v2 val Other
GVQA [1]31.358.013.722.148.272.031.234.7
UpDn [2]39.742.711.946.163.581.242.155.7
UpDn+AttAlign [25]38.542.511.443.861.078.938.453.3
UpDn+AdvReg. [21]41.265.515.535.562.879.842.455.2
UpDn+SCR (ours) QA48.4770.4110.4247.2962.377.440.956.5
UpDn+SCR (ours) HAT49.1771.5510.7247.4962.278.941.454.3
UpDn+SCR (ours) VQA-X49.4572.3610.9348.0262.278.841.654.5
  • 텍스트 설명을 사용할 때 VQA-CP에서 새로운 최첨단 성능(49.5%)을 달성하고 시각적 설명(HAT)으로는 49.1% 및 QA 유래 객체로 48.5%의 경쟁력 있는 결과를 보입니다.
  • VQA-HAT 또는 VQA-X 감독을 사용할 때 HINT 등 기존 방법에 비해 VQA-CP에서 상당한 차이로 앞섭니다.
  • 자기 비판적 학습 후 잘못된 민감도 비율이 크게 감소해(35.5%에서 약 20% 수준으로) 잘못된 답변의 영향력 있는 영역 의존성이 줄어듭니다.
  • 영향력 강화와 자기 비판 손실은 다양한 손실 가중치와 객체 집합 크기에서 견고한 개선을 이끌어냅니다.
  • QA 기반의 영향력 있는 객체 제안은 인간이 제공한 제안과 큰 중복을 보이며( VQA-X 57.1%, VQA-HAT 54.3%), QA로 유도된 집합이 의미 있는 영역을 포착합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.