Skip to main content
QUICK REVIEW

[논문 리뷰] Learning to Reason: End-to-End Module Networks for Visual Question Answering

Ronghang Hu, Jacob Andreas|arXiv (Cornell University)|2017. 04. 18.
Multimodal Machine Learning Applications참고 문헌 25인용 수 113
한 줄 요약

이 논문은 End-to-End Module Networks (N2NMNs)가 질문으로부터 인스턴스별 네트워크 레이아웃을 예측하고 주의 기반 신경 모듈 집합을 사용하여 시각적 질문 응답을 수행하도록 학습하는 것을 제시합니다. 지도 사전 학습 및 강화 학습을 통한 엔드-투-엔드 학습으로 CLEVR에서 강력한 이득을 보이고 VQA에서 경쟁력 있는 결과를 얻습니다.

ABSTRACT

Natural language questions are inherently compositional, and many are most easily answered by reasoning about their decomposition into modular sub-problems. For example, to answer "is there an equal number of balls and boxes?" we can look for balls, look for boxes, count them, and compare the results. The recently proposed Neural Module Network (NMN) architecture implements this approach to question answering by parsing questions into linguistic substructures and assembling question-specific deep networks from smaller modules that each solve one subtask. However, existing NMN implementations rely on brittle off-the-shelf parsers, and are restricted to the module configurations proposed by these parsers rather than learning them from data. In this paper, we propose End-to-End Module Networks (N2NMNs), which learn to reason by directly predicting instance-specific network layouts without the aid of a parser. Our model learns to generate network structures (by imitating expert demonstrations) while simultaneously learning network parameters (using the downstream task loss). Experimental results on the new CLEVR dataset targeted at compositional question answering show that N2NMNs achieve an error reduction of nearly 50% relative to state-of-the-art attentional approaches, while discovering interpretable network architectures specialized for each question.

연구 동기 및 목표

  • 비외부 파서에 의존하지 않고 시각적 질문 응답에서 구문적 요인을 분해하는 데 필요한 구성적 추론을 학습한다.
  • 질문으로부터 인스턴스별 네트워크 레이아웃을 예측하고 그에 따라 신경 모듈을 조합한다.
  • 레이아웃 정책과 모듈 매개변수를 엔드투엔드로 공동 학습하며, 지도 학습(behavioral cloning)과 강화 학습 신호를 동시에 활용한다.
  • 모듈식이고 주의 기반의 아키텍처가 구성적 VQA 벤치마크에서 해석 가능성과 성능을 향상시킨다는 것을 보인다.

제안 방법

  • 이미지 주의 맵과 텍스트 특징에서 작동하는 find, relocate, and, or, filter, describe 등 신경 모듈의 라이브러리를 도입한다.
  • 각 모듈을 0개, 1개 또는 2개의 주의 맵과 이미지 및 질문 특징을 소비하는 매개변수화된 함수로 표현한다.
  • soft attention over question words를 사용하여 질문 특성에 대해 모듈 매개변수를 생성하는 시퀀스-투-시퀀스 RNN으로 Reverse Polish Notation으로 표현된 질문 특정 레이아웃을 예측한다.
  • 예측된 레이아웃에 의해 설명된 네트워크를 조합하고 실행하여 정답을 산출한다.
  • 레이아웃에 대한 기대 손실을 정책 그래디언트로 최적화하고 분산을 줄이기 위한 baseline을 사용하여 엔드-투-엔드로 학습하며, 필요 시 전문가 레이아웃으로부터의 행동 복제를 통해 사전 학습을 수행한다.
  • 질문 단어에 대한 소프트 어텐션을 활용하여 모듈별 텍스트 매개변수를 하드코딩된 단어 배정 대신 제공한다.

실험 결과

연구 질문

  • RQ1외부 파서에 의존하지 않고 엔드투엔드로 학습된 레이아웃 정책이 각 질문에 대해 효과적인 모듈 레이아웃을 예측할 수 있는가?
  • RQ2모듈에 대한 소프트 어텐션 기반 텍스트 매개변수가 고정된 텍스트 매개변수보다 유연성과 성능을 향상시키는가?
  • RQ3초기 지도 복제 여부에 관계없이 엔드투엔드 학습이 해석 가능한, 질문 맞춤의 추론 아키텍처와 구성적 VQA 작업의 정확도 향상을 가져오는가?
  • RQ4이 접근법이 CLEVR에서 최첨단 결과를 달성하고 VQA 데이터셋에서 경쟁력 있는 결과를 내는가?

주요 결과

  • CLEVR에서 모델은 강력한 이득을 달성하며, 행동 복제와 함께 전문가 수준에 근접한 성능과 정책 탐색을 통한 상당한 개선으로 다수의 베이스라인을 능가한다.
  • 모양 데이터에서 행동 복제는 정확도 100%를 달성하고, 제로에서의 정책 탐색은 96.19%를 달성한다.
  • CLEVR 테스트 세트에서 복제 후 정책 탐색을 적용한 방법은 83.7%의 전체 정확도를 달성하며 이전 NMN 베이스라인 및 많은 비모듈식 접근법을 능가한다.
  • VQA에서 복제 전문가 또는 복제 후 정책 탐색을 적용한 모델은 경쟁력 있는 정확도를 달성하고 NMN 및 D-NMN을 능가하며 유사한 시각 특징 하에서 MCB 결과에 근접한다.
  • 본 접근법은 각 질문에 적응하는 해석 가능하고 인스턴스별 네트워크 레이아웃 및 모듈식 아키텍처를 생성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.