Skip to main content
QUICK REVIEW

[논문 리뷰] Learning to Compose Neural Networks for Question Answering

Jacob Andreas, Marcus Rohrbach|arXiv (Cornell University)|2016. 01. 07.
Multimodal Machine Learning Applications인용 수 121
한 줄 요약

동적 신경 모듈 네트워크는 이미지 및 구조화된 지식 베이스에 대한 질문에 답하기 위해 differentiable 모듈을 자동으로 조합하여 질문 특유의 아키텍처를 구성하며, (world, question, answer) 트리플만으로 강화 학습으로 학습됩니다.

ABSTRACT

We describe a question answering model that applies to both images and structured knowledge bases. The model uses natural language strings to automatically assemble neural networks from a collection of composable modules. Parameters for these modules are learned jointly with network-assembly parameters via reinforcement learning, with only (world, question, answer) triples as supervision. Our approach, which we term a dynamic neural model network, achieves state-of-the-art results on benchmark datasets in both visual and structured domains.

연구 동기 및 목표

  • 모듈화된 신경 구성요소를 사용하여 시각적 세계와 구조화된 세계 표현 모두에 대해 질문에 답할 수 있게 한다.
  • 레이아웃 감독 없이 질문으로부터 네트워크 레이아웃을 자동으로 구성한다.
  • 답변 정확도를 최대화하기 위해 모듈과 레이아웃 예측기를 함께 학습한다.
  • 지각과 구조화된 추론을 연결하기 위해 연속 표현을 활용한다.

제안 방법

  • 미분가능한 신경 모듈의 라이브러리를 정의한다 (예: find, lookup, relate, describe, exists).
  • 질문을 z로 표현하여 모듈을 신경망(JzKw)으로 구성하는 방법을 지시하고, 이를 통해 세계 표현 w를 처리한다.
  • z가 고정되었을 때 역전파를 통한 자동 감독으로 모듈을 학습한다; 레이아웃 주석 없이 p(z|x; θℓ) 레이아웃 선택을 학습하기 위해 REINFORCE를 사용한다.
  • 의존 구문 분석에서 생성된 후보 레이아웃을 소수의 후보 세트로 평가하고, 신경 점수 모델로 레이아웃을 선택하며 정책 경사로 최적화한다.
  • 선택된 레이아웃을 실행하여 p(y|z,w; θe)를 얻고; 표준 역전파로 θe를 업데이트하고 보상 기반으로 REINFORCE 그래디언트를 통해 θℓ을 업데이트한다(정답 정확도에 따라 보상).
  • 개체나 지식 베이스 요소에 대한 주의(attention)를 이용하는 relate 및 exists 모듈을 도입하여 비시각적 세계로 모듈을 확장한다.

실험 결과

연구 질문

  • RQ1질문으로부터 신경망을 구성하여 다양한 도메인(이미지와 구조화된 데이터)에 걸쳐 답할 수 있도록 시스템이 학습할 수 있는가?
  • RQ2레이아웃에 대한 감독 없이 모듈 매개변수와 동적 네트워크 레이아웃의 공동 학습이 QA 성능을 향상시키는가?
  • RQ3연속적이고 미분가능한 모듈이 구조화된 세계 표현과 시각적 데이터 모두에 대해 효과적인 추론을 가능하게 하는가?
  • RQ4강화 학습이 (world, question, answer) 트리플만으로 레이아웃 예측을 학습하는 실행 가능한 접근 방식인가?

주요 결과

  • 동적 모듈 조합을 사용하여 시각적 질문 응답(VQA)과 구성적 지리 QA GeoQA에서 최첨단 성과를 달성했다.
  • 단순 레이아웃(describe 및 and find)을 선택하는 동적 네트워크를 사용하여 VQA에서 이전 모델보다 더 나았고, GeoQA에서는 순수 논리 모델과 고정 구조 NMN보다 정확도가 더 높았다.
  • 동적 네트워크는 구성적 추론과 양화가 필요한 질문에서 특히 이점을 제공했다.
  • 모델은 이미지의 관련 영역과 지식 베이스의 관련 엔티티에 주의를 집중하도록 학습하여 많은 경우 정확한 답을 가능하게 한다.
  • GeoQA+Q(양화사와 함께)에서 동적 레이아웃 예측기가 고정 구조 기준선에 비해 뚜렷한 개선을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.