QUICK REVIEW

[논문 리뷰] Learning to Compose Neural Networks for Question Answering

Jacob Andreas, Marcus Rohrbach|arXiv (Cornell University)|2016. 01. 07.

Multimodal Machine Learning Applications인용 수 121

한 줄 요약

동적 신경 모듈 네트워크는 이미지 및 구조화된 지식 베이스에 대한 질문에 답하기 위해 differentiable 모듈을 자동으로 조합하여 질문 특유의 아키텍처를 구성하며, (world, question, answer) 트리플만으로 강화 학습으로 학습됩니다.

ABSTRACT

We describe a question answering model that applies to both images and structured knowledge bases. The model uses natural language strings to automatically assemble neural networks from a collection of composable modules. Parameters for these modules are learned jointly with network-assembly parameters via reinforcement learning, with only (world, question, answer) triples as supervision. Our approach, which we term a dynamic neural model network, achieves state-of-the-art results on benchmark datasets in both visual and structured domains.

연구 동기 및 목표

모듈화된 신경 구성요소를 사용하여 시각적 세계와 구조화된 세계 표현 모두에 대해 질문에 답할 수 있게 한다.
레이아웃 감독 없이 질문으로부터 네트워크 레이아웃을 자동으로 구성한다.
답변 정확도를 최대화하기 위해 모듈과 레이아웃 예측기를 함께 학습한다.
지각과 구조화된 추론을 연결하기 위해 연속 표현을 활용한다.

제안 방법

미분가능한 신경 모듈의 라이브러리를 정의한다 (예: find, lookup, relate, describe, exists).
질문을 z로 표현하여 모듈을 신경망(JzKw)으로 구성하는 방법을 지시하고, 이를 통해 세계 표현 w를 처리한다.
z가 고정되었을 때 역전파를 통한 자동 감독으로 모듈을 학습한다; 레이아웃 주석 없이 p(z|x; θℓ) 레이아웃 선택을 학습하기 위해 REINFORCE를 사용한다.
의존 구문 분석에서 생성된 후보 레이아웃을 소수의 후보 세트로 평가하고, 신경 점수 모델로 레이아웃을 선택하며 정책 경사로 최적화한다.
선택된 레이아웃을 실행하여 p(y|z,w; θe)를 얻고; 표준 역전파로 θe를 업데이트하고 보상 기반으로 REINFORCE 그래디언트를 통해 θℓ을 업데이트한다(정답 정확도에 따라 보상).
개체나 지식 베이스 요소에 대한 주의(attention)를 이용하는 relate 및 exists 모듈을 도입하여 비시각적 세계로 모듈을 확장한다.

실험 결과

연구 질문

RQ1질문으로부터 신경망을 구성하여 다양한 도메인(이미지와 구조화된 데이터)에 걸쳐 답할 수 있도록 시스템이 학습할 수 있는가?
RQ2레이아웃에 대한 감독 없이 모듈 매개변수와 동적 네트워크 레이아웃의 공동 학습이 QA 성능을 향상시키는가?
RQ3연속적이고 미분가능한 모듈이 구조화된 세계 표현과 시각적 데이터 모두에 대해 효과적인 추론을 가능하게 하는가?
RQ4강화 학습이 (world, question, answer) 트리플만으로 레이아웃 예측을 학습하는 실행 가능한 접근 방식인가?

주요 결과

동적 모듈 조합을 사용하여 시각적 질문 응답(VQA)과 구성적 지리 QA GeoQA에서 최첨단 성과를 달성했다.
단순 레이아웃(describe 및 and find)을 선택하는 동적 네트워크를 사용하여 VQA에서 이전 모델보다 더 나았고, GeoQA에서는 순수 논리 모델과 고정 구조 NMN보다 정확도가 더 높았다.
동적 네트워크는 구성적 추론과 양화가 필요한 질문에서 특히 이점을 제공했다.
모델은 이미지의 관련 영역과 지식 베이스의 관련 엔티티에 주의를 집중하도록 학습하여 많은 경우 정확한 답을 가능하게 한다.
GeoQA+Q(양화사와 함께)에서 동적 레이아웃 예측기가 고정 구조 기준선에 비해 뚜렷한 개선을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.