QUICK REVIEW

[논문 리뷰] Probabilistic Neural-symbolic Models for Interpretable Visual Question Answering

Ramakrishna Vedantam, Karan Desai|arXiv (Cornell University)|2019. 02. 21.

Multimodal Machine Learning Applications인용 수 32

한 줄 요약

논문은 잠재적으로 심볼릭 프로그램을 생성하는 인스턴스화된 신경 모듈을 통해 답을 생성하는 VQA를 위한 확률적 신경-심볼릭 모델 Prob-NMN을 소개합니다. 데이터 효율적 가독성을 보이고 일관성 및 추론 민감도 프로빙을 가능하게 하며, 저감감독 환경에서 CLEVR와 SHAPES에서 개선을 보입니다.

ABSTRACT

We propose a new class of probabilistic neural-symbolic models, that have symbolic functional programs as a latent, stochastic variable. Instantiated in the context of visual question answering, our probabilistic formulation offers two key conceptual advantages over prior neural-symbolic models for VQA. Firstly, the programs generated by our model are more understandable while requiring lesser number of teaching examples. Secondly, we show that one can pose counterfactual scenarios to the model, to probe its beliefs on the programs that could lead to a specified answer given an image. Our results on the CLEVR and SHAPES datasets verify our hypotheses, showing that the model gets better program (and answer) prediction accuracy even in the low data regime, and allows one to probe the coherence and consistency of reasoning performed.

연구 동기 및 목표

심볼릭 프로그램이 잠재 변수인 VQA용 확률적 신경-심볼릭 프레임워크를 도입한다.
제한된 프로그램 감독 하에서 가독성 있고 인간이 이해 가능한 추론을 달성한다.
일관성 및 민감도 테스트를 통해 모델의 추론을 프로빙한다.
CLEVR 및 SHAPES 데이터셋에서 저데이터 상황에서의 성능 향상을 시연한다.

제안 방법

p(x, z, a | i) = p(z) p(x | z) p(a | i; θ_z) 를 z를 잠재 프로그램으로 하고 신경 모듈 θ_z를 프로그램 기호마다 인스턴스화하여 정의한다.
질문을 잠재 프로그램으로 매핑하기 위해 추론 네트워크 q_φ(z | x)를 사용한다.
질문 인코딩, 모듈 학습, 공동 학습의 3단계 과정을 통해 학습한다.
Semi-supervised 및 supervised 설정에 대한 변분 하한을 도출하고 단계적 최적화 전략을 사용한다.
LSTMs로 p(z), p(x|z), qφ(z|x)를 매개하고, 프로그램 기호마다 신경 모듈 θ_z를 인스턴스화하며, 사전 프로그램 prior p(z)를 사전학습한다.
비미분가능 구성요소를 최적화하기 위해 스케일링 인자 α, β, γ와 REINFORCE를 활용한다.

실험 결과

연구 질문

RQ1Prob-NMN이 제한된 질문-프로그램 감독 하에서 의미 있는 프로그램 표현을 학습할 수 있는가?
RQ2확률적 잠재 프로그램을 포함시키면 데이터 효율성과 추론 과정의 가독성이 향상되는가?
RQ3모델의 잠재 추론을 일관성(coherence, 동일한 답으로 이어지는 여러 프로그램 간의 일관성) 및 민감도(same/different answer의 변화가 추론에 반영되는 정도)로 프로빙할 수 있는가?
RQ4제안된 방법들이 저감독 상황에서 CLEVR 및 SHAPES에서 VQA 정확도와 프로그램 예측을 향상시키는가?

주요 결과

Prob-NMN은 데이터가 희소한 상황에서 비확률적 기준선 대비 지속적으로 성능을 향상시킨다.
Prob-NMN으로의 질문 인코딩은 제한된 감독 하에서 기준선 대비 훨씬 높은 프로그램 예측 정확도를 달성한다.
공동 및 모듈 학습은 이전의 신경-기호적 적응보다 더 높은 VQA 정확도와 더 질적으로(가독성이 더 높은)인 프로그램을 얻는다.
SHAPES에서 Prob-NMN은 프로그램 감독이 5%를 초과할 때 NMN보다 테스트 VQA 정확도가 30–35포인트 높다.
Prob-NMN은 p(z | i, a)를 샘플링해 다양한/동일한 답에 대한 추론의 일관성과 민감성을 프로빙할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.