QUICK REVIEW

[논문 리뷰] A simple neural network module for relational reasoning

Adam Santoro, David Raposo|arXiv (Cornell University)|2017. 06. 05.

Multimodal Machine Learning Applications참고 문헌 40인용 수 501

한 줄 요약

이 논문은 Relational Networks(RNs)을 관계 추론을 위한 플러그-앤-플레이 모듈로 소개하여 CNN/LSTM 아키텍처가 CLEVR, bAbI, 동적 물리 시스템 태스크에서 최첨단의 초인간 수준의 추론을 수행하도록 한다.

ABSTRACT

Relational reasoning is a central component of generally intelligent behavior, but has proven difficult for neural networks to learn. In this paper we describe how to use Relation Networks (RNs) as a simple plug-and-play module to solve problems that fundamentally hinge on relational reasoning. We tested RN-augmented networks on three tasks: visual question answering using a challenging dataset called CLEVR, on which we achieve state-of-the-art, super-human performance; text-based question answering using the bAbI suite of tasks; and complex reasoning about dynamic physical systems. Then, using a curated dataset called Sort-of-CLEVR we show that powerful convolutional networks do not have a general capacity to solve relational questions, but can gain this capacity when augmented with RNs. Our work shows how a deep learning architecture equipped with an RN module can implicitly discover and learn to reason about entities and their relations.

연구 동기 및 목표

지능적 행동의 중심으로 관계 추론을 동기화하고 이러한 과제에서 표준 신경망의 한계를 확인한다.
객체 쌍 간의 관계를 계산하는 간단하고 plug-and-play 가능한 RN 모듈을 제안한다.
다양한 영역에서 RN의 효과를 보여준다: 시각적 QA(CLEVR), 텍스트 QA(bAbI), 동적 물리 시스템.

제안 방법

RN을 RN(O)=f_phi(sum_{i,j} g_theta(o_i, o_j))로 정의하되, o_i는 객체 표현이다.
g_theta를 사용하여 객체 쌍 간의 관계를 계산하고 f_phi로 관계를 집계한다.
입력을 합산을 통해 순서 불변의 객체 집합으로 처리하도록 허용한다.
가능한 경우 질문 임베딩과 같은 보조 입력에 g_theta를 조건부로 적용한다.
CNN/LSTM 특징에서 업스트림 객체 표현을 학습함으로써 비구조화된 입력에서도 RN이 작동할 수 있음을 보여준다.
Adam과 표준 CNN/LSTM 구성요소로 엔드 투 엔드 학습한다.

실험 결과

연구 질문

RQ1다양한 도메인에서 객체 간의 관계를 추론하는 능력을 향상시키기 위해 전용 관계 모듈이 신경망의 관계 추론 능력을 향상시킬 수 있는가?
RQ2관계 네트워크가 기존 아키텍처에 연결될 때 데이터 효율적이고 순서 불변의 관계 추론을 제공하는가?
RQ3RN이 시각적 QA, 텍스트 QA, 그리고 동적 물리 시스템에서 관계 질문을 해결할 수 있는가?

주요 결과

모델	전반	개수	존재	숫자 비교	속성 질의	속성 비교
사람	92.6	86.7	96.6	86.5	95.0	96.0
Q-type baseline	41.8	34.6	50.2	51.0	36.0	51.3
LSTM	46.8	41.7	61.1	69.8	36.8	51.8
CNN + LSTM	52.3	43.7	65.2	67.1	49.3	53.0
CNN+LSTM+SA	68.5	52.2	71.1	73.5	85.3	52.3
CNN+LSTM+SA*	76.6	64.4	82.7	77.4	82.6	75.4
CNN+LSTM+RN	95.5	90.1	97.8	93.6	97.9	97.1

RN-확장 모델은 CLEVR에서 픽셀로부터 최첨단, 초인간 성과를 달성한다(전체 95.5%).
RN-확장 모델은 상태 설명으로부터 CLEVR에서 96.4% 정확도를 달성한다.
Sort-of-CLEVR에서 CNN+RN은 관계 및 비관계 질문을 모두 >94% 정확도로 해결하는 반면, CNN+MLP는 관계 질문에서 고전한다.
bAbI에서 모델은 18/20 과제를 해결하며 실패 없이 성능을 보인다.
동적 물리 시스템에서 RN은 연결을 93% 정확도로 추론하고 연결된 시스템을 95% 정확도로 계산하여 MLP를 능가한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.