[논문 리뷰] A simple neural network module for relational reasoning
이 논문은 Relational Networks(RNs)을 관계 추론을 위한 플러그-앤-플레이 모듈로 소개하여 CNN/LSTM 아키텍처가 CLEVR, bAbI, 동적 물리 시스템 태스크에서 최첨단의 초인간 수준의 추론을 수행하도록 한다.
Relational reasoning is a central component of generally intelligent behavior, but has proven difficult for neural networks to learn. In this paper we describe how to use Relation Networks (RNs) as a simple plug-and-play module to solve problems that fundamentally hinge on relational reasoning. We tested RN-augmented networks on three tasks: visual question answering using a challenging dataset called CLEVR, on which we achieve state-of-the-art, super-human performance; text-based question answering using the bAbI suite of tasks; and complex reasoning about dynamic physical systems. Then, using a curated dataset called Sort-of-CLEVR we show that powerful convolutional networks do not have a general capacity to solve relational questions, but can gain this capacity when augmented with RNs. Our work shows how a deep learning architecture equipped with an RN module can implicitly discover and learn to reason about entities and their relations.
연구 동기 및 목표
- 지능적 행동의 중심으로 관계 추론을 동기화하고 이러한 과제에서 표준 신경망의 한계를 확인한다.
- 객체 쌍 간의 관계를 계산하는 간단하고 plug-and-play 가능한 RN 모듈을 제안한다.
- 다양한 영역에서 RN의 효과를 보여준다: 시각적 QA(CLEVR), 텍스트 QA(bAbI), 동적 물리 시스템.
제안 방법
- RN을 RN(O)=f_phi(sum_{i,j} g_theta(o_i, o_j))로 정의하되, o_i는 객체 표현이다.
- g_theta를 사용하여 객체 쌍 간의 관계를 계산하고 f_phi로 관계를 집계한다.
- 입력을 합산을 통해 순서 불변의 객체 집합으로 처리하도록 허용한다.
- 가능한 경우 질문 임베딩과 같은 보조 입력에 g_theta를 조건부로 적용한다.
- CNN/LSTM 특징에서 업스트림 객체 표현을 학습함으로써 비구조화된 입력에서도 RN이 작동할 수 있음을 보여준다.
- Adam과 표준 CNN/LSTM 구성요소로 엔드 투 엔드 학습한다.
실험 결과
연구 질문
- RQ1다양한 도메인에서 객체 간의 관계를 추론하는 능력을 향상시키기 위해 전용 관계 모듈이 신경망의 관계 추론 능력을 향상시킬 수 있는가?
- RQ2관계 네트워크가 기존 아키텍처에 연결될 때 데이터 효율적이고 순서 불변의 관계 추론을 제공하는가?
- RQ3RN이 시각적 QA, 텍스트 QA, 그리고 동적 물리 시스템에서 관계 질문을 해결할 수 있는가?
주요 결과
| 모델 | 전반 | 개수 | 존재 | 숫자 비교 | 속성 질의 | 속성 비교 |
|---|---|---|---|---|---|---|
| 사람 | 92.6 | 86.7 | 96.6 | 86.5 | 95.0 | 96.0 |
| Q-type baseline | 41.8 | 34.6 | 50.2 | 51.0 | 36.0 | 51.3 |
| LSTM | 46.8 | 41.7 | 61.1 | 69.8 | 36.8 | 51.8 |
| CNN + LSTM | 52.3 | 43.7 | 65.2 | 67.1 | 49.3 | 53.0 |
| CNN+LSTM+SA | 68.5 | 52.2 | 71.1 | 73.5 | 85.3 | 52.3 |
| CNN+LSTM+SA* | 76.6 | 64.4 | 82.7 | 77.4 | 82.6 | 75.4 |
| CNN+LSTM+RN | 95.5 | 90.1 | 97.8 | 93.6 | 97.9 | 97.1 |
- RN-확장 모델은 CLEVR에서 픽셀로부터 최첨단, 초인간 성과를 달성한다(전체 95.5%).
- RN-확장 모델은 상태 설명으로부터 CLEVR에서 96.4% 정확도를 달성한다.
- Sort-of-CLEVR에서 CNN+RN은 관계 및 비관계 질문을 모두 >94% 정확도로 해결하는 반면, CNN+MLP는 관계 질문에서 고전한다.
- bAbI에서 모델은 18/20 과제를 해결하며 실패 없이 성능을 보인다.
- 동적 물리 시스템에서 RN은 연결을 93% 정확도로 추론하고 연결된 시스템을 95% 정확도로 계산하여 MLP를 능가한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.