QUICK REVIEW

[논문 리뷰] Systematic Generalization: What Is Required and Can It Be Learned?

Dzmitry Bahdanau, Shikhar Murty|arXiv (Cornell University)|2018. 11. 30.

Topic Modeling참고 문헌 33인용 수 25

한 줄 요약

이 논문은 훈련 시 일부 쌍만을 사용하고도 모든 가능한 객체 쌍에 대해 추론할 수 있는 능력을 테스트하는 합성 데이터셋(SQOOP)을 사용하여 시각질문응답(VQA)에서 체계적 일반화를 조사한다. 모듈형 신경망(NMNs)이 수작업으로 설계된 트리 구조 레이아웃을 가진 경우, 일반 모델이나 엔드 투 엔드 NMNs보다 체계적 일반화 성능이 뛰어나며, 후자는 종종 비조합적이고 최적화되지 않은 레이아웃을 학습하여 일반화 능력을 저하시킨다. 이는 강건한 체계적 추론을 달성하기 위해 명시적 인덕티브 바이어스나 정규화 기법이 필요함을 시사한다.

ABSTRACT

Numerous models for grounded language understanding have been recently proposed, including (i) generic models that can be easily adapted to any given task and (ii) intuitively appealing modular models that require background knowledge to be instantiated. We compare both types of models in how much they lend themselves to a particular form of systematic generalization. Using a synthetic VQA test, we evaluate which models are capable of reasoning about all possible object pairs after training on only a small subset of them. Our findings show that the generalization of modular models is much more systematic and that it is highly sensitive to the module layout, i.e. to how exactly the modules are connected. We furthermore investigate if modular models that generalize well could be made more end-to-end by learning their layout and parametrization. We find that end-to-end methods from prior work often learn inappropriate layouts or parametrizations that do not facilitate systematic generalization. Our results suggest that, in addition to modularity, systematic generalization in language understanding may require explicit regularizers or priors.

연구 동기 및 목표

모듈형 신경망 아키텍처(NMNs)가 시각질문응답(VQA)에서 일반 신경망 모델보다 더 강한 체계적 일반화를 지원하는지 평가하는 것.
모듈 레이아웃과 파arametrization이 체계적 일반화 성능에 미치는 영향을 조사하는 것.
NMNs에서 엔드 투 엔드로 레이아웃과 파arametrization을 학습하는 것이 체계적 일반화를 유지하거나 향상시키는지 평가하는 것.
기존 엔드 투 엔드 방법이 NMNs에서 조합적이고 체계적인 해답을 찾는지, 아니면 비조합적이고 최적화되지 않은 해답을 찾는지 확인하는 것.
신경망 모델에서 체계적이고 조합적인 추론으로 향하는 데 있어 명시적 정규화 기법이나 사전 지식이 필요한지 여부를 결정하는 것.

제안 방법

저자들은 모델이 이미지에 있는 무작위로 쌍지어진 객체들에 대해 공간적 관계 질문(예: '문자 A가 숫자 5의 왼쪽에 있는가?')에 답해야 하는 합성 VQA 데이터셋인 SQOOP을 도입한다.
모델들은 작은 객체 쌍의 부분집합에서 훈련되지만, 모든 가능한 쌍에 대해 평가되어 체계적 일반화 능력을 테스트한다.
일반 모델(FiLM, MAC, RelNet 등)과 수작업으로 설계된 모듈 및 고정된 레이아웃을 사용하는 모듈형 NMNs를 비교한다.
레이아웃 유도(학습된 파서를 통한) 및 질문에 대한 소프트 어텐션을 통한 파arametrization 학습을 통해 엔드 투 엔드 변형 NMNs를 평가한다.
레이아웃 구조(예: 트리 대 비트)와 훈련 신호 강도에 따라 모델 성능을 분석한다.
객체 쌍의 다양성이 증가하는 여러 SQOOP 분할(예: #rhs/lhs=1에서 #rhs/lhs=18까지)에 대해 실험을 수행하며, 미리 보지 않은 쌍에 대한 제로샷 일반화 성능을 측정한다.

실험 결과

연구 질문

RQ1모듈형 신경망 아키텍처(NMNs)가 시각질문응답(VQA)에서 일반 신경망 모델보다 더 강한 체계적 일반화를 달성할 수 있는가?
RQ2모듈의 구조적 레이아웃(예: 트리 대 비트)이 체계적 일반화 성능에 어떤 영향을 미치는가?
RQ3데이터로부터 레이아웃이나 파arametrization을 학습하는 엔드 투 엔드 방법은 체계적 일반화를 유지하는가, 아니면 비조합적 해답으로 수렴하는가?
RQ4엔드 투 엔드 NMNs의 성능은 초기화에 민감한가, 특히 많은 수의 미리 보지 않은 객체 쌍이 있는 고복잡도 환경에서 그러한가?
RQ5인덕티브 바이어스나 명시적 정규화 기법이 신경망 모델에서 체계적 일반화를 가능하게 하는 데 어떤 역할을 하는가?

주요 결과

수작업으로 설계된 트리 구조 레이아웃을 가진 모듈형 NMNs는 FiLM, MAC, RelNet 등의 일반 모델보다 특히 미리 보지 않은 객체 쌍에서 훨씬 더 뛰어난 일반화 성능을 보인다.
NMNs의 성능은 레이아웃에 매우 민감하며, 트리 구조 레이아웃은 비트 구조 레이아웃보다 체계적 일반화 능력이 훨씬 뛰어나며, 특히 가장 어려운 분할(#rhs/lhs=18)에서 두드러진다.
레이아웃 또는 파arametrization을 학습하는 엔드 투 엔드 NMNs는 종종 트리 유사한 조합적 구조로 수렴하지 못하고, 비조합적 비트나 흐릿한 어텐션 메커니즘을 학습한다.
강력한 감독이 있음에도 불구하고, 레이아웃 유도 방법은 초기화에 매우 민감하며 종종 체계적 해답을 학습하지 못한다. 이는 명시적 인덕티브 바이어스가 필요함을 시사한다.
파arametrization 유도 방법은 간단한 분할(#rhs/lhs=2)에서는 잠재력을 보이며, 더 풍부한 훈련 신호나 사전 지식이 엔드 투 엔드 NMNs가 체계적 행동으로 유도하는 데 충분할 수 있음을 시사한다.
결과는 엔드 투 엔드 학습만으로는 체계적 일반화가 충분히 달성되지 않으며, 강건한 조합적 추론을 달성하기 위해 명시적 정규화 기법이나 아키텍처적 사전 지식이 필요하다는 가정을 도전한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.