Skip to main content
QUICK REVIEW

[논문 리뷰] Automatically Composing Representation Transformations as a Means for Generalization

Michael B. Chang, Abhishek Gupta|arXiv (Cornell University)|2018. 07. 12.
Topic Modeling참고 문헌 94인용 수 24
한 줄 요약

이 논문은 복잡한 문제를 이전의 부분 문제에 유사성에 기반해 추론함으로써 해결하는 데에 자동으로 재사용 가능한 표현 변환을 조합하는 도메인 일반적인 프레임워크인 조합적 순환 학습자(Compositional Recursive Learner, CRL)를 소개한다. CRL은 희소 지도 학습과 커리큘럼 학습을 통해 모듈화되고 계층적인 계산을 학습함으로써, 훈련 중에 관찰한 것보다 더 길고 더 복잡한 문제에 대해 강력한 제로샷 일반화 성능을 달성하며, 기호 산술 및 시각 작업에서 비조합적 기준 모델을 능가한다.

ABSTRACT

A generally intelligent learner should generalize to more complex tasks than it has previously encountered, but the two common paradigms in machine learning -- either training a separate learner per task or training a single learner for all tasks -- both have difficulty with such generalization because they do not leverage the compositional structure of the task distribution. This paper introduces the compositional problem graph as a broadly applicable formalism to relate tasks of different complexity in terms of problems with shared subproblems. We propose the compositional generalization problem for measuring how readily old knowledge can be reused and hence built upon. As a first step for tackling compositional generalization, we introduce the compositional recursive learner, a domain-general framework for learning algorithmic procedures for composing representation transformations, producing a learner that reasons about what computation to execute by making analogies to previously seen problems. We show on a symbolic and a high-dimensional domain that our compositional approach can generalize to more complex problems than the learner has previously encountered, whereas baselines that are not explicitly compositional do not.

연구 동기 및 목표

  • 이전에 본 바와는 더 복잡한 작업으로 일반화하는 데 도전하는 것, 특히 이전의 해결책이 직접 적용되지 않는 경우에 특히 그렇다.
  • 조합적 문제 그래프를 사용해 작업 간의 조합적 구조를 형식화함으로써 부분 해결책의 재사용을 가능하게 하는 것.
  • 자동으로 재사용 가능한 변환 모듈을 발견하고 조합하는 도메인 일반적인 학습 프레임워크를 개발하는 것.
  • 유사성에 기반한 추론을 통해 이전에 학습한 변환에 대해 메타 추론을 수행함으로써 새로운 더 복잡한 문제를 해결할 수 있도록 하는 것.
  • 조합적 일반화를 벤치마크로 삼아 훈련 분포를 초월한 일반화를 평가하는 것.

제안 방법

  • CRL은 각 변환이 모듈화된 계산 단위인 표현 변환에 대한 알고리즘 절차를 학습하는 문제 해결 방식으로 프레임워크를 설정한다.
  • 프레임워크는 메타 수준의 마르코프 결정 과정(MDP)에서 모듈을 순차적으로 적용하는 컨트롤러를 사용하며, 각 단계에서 어떤 변환을 적용할지 결정한다.
  • 모듈은 작업에 종속되지 않은 재사용 가능한 功能을 장려하기 위해 희소 지도 학습과 국소 작업 시각화를 통해 훈련된다.
  • 커리큘럼 훈련 방식은 모델이 점점 더 복잡한 문제들에 노출되도록 하여 알려진 부분 해결책의 재사용을 촉진한다.
  • 컨트롤러는 깊이 강화 학습을 사용하여 최적의 조합 정책을 학습하며, 이는 재귀와 루프 유사 행동을 가능하게 한다.
  • 표현 변환은 엔드 투 엔드로 학습되며, 시스템은 반복적인 모듈 적용을 통해 입력을 더 익숙한 형태로 재표현한다.

실험 결과

연구 질문

  • RQ1학습 중에 본 바가 없더라도, 이전에 학습한 부분 해결책을 조합함으로써 더 복잡한 문제에 일반화할 수 있는가?
  • RQ2문제 분포에 있는 조합적 구조는 단일 또는 작업 특화 모델에 비해 더 나은 일반화를 어떻게 가능하게 하는가?
  • RQ3구성 순서에 대한 명시적 지도 없이도 모델이 유사성에 기반해 추론하고 변환을 조합하는 데 얼마나 잘 학습할 수 있는가?
  • RQ4메타 추론 컨트롤러는 자기 지도 학습을 통해 새로운 문제를 알려진 부분 문제들로 분해하는 데 성공할 수 있는가?
  • RQ5이러한 접근은 분포 이탈과 훨씬 더 길거나 더 복잡한 문제로의 외삽에 대해 얼마나 강건한가?

주요 결과

  • 다국어 산술 문제에서 CRL은 2~5항 문제로 훈련한 후 100항 문제에서 60%의 정확도를 달성했으며, 무작위 추측 기준 10%보다 훨씬 높았다.
  • MNIST 공간 변환 작업에서 CRL은 훈련 중에 관찰한 것보다 더 복잡한 공간적 왜곡에 일반화했으며, 분포 이탈에 대한 강건성을 보였다.
  • 실행 추적을 통해 CRL이 언어 번역 모듈과 산술 해결 모듈을 새로운 방식으로 조합하는 것을 확인했으며, 예를 들어 줄어든 답을 목표 언어로 번역하는 방식이었다.
  • 모델는 순서의 법칙을 매우 민첩하게 적용했으며, 엄격한 순서에서 벗어나더라도 정확한 결과에 도달했다.
  • CRL은 강력한 외삽 능력을 보였으며, 10항에서 20항 산술 식으로 외삽할 때 약 80%의 정확도를 유지했다.
  • 모듈 수의 변동에 대해 강건했으며, 다양한 아키텍처 구성에서도 안정된 성능을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.