QUICK REVIEW

[논문 리뷰] Independently Controllable Factors

Valentin Thomas, Jules Pondard|arXiv (Cornell University)|2017. 08. 03.

Neural Networks and Applications참고 문헌 6인용 수 51

한 줄 요약

본 논문은 상호작용 환경에서 독립적으로 제어 가능한 요인을 발견하기 위해 오토인코더와 정책을 공동으로 학습시키는 학습 목표를 제안하며, 외적 보상 없이도 해석 가능한 표현(disentangled representations)을 가능하게 한다.

ABSTRACT

It has been postulated that a good representation is one that disentangles the underlying explanatory factors of variation. However, it remains an open question what kind of training framework could potentially achieve that. Whereas most previous work focuses on the static setting (e.g., with images), we postulate that some of the causal factors could be discovered if the learner is allowed to interact with its environment. The agent can experiment with different actions and observe their effects. More specifically, we hypothesize that some of these factors correspond to aspects of the environment which are independently controllable, i.e., that there exists a policy and a learnable feature for each such aspect of the environment, such that this policy can yield changes in that feature with minimal changes to other features that explain the statistical variations in the observed data. We propose a specific objective function to find such factors and verify experimentally that it can indeed disentangle independently controllable aspects of the environment without any extrinsic reward signal.

연구 동기 및 목표

상호작용 환경에서 변화의 기저 요인을 해석 가능하게 분리하는 표현 학습을 고무한다.
일부 요인이 학습된 정책에 의해 독립적으로 제어 가능하다는 메커니즘을 도입한다.
재구성 손실과 선택성/해 disentanglement 항을 결합하는 목표를 제안한다.
외부 보상 없이도 제어 가능한 요인을 회복할 수 있음을 입증한다.

제안 방법

오토인코더로 잠재 표현을 정의하고 각 잠재 특징에 대해 정책을 학습한다.
정책이 자신의 연결된 특징만을 얼마나 변화시키는지 측정하는 선택성 목표를 도입한다.
재구성 손실을 함께 최소화하고 선택성을 최대화하여 제어 가능한 요인을 해리한다.
학습된 임베딩으로 요인에 색인을 부여하고 속성 변화 선택기를 사용하여 연속 임베딩으로 확장한다.
선택성 목표를 최적화하기 위해 REINFORCE를 이용한 정책 경사법을 사용한다.
gridworld 및 MazeBase 환경에서 접근법을 시연하여 제어 가능한 요인의 해리를 보인다.

실험 결과

연구 질문

RQ1특성(feature)와 정책을 함께 학습함으로써 독립적으로 제어 가능한 요인을 자율적으로 발견할 수 있는가?
RQ2재구성을 최소화하고 선택성을 최대화하는 것이 외부 보상 없이 제어 가능한 요인의 해리를 가능하게 하는가?
RQ3요인의 연속 임베딩을 어떻게 활용하여 복잡한 환경에 접근법을 확장할 수 있는가?
RQ4학습된 표현이 계획 또는 정책 추론 작업을 지원할 수 있는가?

주요 결과

이 방법은 gridworld 설정에서 물체 위치와 같은 제어 가능한 요인에 해당하는 잠재 특징을 학습한다.
지시된 선택성으로 해리가 달성되어 명시적 감독 없이도 실제 요인을 회복한다.
MazeBase에서 연속 임베딩 접근법은 기저 요인에 해당하는 변동을 군집화하여 계획 유사 추론을 가능하게 한다.
이 방법은 제어 가능한 요인 변화가 특징 공간의 서로 다른 방향에 대응하는 잠재 공간을 만들어 간단한 정책 추론 작업을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.