[논문 리뷰] Embodied Lifelong Learning for Task and Motion Planning
이 논문은 구현 기반 TAMP를 위한 지속적 샘플러 학습을 체계화하고, 작업 수명 주기 동안 계획 성능을 향상시키기 위해 온라인으로 전문 샘플러와 일반 샘플러를 선택하는 중첩 확산 샘퍼의 혼합을 제안한다.
A robot deployed in a home over long stretches of time faces a true lifelong learning problem. As it seeks to provide assistance to its users, the robot should leverage any accumulated experience to improve its own knowledge and proficiency. We formalize this setting with a novel formulation of lifelong learning for task and motion planning (TAMP), which endows our learner with the compositionality of TAMP systems. Exploiting the modularity of TAMP, we develop a mixture of generative models that produces candidate continuous parameters for a planner. Whereas most existing lifelong learning approaches determine a priori how data is shared across various models, our approach learns shared and non-shared models and determines which to use online during planning based on auxiliary tasks that serve as a proxy for each model's understanding of a state. Our method exhibits substantial improvements (over time and compared to baselines) in planning success on 2D and BEHAVIOR domains.
연구 동기 및 목표
- 작업 및 모션 플래닝(TAMP)을 실제 평생 환경에서 지속적 학습으로 형식화한다.
- TAMP의 모듈화를 활용하여 계획 성공에 영향을 주는 연속 매개변수를 생성하는 샘플러를 학습한다.
- 보조 과제를 통해 일반 샘플러와 특수 샘플러 간의 온라인 선택을 가능케 하는 생성 모델의 혼합을 개발한다.
- 2D 및 BEHAVIOR 도메인에서 시간에 따른 계획 성능 향상을 시연한다.
제안 방법
- 상태에 조건화된 연속 매개변수를 생성하는 확산 모델로 추상 동작에 대한 샘플러를 표현한다.
- 데이터가 희소할 때 데이터를 모으는 것을 가능하게 하는 일반 샘플러와 객체 유형별 특수 샘플러를 결합하는 중첩 모델 접근법을 사용한다.
- 보조 신호 z를 통해 샘플러 신뢰성을 평가하는 보조 예측기를 훈련시키고, 신뢰성에 따라 샘플러 샘플에 가중치를 부여하는 혼합 분포를 형성한다.
- SeSamE(검색-후 샘플) 이층 계획 프레임워크를 채택하여 뼈대는 이산 수준에서 생성되고 연속 매개변수 샘플링으로 정제한다.
- 망각을 방지하기 위해 재생/재학습 전략과 오래된 데이터와 새로운 데이터를 간단히 혼합하는 방식으로 지속적 데이터로 샘플러를 학습한다.
![Figure 1: The learning robot will face a sequence of diverse TAMP problems in a true lifelong setting. It will use its current models to solve each problem as efficiently as possible, and then use any collected data to improve those models for the future. Images captured from BEHAVIOR [ 1 ] .](https://ar5iv.labs.arxiv.org/html/2307.06870/assets/x1.png)
실험 결과
연구 질문
- RQ1확산 기반 샘플러가 평생 설정에서 TAMP를 위한 유용한 연속 매개변수 분포를 학습할 수 있는가?
- RQ2제한된 데이터에서 특수 샘플러와 일반 샘플러의 혼합이 계획 효율성을 향상시키는가?
주요 결과
- 데이터로 학습된 확산 모델 샘플러는 관찰된 성공 및 유효한 동작 분포와 정렬되는 분포를 생성한다.
- 중첩 샘플러의 혼합은 기본값 baselines를 능가하며, 특히 데이터가 적은 상황에서 그렇다.
- 평생 평가에서 혼합 방식이 기본선 및 균일 샘플링 대비 해결한 누적 문제 수를 크게 향상시킨다.
- BEHAVIOR 도메인에서 지속적 학습자는 수동 설계 시작 샘플러보다 향상되며 실제 도메인에서 지속적 개선을 보여준다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.