Skip to main content
QUICK REVIEW

[논문 리뷰] Behavior Transformers: Cloning $k$ modes with one stone

Nur Muhammad Mahi Shafiullah, Zichen Jeff Cui|arXiv (Cornell University)|2022. 06. 22.
Reinforcement Learning in Robotics인용 수 31
한 줄 요약

BeT는 연속적 행동을 빈으로 이산화하고 잔여 오프셋을 도입하여 다중 모달, 라벨이 없는 시演을 모방하는 트랜스포머 기반 접근법을 제시하며, 오프라인 데이터와 온라인 롤아웃을 위한 다중 모달 행동 복제를 가능하게 한다.

ABSTRACT

While behavior learning has made impressive progress in recent times, it lags behind computer vision and natural language processing due to its inability to leverage large, human-generated datasets. Human behaviors have wide variance, multiple modes, and human demonstrations typically do not come with reward labels. These properties limit the applicability of current methods in Offline RL and Behavioral Cloning to learn from large, pre-collected datasets. In this work, we present Behavior Transformer (BeT), a new technique to model unlabeled demonstration data with multiple modes. BeT retrofits standard transformer architectures with action discretization coupled with a multi-task action correction inspired by offset prediction in object detection. This allows us to leverage the multi-modal modeling ability of modern transformers to predict multi-modal continuous actions. We experimentally evaluate BeT on a variety of robotic manipulation and self-driving behavior datasets. We show that BeT significantly improves over prior state-of-the-art work on solving demonstrated tasks while capturing the major modes present in the pre-collected datasets. Finally, through an extensive ablation study, we analyze the importance of every crucial component in BeT. Videos of behavior generated by BeT are available at https://notmahi.github.io/bet

연구 동기 및 목표

  • 보상 라벨이 없는 분포적으로 다중 모달인 시연 데이터셋에서 학습을 촉진한다.
  • 트랜스포머를 사용하여 다중 모달한 행동 분포를 포착하는 확장 가능한 아키텍처를 제안한다.
  • 연속적 행동을 잔여 오프셋 헤드로 이산 bin에서 재구성할 수 있게 한다.
  • 로봇공학 및 자율주행 데이터셋에서 BeT를 시연하여 다중 모달 행동 복제의 향상을 보여준다.
  • binning, offsets, history 및 transformer 백본의 기여를 식별하기 위한 제거 실험을 제공한다.

제안 방법

  • 동작을 이산적 액션 빈(중심)과 연속 잔여(offset)로 분해하고, 동작의 k-평균 클러스터링을 사용한다.
  • 관찰 이력에 조건화된 액션 빈 시퀀스를 예측하기 위해 트랜스포머 디코더(minGPT)를 사용한다.
  • 다중 모달성을 다루기 위해 예측된 빈 분포에 focal loss를 사용하여 학습한다.
  • k개의 빈에 대응하는 k개의 잔여 벡터를 출력하는 잔여(offset) 헤드를 추가하고, 실제 빈의 잔여만 벌점을 주는 다중 작업 손실로 학습한다.
  • 추론 중에 예측 분포에서 빈을 샘플링하고 대응하는 잔여를 더하여 연속적 행동을 재구성한다.
  • 초기화 이후 k-means 중심을 고정하여 학습 및 평가를 안정화한다.

실험 결과

연구 질문

  • RQ1BeT가 다중 모달 시연 데이터셋에 존재하는 여러 모드를 재현하고 포괄할 수 있는가?
  • RQ2관찰 및 동작 차원이 다른 환경들에서 BeT가 온라인 롤아웃에서 베이스라인과 비교하여 어떤 성능을 보이는가?
  • RQ3이산적 액션 빈 할당, 잔여(offset), 히스토리 및 트랜스포머 아키텍처가 BeT의 성능에 미치는 영향은 무엇인가?
  • RQ4BeT가 장기 시퀀스 작업에서 단일 모드로 수렴하지 않고 다중 모달을 유지하는가?

주요 결과

  • BeT는 온라인 롤아웃 중 다중 모달 데이터셋에서 기존 행동 복제 방법들보다 우수한 성능을 보인다.
  • BeT는 학습 데이터에 존재하는 주요 모드를 포착하고 단일 모드로 수렴하지 않는다.
  • 이산 액션 빈 할당과 잔여(offset) 헤드는 성능에 있어 모두 필수적이며, 특히 차원이 높은 행동 공간에서 그렇다.
  • 역사적 맥락을 포함시키면 다양한 환경에서 BeT의 시연된 행동에 대한 일관성이 향상된다.
  • BeT는 계산 효율성이 경쟁적이며 일부 베이스라인보다 롤아웃이 훨씬 빠르다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.