Skip to main content
QUICK REVIEW

[논문 리뷰] Data Quality in Imitation Learning

Suneel Belkhale, Yuchen Cui|arXiv (Cornell University)|2023. 06. 04.
Domain Adaptation and Few-Shot Learning인용 수 7
한 줄 요약

논문은 모방 학습에서 데이터 품질을 행동 차이(action divergence)와 전이 다양성(transition diversity)을 통해 형식화하고, 이들 특성과 지평선 길이 및 노이즈가 정책 성능과 데이터 큐레이션에 어떤 영향을 미치는지 실증적으로 보여준다.

ABSTRACT

In supervised learning, the question of data quality and curation has been over-shadowed in recent years by increasingly more powerful and expressive models that can ingest internet-scale data. However, in offline learning for robotics, we simply lack internet scale data, and so high quality datasets are a necessity. This is especially true in imitation learning (IL), a sample efficient paradigm for robot learning using expert demonstrations. Policies learned through IL suffer from state distribution shift at test time due to compounding errors in action prediction, which leads to unseen states that the policy cannot recover from. Instead of designing new algorithms to address distribution shift, an alternative perspective is to develop new ways of assessing and curating datasets. There is growing evidence that the same IL algorithms can have substantially different performance across different datasets. This calls for a formalism for defining metrics of "data quality" that can further be leveraged for data curation. In this work, we take the first step toward formalizing data quality for imitation learning through the lens of distribution shift: a high quality dataset encourages the policy to stay in distribution at test time. We propose two fundamental properties that shape the quality of a dataset: i) action divergence: the mismatch between the expert and learned policy at certain states; and ii) transition diversity: the noise present in the system for a given state and action. We investigate the combined effect of these two key properties in imitation learning theoretically, and we empirically analyze models trained on a variety of different data sources. We show that state diversity is not always beneficial, and we demonstrate how action divergence and transition diversity interact in practice.

연구 동기 및 목표

  • 배포 분포의 변화(distribution shift)에 근거한 모방 학습용 데이터 품질의 형식적 개념 정의.
  • 데이터 품질의 형성을 좌우하는 두 가지 핵심 특성—action divergence와 transition diversity—를 식별한다.
  • 이 특성들이 시간에 따라 어떻게 상호 작용하고 지평선 길이와 노이즈와 같은 데이터 특성과 함께 어떤 영향을 주는지 분석한다.
  • 모방 학습 성능 향상을 위한 데이터 중심 데이터 큐레이션 전략에 대한 통찰을 제안한다.

제안 방법

  • IL 알고리즘 하에서 학습된 상태 방문과 전문가 상태 방문 사이의 음의 f-발산(negative f-divergence)으로 데이터 품질을 모델링한다.
  • 특정 상태에서 학습된 행동 분포와 전문가 행동 분포 간의 불일치를 action divergence로 정의한다.
  • 특정 상태와 행동에 주어진 환경의 노이즈/동역학 다양성을 transition diversity로 정의한다.
  • 분포 변화와 action divergence 사이의 경계(bound)를 증명하고 시간적 효과를 설명한다.
  • 여러 환경에서 데이터 노이즈(Data Noising) (시스템 노이즈와 정책 노이즈)와 데이터 측정(Data Measuring) (인간 데이터 vs 기계 데이터)를 실증적으로 연구한다.
  • 데이터 간의 액션 분산, 지평선 길이, 상태 유사성 등과 같은 지표를 사용하여 데이터 품질 요인을 측정한다.
Figure 1: Case Study : Trajectories and action variance for scripted (left two plots) compared to human demonstration data (right two plots). Even though the human data (right) has high state coverage, the action variance is high, leading to high action divergence, and vice versa.
Figure 1: Case Study : Trajectories and action variance for scripted (left two plots) compared to human demonstration data (right two plots). Even though the human data (right) has high state coverage, the action variance is high, leading to high action divergence, and vice versa.

실험 결과

연구 질문

  • RQ1배포 분포의 변화에 대응하기 위해 모방 학습에서 데이터 품질을 어떻게 정의하고 측정해야 하는가?
  • RQ2action divergence와 transition diversity가 데이터 셋 품질과 정책 성능을 형성하는 데 어떤 역할을 하는가?
  • RQ3이러한 특성들이 실제로 데이터 셋의 크기, 지평선 길이, 환경 노이즈와 어떻게 상호 작용하는가?
  • RQ4데이터 중심의 큐레이션 전략이 알고리즘 중심의 수정보다 IL 성능을 더 효과적으로 향상시킬 수 있는가?

주요 결과

  • action divergence와 transition diversity는 분포 변화와 IL 성능에 공동으로 영향을 미친다.
  • 상태 다양성만으로는 더 나은 IL 성능을 보장하지 않으며, 행동 일관성이 결정적이다.
  • 데이터 수집 중 시스템 노이즈는 충분한 데이터가 있을 때 특히 action divergence에 대한 강건성 향상을 가져올 수 있다.
  • 정책 노이즈(인간의 비최적 행동)는 데이터가 부족한 경우 성능에 해를 끼칠 수 있으며, 전이 다양성으로 상쇄되지 않는 한 그렇다.
  • 인간 데이터 세트에서의 데이터 측정은 더 높은 행동 분산과 더 긴 지평선이 반드시 더 높은 성공과 상관관계가 있지 않음을 보여 주며, 데이터 품질의 복잡성을 강조한다.
  • 일정 수준의 전이 다양성은 노이즈가 있거나 비최적의 전문가 시연의 악영향을 완화할 수 있다.
Figure 2: BC Success rates in PMObstacle (top row) for 1000 and 10 episodes of data, and in Square (bottom row) for 200 and 50 episodes of data (error bars over 3 datasets). X-axis corresponds to injected Gaussian noise in the dataset and each line corresponds to injected system noise ( $\sigma_{s}$
Figure 2: BC Success rates in PMObstacle (top row) for 1000 and 10 episodes of data, and in Square (bottom row) for 200 and 50 episodes of data (error bars over 3 datasets). X-axis corresponds to injected Gaussian noise in the dataset and each line corresponds to injected system noise ( $\sigma_{s}$

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.