[論文レビュー] Data Quality in Imitation Learning
要約: 本論文は模倣学習におけるデータ品質を action divergence(行動分岐)と transition diversity(遷移多様性)で形式化し、これらの性質が horizon やノイズと共にポリシー性能とデータキュレーションにどのように影響するかを実証的に示す。
In supervised learning, the question of data quality and curation has been over-shadowed in recent years by increasingly more powerful and expressive models that can ingest internet-scale data. However, in offline learning for robotics, we simply lack internet scale data, and so high quality datasets are a necessity. This is especially true in imitation learning (IL), a sample efficient paradigm for robot learning using expert demonstrations. Policies learned through IL suffer from state distribution shift at test time due to compounding errors in action prediction, which leads to unseen states that the policy cannot recover from. Instead of designing new algorithms to address distribution shift, an alternative perspective is to develop new ways of assessing and curating datasets. There is growing evidence that the same IL algorithms can have substantially different performance across different datasets. This calls for a formalism for defining metrics of "data quality" that can further be leveraged for data curation. In this work, we take the first step toward formalizing data quality for imitation learning through the lens of distribution shift: a high quality dataset encourages the policy to stay in distribution at test time. We propose two fundamental properties that shape the quality of a dataset: i) action divergence: the mismatch between the expert and learned policy at certain states; and ii) transition diversity: the noise present in the system for a given state and action. We investigate the combined effect of these two key properties in imitation learning theoretically, and we empirically analyze models trained on a variety of different data sources. We show that state diversity is not always beneficial, and we demonstrate how action divergence and transition diversity interact in practice.
研究の動機と目的
- 模倣学習における分布シフトに基づくデータ品質の正式な概念を定義する。
- データ品質を形作る2つのコア特性— action divergence(行動分岐)と transition diversity(遷移多様性)— を特定する。
- これらの性質が時間とデータ特性(ホライズン長さやノイズ)とどのように相互作用するかを分析する。
- 模倣学習の性能向上のためのデータ中心のデータセットキュレーションの洞察を提案する。
提案手法
- ILアルゴリズムの下で学習状態訪問と専門家状態訪問の間のnegative f-ダイバージョンとしてデータ品質をモデル化する。
- 状態における learned action 分布と expert action 分布の不一致として action divergence を定義する。
- 状態と行動を与えたときの環境ノイズ/動力学の多様性として transition diversity を定義する。
- 分布シフトと action divergence との間の境界を証明し、時間的効果を描く。
- データノイジング(システムノイズとポリシーノイズ)とデータ測定(人間データ vs 機械データ)を環境を跨いで実証的に研究する。
- データ品質要因を action variance、ホライズン長、データセット間の状態類似性などの指標で測定する。

実験結果
リサーチクエスチョン
- RQ1模倣学習において分布シフトを考慮してデータ品質を定義・測定するにはどうすればよいか?
- RQ2action divergence と transition diversity はデータセット品質とポリシー性能の形成にどのような役割を果たすか?
- RQ3実際にはこれらの性質はデータセットサイズ、ホライズン長、環境ノイズとどのように相互作用するか?
- RQ4データ中心のキュレーション戦略はアルゴリズム中心の修正より IL の性能をより効果的に向上させることができるか?
主な発見
- Action divergence と transition diversity は分布シフトと IL の性能に共同で影響を与える。
- 状態の多様性だけでは必ずしも IL の性能向上を保証せず、行動の一貫性が重要である。
- データ収集時のシステムノイズは action divergence に対する頑健性を向上させ得るが、十分なデータがある場合に限る。
- ポリシーノイズ(人間のようなサブ最適な行動)は、データが少ない領域では性能を悪化させ得るが、遷移多様性が補えば抑制できる。
- 人間データセットでのデータ測定は、より高い行動分散や長いホライズン長が必ずしも成功に結びつかないことを示し、データ品質の複雑さを浮き彫りにする。
- 遷移多様性を一定程度提供することで、ノイズのあるまたはサブ最適な専門家デモンストレーションの悪影響を緩和できる。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。