QUICK REVIEW

[論文レビュー] Learning to Fly by Crashing

Dhiraj Gandhi, Lerrel Pinto|arXiv (Cornell University)|Apr 19, 2017

Robotic Path Planning Algorithms参考文献 17被引用数 23

ひとこと要約

本論文は、11,500件の実世界ドローン衝突データを収集することで、大規模なネガティブデータセットを構築し、UAVナビゲーションの自己教師あり学習アプローチを提案する。これらの失敗から衝突を示す視覚的パターンを学習することで、透明なガラスドアやテクスチャのない壁など、障害物を回避する能力を発揮し、深度ベースのベースラインを上回り、複雑な環境でも人間の性能に匹敵する。

ABSTRACT

How do you learn to navigate an Unmanned Aerial Vehicle (UAV) and avoid obstacles? One approach is to use a small dataset collected by human experts: however, high capacity learning algorithms tend to overfit when trained with little data. An alternative is to use simulation. But the gap between simulation and real world remains large especially for perception problems. The reason most research avoids using large-scale real data is the fear of crashes! In this paper, we propose to bite the bullet and collect a dataset of crashes itself! We build a drone whose sole purpose is to crash into objects: it samples naive trajectories and crashes into random objects. We crash our drone 11,500 times to create one of the biggest UAV crash dataset. This dataset captures the different ways in which a UAV can crash. We use all this negative flying data in conjunction with positive data sampled from the same trajectories to learn a simple yet powerful policy for UAV navigation. We show that this simple self-supervised model is quite effective in navigating the UAV even in extremely cluttered environments with dynamic obstacles including humans. For supplementary video see: https://youtu.be/u151hJaGKUo

研究の動機と目的

エキスパートのデモンストレーションやシミュレーションに依存せずに、UAVナビゲーションにおけるデータボトルネックを解消するため、大規模な実世界の衝突データを収集すること。
ネガティブな、衝突に基づくデータが、人間によるアノテーション付き軌道なしに、効果的なナビゲーションポリシーを学習するために活用可能かどうかを調査すること。
動的で挑戦的な障害物を有する複雑な実世界屋内環境において、衝突データを用いた自己教師あり学習の有効性を評価すること。
失敗（衝突）から学習することで、複雑でテクスチャのない環境において、従来の深度ベースや模倣学習のアプローチを上回る性能を達成できることを示すこと。

提案手法

自作ドローンを設計し、ランダムな軌道を自動的に走査して物体に衝突させ、多様な屋内環境で合計11,500件の衝突イベントを収集した。
同じ軌道から、衝突前のポジティブなセグメントと衝突時のネガティブなセグメントを含むデータセットを構築し、自己教師あり学習を可能にした。
標準的な深層ニューラルネットワークを用い、与えられた画像シーケンスが衝突に至るかどうかを二値分類するように訓練した。
モデルは、ガラスドアへの衝突、テクスチャのない壁、狭い通路などの障害物の失敗モードの視覚的表現を学習した。
訓練されたポリシーを、微調整なしに実世界のテスト環境（通路、ガラスドア、ごみだらけのオフィスなど）にデプロイした。
評価には、衝突なしの飛行時間と距離を指標とし、深度ベースのベースラインと人間が操縦した場合とを比較した。

実験結果

リサーチクエスチョン

RQ1大規模な実世界の衝突データは、UAV用の自己教師ありナビゲーションポリシーを学習するために効果的に利用可能か？
RQ2ネガティブな例（衝突）から学習することで、複雑な屋内環境において、従来の深度推定や模倣学習を上回る性能が得られるか？
RQ3衝突データで訓練されたモデルは、ガラスドアやテクスチャのない壁といった挑戦的な障害物を有する、新しい未観測環境にどの程度一般化できるか？
RQ4シンプルな自己教師ありモデルは、複雑で動的な環境において、人間パイロットと同等の性能を達成できるか？

主な発見

提案手法は、すべての6つのテスト環境で深度ベースのベースラインを上回った。特に、深度センサーが機能しない透明なガラスドアやテクスチャのない通路を含む環境でも同様であった。
「チェア付きの通路」環境では、障害物の間の狭いすきまを検出できる能力のおかげで、人間が操縦した場合を上回った。
「通路」環境では3分以上にわたり正常に飛行し、長期的な飛行安定性と頑健性を示した。
モデルは新しい環境への一般化がうまくいった。テスト環境の6つ中2つ（NSH 4FおよびNSHエントランス）は、訓練時に既に観測済みであった。
深度マップやエキスパートのデモンストレーションを一切使用していないにもかかわらず、複雑でごみだらけの状況において、人間パイロットと同等の性能を達成した。
結果から、衝突データは、挑戦的な視覚的ナビゲーションタスクにおける頑健な一般化を可能にする、重要で多様なネガティブな教師信号を提供することが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。