QUICK REVIEW

[論文レビュー] Deep Reinforcement Learning for High Precision Assembly Tasks

Tadanobu Inoue, Giovanni De Magistris|arXiv (Cornell University)|Aug 14, 2017

Robot Manipulation and Learning参考文献 7被引用数 29

ひとこと要約

本論文では、標準の力トルクセンサおよび位置センサのみを用いて、7軸アームロボットがマイクロメーター未満のクリアランスを有する高精度なピンインホール組立作業を実行できるようにする、長短期記憶（LSTM）ネットワークを用いた深層強化学習手法を提案する。本手法は、初期位置および角度誤差に対して顕著なロバスト性を示し、複数の設定で100％の成功確率を達成しており、従来の固定パターン手法に比べて速度および適応性の面で優れている。

ABSTRACT

High precision assembly of mechanical parts requires accuracy exceeding the robot precision. Conventional part mating methods used in the current manufacturing requires tedious tuning of numerous parameters before deployment. We show how the robot can successfully perform a tight clearance peg-in-hole task through training a recurrent neural network with reinforcement learning. In addition to saving the manual effort, the proposed technique also shows robustness against position and angle errors for the peg-in-hole task. The neural network learns to take the optimal action by observing the robot sensors to estimate the system state. The advantages of our proposed method is validated experimentally on a 7-axis articulated robot arm.

研究の動機と目的

産業用ロボットの位置精度を超える高精度なロボット組立作業の課題に対処すること。
従来のプログラミングおよび力センシング制御手法で必要な時間のかかるパラメータチューニングを削減すること。
教示なしで、センサフィードバックを用いて試行錯誤によって適合スキルを自律的に学習できる、適応型の学習ベースのアプローチを開発すること。
初期位置オフセット、角度ずれ、きついクリアランスといった現実世界のばらつきに対して、本手法のロバスト性を検証すること。
標準産業用センサのみを用いて、再帰的ネットワークを用いた強化学習を産業用組立作業に実装可能であることを示すこと。

提案手法

システムは、6軸力トルクセンサおよびジョイント位置エンコーダからの逐次的センサデータを処理するため、再帰的ニューラルネットワーク（LSTM）を用いてロボットの状態を推定する。
状態ベクトルは $\mathbf{s} = [F_x, F_y, F_z, M_x, M_y, \tilde{P}_x, \tilde{P}_y]$ として定義され、$F$ および $M$ は平均力およびモーメントを表し、$\tilde{P}_x, \tilde{P}_y$ は推定された位置誤差を表す。
強化学習エージェントは2段階のタスクを学習する：(1) ホールの特定のための探索フェーズ、(2) 指令に従ってアライメントと挿入を行う挿入フェーズ。両フェーズにはスパarsely denseな報酬形状が用いられる。
スパースに密集した報酬形状が用いられる：密な報酬は挿入中のアライメントを促進し、スパースな報酬は成功完了時（$\Delta P_z > 19\,\mathrm{mm}$ で定義）にのみ発動する。
行動空間は離散的であり、固定された力および回転指令を伴う $z$、$x$、$y$ 方向への制御運動が5つの事前定義された行動として存在する。
本手法はオンラインで深層強化学習を用いて訓練され、累積的なスパースに密集した報酬形状に基づいてポリシー・ネットワークが更新される。

実験結果

リサーチクエスチョン

RQ1LSTMポリシーを有する深層強化学習エージェントは、明示的なプログラミングやパrameterチューニングなしに、高精度なピンインホール作業を学習できるか？
RQ2学習済みポリシーは、ホールの初期位置誤差および角度ずれに対してどれほどロバストか？
RQ3ロボットの固有の位置精度を超えるきついクリアランス（例：10 μm）においても、信頼性のある性能を達成できるか？
RQ4実行時間および成功確率の観点から、従来の固定パターン力センシング制御手法と比較して、本手法の性能はどのように異なるか？
RQ5同じポリシーを用いて、異なるクリアランスサイズおよび傾き角度に一般化可能か？

主な発見

提案手法は、10 μmのきついクリアランスおよび最大1.6°の傾き角を含むすべてのテスト設定で100回の試行すべてで100％の成功確率を達成した。
3 mmの初期オフセットおよび0°の傾き角を有する10 μmクリアランスにおいて、平均総実行時間は3.47秒であり、従来手法の約5秒よりも顕著に高速であった。
20 μmクリアランスおよび1.6°の傾き角において、平均総時間は4.36秒であった。これは、誤差が増加してもロバストであることを示している。
3 mmオフセットにおいて、探索フェーズの平均時間は2.26秒であり、大きな初期誤差に対しても適応可能であることを示している。
1.6°の傾き角下では、挿入フェーズの時間は2.31秒に増加したが、これはアライメントに必要な作業量の増加を反映しており、依然として成功が達成された。
特に大きな誤差およびきついクリアランス下で、従来の固定パターンアプローチに比べて本手法は速度およびロバスト性の両面で優れていた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。