Skip to main content
QUICK REVIEW

[論文レビュー] Amélioration de la Robustesse d'Agents Entraîné par Renforcement Profond : Attaque de l'Environnement basée sur le Réseau Critique.

Lucas Schott, Hatem Hajri|arXiv (Cornell University)|Apr 7, 2021
Adversarial Robustness in Machine Learning参考文献 18被引用数 3
ひとこと要約

本稿では、評価者ネットワークに勾配ベースの adversarial 攻撃を直接適用することで、動的環境撹乱を生成することにより、深層強化学習エージェントのロバスト性を向上させる新規手法 EACN を提案する。従来の方法が別個の攻撃エージェントの訓練を必要とするのに対し、EACN は評価者ネットワークの価値関数勾配を活用して、長期的かつ意味のある撹乱を生成する。これにより、FSP や RARL といった最先端手法を上回るロバスト性を達成し、収束が速く、実際にターゲット環境で訓練されたエージェントでさえも凌駕する。

ABSTRACT

International audience

研究の動機と目的

  • 強化学習における現実ギャップを解消するため、環境撹乱に対してエージェントのロバスト性を向上させること。
  • 別個の攻撃エージェントを訓練する際の不安定性と高い計算コストを克服すること。
  • エージェントのポリシーを挑戦する動的で長期的な環境撹乱を生成するより効率的かつ効果的な手法を開発すること。
  • 観測空間ではなく評価者ネットワークを介して環境に攻撃を加えることで、より優れたロバスト性が得られることを示すこと。

提案手法

  • 評価者ネットワークの価値関数に勾配ベースの adversarial 攻撃を適用し、環境の状態ダイナミクスに撹乱を生成する。
  • 状態に関する評価者ネットワークの勾配を用いて、累積報酬に影響を与える長期的かつ高影響度の撹乱を特定する。
  • 訓練中にこれらの adversarial 撹乱を動的に環境に挿入し、カリキュラム的な方法でタスクの難易度を高める。
  • PPO アルゴリズムに攻撃を統合する際、ポリシーおよび価値ネットワークの推論の前に状態入力を変更するが、主な訓練ループは変更しない。
  • 別個の攻撃エージェントの訓練を回避することで、FSP や RARL といった手法と比較して、複雑さと訓練の不安定性を低減する。
  • 将来的な価値を把握する評価者の知識を活用し、即時の影響だけでなく、報酬に持続的な悪影響を与える撹乱を設計する。

実験結果

リサーチクエスチョン

  • RQ1別個の攻撃エージェントを訓練するのではなく、評価者ネットワークに adversarial 攻撃を適用することで、より効果的かつロバストな環境撹乱を生成できるか?
  • RQ2評価者の勾配を介して環境ダイナミクスに攻撃を加えることで、観測空間への攻撃や専用攻撃エージェントを用いた adversarial 訓練に比べ、収束が速く、ロバスト性が向上するか?
  • RQ3評価者に従って攻撃を誘導する手法が、特に訓練中に利用できないターゲット環境で訓練されたエージェントを上回るか?
  • RQ4評価者が駆動する撹乱の複雑さを段階的に増加させるカリキュラムが、さまざまな環境複雑度における最終ポリシーのロバスト性に与える影響はいかなるものか?

主な発見

  • EACN で訓練されたエージェントは、FSP や RARL よりも収束が速く、FSP は敵対的訓練の遅延により 200 万ステップまで曲線が平坦化する。
  • HighwayEnv において、EACN は FSP や Baseline エージェントを上回り、交通密度が高くなるにつれて、ターゲットエージェントと同等またはそれを上回る性能を示す。
  • FlappyBird では、EACN エージェントが、最も挑戦的なギャップサイズ(100)において、すべてのベースライン(含むターゲットエージェント)を顕著に上回り、優れたロバスト性を示す。
  • EACN は FSP や RARL よりもロバスト性に優れ、別個の攻撃エージェントネットワークの訓練を回避するため、計算コストも低い。
  • 評価者の勾配に基づいてエージェントの状態を操作することで、難易度が段階的に上昇する動的カリキュラムを成功裏に構築し、ポリシーの一般化を向上させる。
  • EACN の性能は、訓練中に利用できないターゲット環境(例:密度 2.0 の HighwayEnv)で訓練されたエージェントと同等である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。