QUICK REVIEW

[論文レビュー] Adversarial Reinforcement Learning under Partial Observability in Software-Defined Networking.

Yi Han, David Hubczenko|arXiv (Cornell University)|Feb 25, 2019

Adversarial Robustness in Machine Learning参考文献 33被引用数 4

ひとこと要約

本稿では、部分的観測下にあってもソフトウェア定義ネットワーク（SDN）における強化学習エージェントを因果的敵対的攻撃で汚染できることを示し、逆転に基づく防御を提案する。この防御は逆方向の摂動を適用することで敵対的摂動を是正し、通常の訓練性能に影響を与えることなく攻撃の影響を顕著に低減する。

ABSTRACT

Recent studies have demonstrated that reinforcement learning (RL) agents are susceptible to adversarial manipulation, similar to vulnerabilities previously demonstrated in the supervised setting. Accordingly focus has remained with computer vision, and full observability. This paper focuses on reinforcement learning in the context of autonomous defence in Software-Defined Networking (SDN). We demonstrate that causative attacks---attacks that target the training process---can poison RL agents even if the attacker only has partial observability of the environment. In addition, we propose an inversion defence method that aims to apply the opposite perturbation to that which an attacker might use to generate their adversarial samples. Our experimental results illustrate that the countermeasure can effectively reduce the impact of the causative attack, while not significantly affecting the training process in non-attack scenarios.

研究の動機と目的

攻撃者が環境の部分的観測しか持てない状況下で、強化学習エージェントが因果的攻撃に対してどれほど脆弱であるかを調査すること。
コンピュータビジョンではなくネットワーキングシステムに焦点を当てることで、敵対的強化学習研究におけるギャップを埋めること。
強化学習エージェントにおける敵対的訓練データ汚染の影響を軽減する防御メカニズムを設計すること。
提案された防御が、攻撃のない通常の状況下でも効果的な学習性能を維持するかどうかを評価すること。

提案手法

本手法は、訓練中に導入された敵対的摂動の逆転を特定・適用する逆転ベースの防御を採用する。
攻撃者は訓練データを操作して強化学習エージェントを誤導し、部分的観測を活用して微細で標的を絞った摂動を注入すると想定する。
防御は敵対的信号を検出または推定し、学習プロセス中に反対方向の摂動を適用することでそれを是正する。
標準的な訓練手順と互換性を保つために、強化学習エージェントの訓練パイプラインに統合される。
敵対的摂動は特定のパターンに従うものとし、検出された場合にその逆転が可能であるという仮定に依存する。

実験結果

リサーチクエスチョン

RQ1攻撃者が環境の部分的観測しか持てない状況下でも、因果的攻撃はSDNにおける強化学習エージェントを効果的に汚染できるか？
RQ2提案された逆転ベースの防御は、強化学習エージェントにおける敵対的訓練データ汚染の影響をどのように低減するか？
RQ3防御メカニズムは、攻撃のない通常の訓練シナリオにおいて、強化学習エージェントの性能を低下させるか？

主な発見

部分的観測下であっても、因果的攻撃はSDNにおける強化学習エージェントを効果的に汚染でき、深刻な脆弱性を示している。
逆転ベースの防御は、強化学習エージェントの学習プロセスにおける敵対的摂動の影響を効果的に低減する。
攻撃のない訓練シナリオにおいても、防御は高い性能を維持しており、通常の学習に最小限の干渉をもたらす。
本手法は、環境の完全な観測がなくても、敵対的操作に対して頑健であることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。