QUICK REVIEW

[論文レビュー] Safe Exploration for Interactive Machine Learning

Matteo Turchetta, Felix Berkenkamp|arXiv (Cornell University)|Oct 30, 2019

Data Stream Mining Techniques被引用数 25

ひとこと要約

本稿では、ガウス過程の事前分布を用いて、提示された意思決定の安全性を効率的に検証することにより、既存のインタラクティブ機械学習（IML）アルゴリズムの安全性を向上させる、安全な探索フレームワークGoOSEを提案する。安全性に関連する領域にのみ焦点を当て、連続性を活用することで、GoOSEは、過去の手法と比較して顕著にデータ効率を向上させつつ、保証された安全な探索を実現する。

ABSTRACT

In Interactive Machine Learning (IML), we iteratively make decisions and obtain noisy observations of an unknown function. While IML methods, e.g., Bayesian optimization and active learning, have been successful in applications, on real-world systems they must provably avoid unsafe decisions. To this end, safe IML algorithms must carefully learn about a priori unknown constraints without making unsafe decisions. Existing algorithms for this problem learn about the safety of all decisions to ensure convergence. This is sample-inefficient, as it explores decisions that are not relevant for the original IML objective. In this paper, we introduce a novel framework that renders any existing unsafe IML algorithm safe. Our method works as an add-on that takes suggested decisions as input and exploits regularity assumptions in terms of a Gaussian process prior in order to efficiently learn about their safety. As a result, we only explore the safe set when necessary for the IML problem. We apply our framework to safe Bayesian optimization and to safe exploration in deterministic Markov Decision Processes (MDP), which have been analyzed separately before. Our method outperforms other algorithms empirically.

研究の動機と目的

安全制約が事前に未知であり、学習中に違反してはならないという、インタラクティブ機械学習（IML）における安全な探索の課題に対処すること。
既存の安全なIMLアルゴリズムで一般的な、全安全集合の無駄な探索を回避することで、データ効率を向上させること。
既存の安全でないIMLアルゴリズムのコア最適化プロセスを変更せずに、任意のIMLアルゴリズムを保証された安全なものに変換できる汎用的で追加可能なフレームワークを構築すること。
探索を目的志向に保ち、安全集合の拡大を代理目的として用いるのではなく、元のIML目的に関連する意思決定にのみ焦点を当てるようにすること。

提案手法

フレームワークは、安全でない可能性のある意思決定を、既存のIMLアルゴリズムが提示する入力を受ける。
滑らかさと連続性の仮定を活用して、安全制約関数をガウス過程（GP）事前分布でモデル化する。
提示された意思決定が安全である可能性が高い「楽観的安全集合」としての関心領域を同定する。
その領域内で、不確実性と提示された意思決定への関連性のバランスを取るヒューリスティックを用いて、情報量の多い学習ターゲットを選択する。
危険な行動が学習中に発生しないように、悲観的安全集合内でのみ安全評価を実施する。
高い確率で、学習中にとられたすべての行動が安全であることを保証する。

実験結果

リサーチクエスチョン

RQ1元のIML目的に関連する意思決定の安全性について学ぶフレームワークを設計できるか。安全集合全体の拡大を目的としない。
RQ2安全でないIMLアルゴリズムが提示する特定の意思決定の安全性を効率的に学びつつ、危険な評価が発生しないようにできるか。
RQ3GPに基づく正則性仮定を活用することで、一様探索や境界ベース探索と比較して、安全な探索におけるデータ効率をどの程度向上できるか。
RQ4コア最適化論理を変更せずに、任意の既存のIMLアルゴリズムを安全に拡張できる汎用的で追加可能なフレームワークを設計できるか。

主な発見

合成グリッドワールド実験において、GoOSEはSMDPベースラインと比較して、サンプル複雑性を2.5倍まで低減した。
火星探査車シミュレーション実験では、GoOSEは安全保証のないSEOと同等のパフォーマンスを達成したが、同時に保証された安全性を提供した。
GoOSEのヒューリスティックによる計算オーバーヘッドは無視できるほど小さかったが、SEOのソリューションプロセスは計算的に高コストであった。
GoOSEは、安全でない探索を避けるために安全集合全体を無駄に探索しない点で、StageOPTおよびSafeOPTをサンプル効率において上回った。
合成的および実世界の火星探査タスクの両方において、GoOSEはSMDPに対して幾何平均のパフォーマンス向上を達成し、特に大きな環境ではより顕著な改善が得られた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。