QUICK REVIEW

[论文解读] Safe Exploration for Interactive Machine Learning

Matteo Turchetta, Felix Berkenkamp|arXiv (Cornell University)|Oct 30, 2019

Data Stream Mining Techniques被引用 25

一句话总结

本文提出了 GoOSE，一种安全探索框架，通过利用高斯过程先验高效验证现有交互式机器学习（IML）算法所建议决策的安全性，从而增强其性能。通过仅关注与安全相关的区域并利用连续性，GoOSE 确保了可证明的安全探索，同时在数据效率方面显著优于先前的方法。

ABSTRACT

In Interactive Machine Learning (IML), we iteratively make decisions and obtain noisy observations of an unknown function. While IML methods, e.g., Bayesian optimization and active learning, have been successful in applications, on real-world systems they must provably avoid unsafe decisions. To this end, safe IML algorithms must carefully learn about a priori unknown constraints without making unsafe decisions. Existing algorithms for this problem learn about the safety of all decisions to ensure convergence. This is sample-inefficient, as it explores decisions that are not relevant for the original IML objective. In this paper, we introduce a novel framework that renders any existing unsafe IML algorithm safe. Our method works as an add-on that takes suggested decisions as input and exploits regularity assumptions in terms of a Gaussian process prior in order to efficiently learn about their safety. As a result, we only explore the safe set when necessary for the IML problem. We apply our framework to safe Bayesian optimization and to safe exploration in deterministic Markov Decision Processes (MDP), which have been analyzed separately before. Our method outperforms other algorithms empirically.

研究动机与目标

解决交互式机器学习（IML）中的安全探索挑战，其中安全约束事先未知，且在学习过程中不得被违反。
通过避免对整个安全集的无谓探索，提升数据效率，这在现有安全 IML 算法中是常见问题。
开发一种通用的、可附加的框架，无需修改其核心优化过程，即可使任何现有不安全的 IML 算法具备可证明的安全性。
确保探索具有目标导向性，仅聚焦于与原始 IML 目标相关的决策，而非将扩大安全集作为代理目标。

提出的方法

该框架接收来自现有 IML 算法的建议决策，这些决策可能不安全。
利用高斯过程（GP）先验建模安全约束函数，利用平滑性和连续性假设。
识别一个感兴趣区域——具体而言，即乐观安全集——其中建议决策可能安全。
在该区域内，使用一种平衡不确定性和与建议决策相关性的启发式方法选择信息丰富的学习目标。
仅在悲观安全集内执行安全评估，确保学习过程中不会采取任何不安全动作。
该方法以高概率保证所有采取的动作都是安全的，同时学习原始 IML 建议决策的安全性。

实验结果

研究问题

RQ1我们能否设计一种安全探索框架，仅学习与原始 IML 目标相关的决策安全性，而非扩展整个安全集？
RQ2如何高效学习由不安全 IML 算法建议的特定决策的安全性，同时确保不发生不安全评估？
RQ3与均匀或基于边界的探索相比，利用基于 GP 的正则性假设能在多大程度上提升安全探索中的数据效率？
RQ4能否设计一种通用的附加框架，无需修改核心优化逻辑，即可安全地增强任何现有 IML 算法？

主要发现

在合成网格世界实验中，GoOSE 相较于 SMDP 基线将样本复杂度降低了 2.5 倍。
在火星漫游车模拟实验中，GoOSE 实现了与 SEO（缺乏安全保证）相当的性能，同时提供了可证明的安全性。
GoOSE 启发式方法的计算开销可忽略不计，而 SEO 的求解过程计算量极大。
GoOSE 通过仅关注与安全相关区域，避免对整个安全集的无谓探索，在样本效率上优于 StageOPT 和 SafeOPT。
在合成与真实世界的火星探索任务中，GoOSE 相较于 SMDP 实现了几何平均性能提升，且在更大环境中提升更为显著。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。