QUICK REVIEW

[論文レビュー] Robust Hypothesis Testing Using Wasserstein Uncertainty Sets

Rui Gao, Liyan Xie|arXiv (Cornell University)|May 1, 2018

Adversarial Robustness in Machine Learning被引用数 23

ひとこと要約

本稿では、経験分布を中心にしたウォッサーシュタイン不安定集合を用いたデータ駆動型ロバストな仮説検定フレームワークを提案する。このフレームワークにより、分布に依存しない、計算が効率的な検出が可能となる。凸近似と次元に依存しない取り扱いやすい再定式化により、ほぼ最適な性能が達成され、ヒューマンアクティビティ認識の実データで強く裏付けられている。

ABSTRACT

We develop a novel computationally efficient and general framework for robust hypothesis testing. The new framework features a new way to construct uncertainty sets under the null and the alternative distributions, which are sets centered around the empirical distribution defined via Wasserstein metric, thus our approach is data-driven and free of distributional assumptions. We develop a convex safe approximation of the minimax formulation and show that such approximation renders a nearly-optimal detector among the family of all possible tests. By exploiting the structure of the least favorable distribution, we also develop a tractable reformulation of such approximation, with complexity independent of the dimension of observation space and can be nearly sample-size-independent in general. Real-data example using human activity data demonstrated the excellent performance of the new robust detector.

研究の動機と目的

パrametricな分布仮定に依存せずに、モデルの不確実性下でのロバストな仮説検定の課題に対処すること。
真の分布が名目モデルから逸脱しても依然として有効な、計算効率の高い手法を開発すること。
経験分布のまわりにウォッサーシュタイン距離を用いて不安定集合を構築し、データ駆動型の適応性を確保すること。
凸安全近似を用いてミニマックス定式化を解くことで、ほぼ最適な検出性能を達成すること。
次元に依存しない計算と、ほぼ標本サイズに依存しない計算を実現し、高次元設定におけるスケーラビリティを確保すること。

提案手法

帰無仮説および対立仮説下での妥当な分布の近傍を形成するために、経験分布のまわりにウォッサーシュタイン距離に基づく不安定集合を定義する。
分布の不確実性下での最悪のパワーを最大化するミニマックス問題としてロバスト検定を定式化する。
ミニマックス定式化に対して凸安全近似を適用し、計算の取り扱いやすさを保ちながらほぼ最適性を維持する。
最も不利な分布の構造を活用して、観測空間の次元に依存しない取り扱いやすい再定式化を導出する。
計算複雑度がほぼ標本サイズに依存しないため、大規模データセットへのスケーラビリティを確保する。
双対性および最適化技術を活用して、ロバスト検出問題を解ける凸計画問題に変換する。

実験結果

リサーチクエスチョン

RQ1ロバストな仮説検定を、計算効率的かつパラメトリックな分布仮定に依存せずに実現する方法は何か？
RQ2ウォッサーシュタインに基づく不安定集合は、計算の取り扱いやすさを保ちながら検出のロバスト性を向上させ得るか？
RQ3モデル不適合下での、提案手法のロバスト検出器と最適な検定との性能差はどの程度か？
RQ4計算複雑度を観測空間の次元からどれだけ分離できるか？
RQ5ヒューマンアクティビティ認識のような実世界の高次元データに対して、提案手法はどの程度の性能を示すか？

主な発見

提案フレームワークは、最悪の分布的逸脱下でも、あらゆる可能な検定の中でほぼ最適な検出性能を達成する。
ミニマックス定式化の凸安全近似により、計算効率が保たれるとともに、強い理論的保証が得られる。
近似の取り扱いやすい再定式化は、観測空間の次元に依存しない複雑度を示す。
この手法はほぼ標本サイズに依存しないことを示し、大規模データセットへのスケーラビリティを実現する。
ヒューマンアクティビティ認識データを用いた実験的評価により、実世界の設定でもロバスト検出器の優れた性能が確認された。
ウォッサーシュタイン不安定集合の使用により、下位の分布に関する事前仮定を必要とせず、データ駆動型のロバスト性が実現された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。