Skip to main content
QUICK REVIEW

[論文レビュー] EDDI: Efficient Dynamic Discovery of High-Value Information with Partial VAE

Chao Ma, Sebastian Tschiatschek|arXiv (Cornell University)|Sep 28, 2018
Machine Learning and Data Classification被引用数 49
ひとこと要約

EDDI は、部分的に観測されたデータを扱う Partial VAE を用いた拡張可能なフレームワークと、コスト制約の下で最も価値の高い欠測変数を逐次的に照会する情報理論に基づく取得関数を導入する。

ABSTRACT

Many real-life decision-making situations allow further relevant information to be acquired at a specific cost, for example, in assessing the health status of a patient we may decide to take additional measurements such as diagnostic tests or imaging scans before making a final assessment. Acquiring more relevant information enables better decision making, but may be costly. How can we trade off the desire to make good decisions by acquiring further information with the cost of performing that acquisition? To this end, we propose a principled framework, named EDDI (Efficient Dynamic Discovery of high-value Information), based on the theory of Bayesian experimental design. In EDDI, we propose a novel partial variational autoencoder (Partial VAE) to predict missing data entries problematically given any subset of the observed ones, and combine it with an acquisition function that maximizes expected information gain on a set of target variables. We show cost reduction at the same decision quality and improved decision quality at the same cost in multiple machine learning benchmarks and two real-world health-care applications.

研究の動機と目的

  • 自動化された、個別化された動的情報取得をコスト感度のある設定で動機づける。
  • 部分的に観測されたデータのためのスケーラブルな確率モデルを開発し、推論を高速化できるようにする。
  • 次に照会すべき最も情報量の多い欠測変数を選択する取得関数を設計する。
  • EDDI が領域を跨いで情報収集コストを削減しつつ意思決定品質を損なわないことを示す。

提案手法

  • 任意の観測サブセットの変数でアモライズド推論を行うための Partial VAE を導入する。
  • xO を permutation-invariant なセットエンコーダ(PN/PNP)で表現し p(z|xO) をモデリングする。
  • 相互情報量に基づく z 空間での変数選択のための tractable な情報報酬を導出する(式9)。
  • q(z|xO)、q(z|xi, xO)、および共用サンプルを用いて KL 項を近似し、効率的な計算を可能にする。
  • 活発な変数選択を、ターゲット変数 xφ に関する期待情報獲得を最大化することとして定式化する(アルゴリズム1)。

実験結果

リサーチクエスチョン

  • RQ1各インスタンスに対して観測される変数のサブセットのみがある場合、確率的推論をどのように行えるか。
  • RQ2取得コストの下で情報量の増分を最大化する、スケーラブルな変数ごとの取得戦略を設計できるか。
  • RQ3Partial VAE はタスク間で効果的な欠測データ補完と不確実性推定を可能にするか。
  • RQ4EDDI アプローチは実世界の医療データや大規模データセットで計算効率が十分か。

主な発見

  • Partial VAE は部分的に観測されたデータに対してスケーラブルなアモライズド推論を提供し、補完を効果的に支援する。
  • PN/PNP のエンコーディングは MNIST 実験において ZI 系アプローチよりもインペインティングと不確実性モデリングの性能が高い。
  • EDDI は six UCI データセットで情報効率と RMSE AUIC ランキングの観点で RAND および SING のベースラインを上回る。
  • PNP ベースの EDDI は非アモライズド手法に比べて大幅なスピードアップを達成し、ボストン住宅データセットでは DRAL の約 1000 倍の効率性を示す。
  • MIMIC-III のリスク評価と NHANES 公衆衛生タスクでは、PNP を用いた EDDI がベースラインより一貫してより良い AUIC ランキングを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。