Skip to main content
QUICK REVIEW

[논문 리뷰] EDDI: Efficient Dynamic Discovery of High-Value Information with Partial VAE

Chao Ma, Sebastian Tschiatschek|arXiv (Cornell University)|2018. 09. 28.
Machine Learning and Data Classification인용 수 49
한 줄 요약

EDDI는 부분적으로 관찰된 데이터를 처리하기 위해 Partial Variational Autoencoder를 사용하고 비용 제약 하에 가장 가치 있는 누락 변수들을 순차적으로 질의하기 위한 정보 이론적 획득 함수와 함께 확장 가능한 프레임워크를 도입한다.

ABSTRACT

Many real-life decision-making situations allow further relevant information to be acquired at a specific cost, for example, in assessing the health status of a patient we may decide to take additional measurements such as diagnostic tests or imaging scans before making a final assessment. Acquiring more relevant information enables better decision making, but may be costly. How can we trade off the desire to make good decisions by acquiring further information with the cost of performing that acquisition? To this end, we propose a principled framework, named EDDI (Efficient Dynamic Discovery of high-value Information), based on the theory of Bayesian experimental design. In EDDI, we propose a novel partial variational autoencoder (Partial VAE) to predict missing data entries problematically given any subset of the observed ones, and combine it with an acquisition function that maximizes expected information gain on a set of target variables. We show cost reduction at the same decision quality and improved decision quality at the same cost in multiple machine learning benchmarks and two real-world health-care applications.

연구 동기 및 목표

  • 비용 민감한 환경에서 자동화된, 개인화된 동적 정보 수집을 유도한다.
  • 빠른 추론을 지원하는 부분적으로 관찰된 데이터를 위한 확장 가능한 확률 모델을 개발한다.
  • 다음에 질의할 가장 정보성이 높은 누락 변수를 선택하는 획득 함수를 설계한다.
  • 다양한 도메인에서 의사결정 품질을 저하시키지 않으면서 정보 수집 비용을 줄이는 EDDI를 입증한다.

제안 방법

  • 임의의 관찰 변수 부분집합에 대해 amortized 추론을 수행하기 위해 Partial VAE를 도입한다.
  • xO를 순열 불변의 세트 인코더(PN/PNP)를 사용하여 p(z|xO)를 모델링한다.
  • z-공간의 상호정보(mutual information)에 근거한 변수 선택을 위한 계산 가능한 정보 보상(information reward)을 도출한다 (Equation 9).
  • 효율적인 계산을 가능하게 하기 위해 KL 항들을 q(z|xO), q(z|xi, xO), 및 공유 샘플을 통해 근사한다.
  • 활성 변수 선택을 목표 변수 xφ에 대한 기대 정보 이득을 최대화하는 문제로 형상화한다 (Algorithm 1).

실험 결과

연구 질문

  • RQ1각 인스턴스마다 일부 변수만 관찰될 때 확률론적 추론을 어떻게 수행할 수 있는가?
  • RQ2획득 비용 하에서 정보 이득을 최대화하는 확장 가능한 변수 단위의 획득 전략을 설계할 수 있는가?
  • RQ3Partial VAE가 작업 전반에 걸쳐 효과적인 누락 데이터 보간 및 불확실성 추정을 가능하게 하는가?
  • RQ4현실 세계의 의료 및 대규모 데이터셋에 대해 EDDI 접근법이 계산적으로 충분히 효율적인가?

주요 결과

  • Partial VAE는 부분적으로 관찰된 데이터에 대해 확장 가능한 amortized 추론을 제공하고 효과적인 보간을 지원한다.
  • PN/PNP 인코딩은 MNIST 실험에서 ZI 기반 접근법보다 더 나은 인페이팅 및 불확실성 모형화를 제공합니다.
  • EDDI는 정보 효율성 및 RMSE AUIC 순위 측면에서 여섯 개의 UCI 데이터셋에서 RAND 및 SING 베이스라인을 능가한다.
  • PNP 기반 EDDI는 비 amortized 방법에 비해 상당한 속도 향상을 달성하며 Boston Housing에서 DRAL보다 약 1000배 더 효율적이다.
  • MIMIC-III 위험 평가 및 NHANES 공중 보건 작업에서 PNP를 사용하는 EDDI는 일관되게 베이스라인보다 더 나은 AUIC 순위를 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.