Skip to main content
QUICK REVIEW

[논문 리뷰] Variational Inference based on Robust Divergences

Futoshi Futami, Issei Sato|arXiv (Cornell University)|2017. 10. 18.
Domain Adaptation and Few-Shot Learning참고 문헌 17인용 수 26
한 줄 요약

이 논문은 베이지안 신경망에서 이상치에 대한 내성을 향상시키기 위해 표준 쿨백-라이블러 발산 대신 β- 및 γ-발산과 같은 강건한 발산을 사용하는 강건한 변분 추론 방법을 제안한다. 셀러너의 최적화 프레임워크를 활용함으로써 입력 및 출력에 대한 影響 함수가 유계가 되도록 보장하여, 데이터 오염 상황에서도 깊은 신경망에서 안정적인 추론을 가능하게 하며, 실험 결과는 노이즈가 있는 데이터에서 회귀 및 분류 과제에서 표준 변분 추론보다 뛰어난 성능을 보임을 보여준다.

ABSTRACT

Robustness to outliers is a central issue in real-world machine learning applications. While replacing a model to a heavy-tailed one (e.g., from Gaussian to Student-t) is a standard approach for robustification, it can only be applied to simple models. In this paper, based on Zellner's optimization and variational formulation of Bayesian inference, we propose an outlier-robust pseudo-Bayesian variational method by replacing the Kullback-Leibler divergence used for data fitting to a robust divergence such as the beta- and gamma-divergences. An advantage of our approach is that superior but complex models such as deep networks can also be handled. We theoretically prove that, for deep networks with ReLU activation functions, the \emph{influence function} in our proposed method is bounded, while it is unbounded in the ordinary variational inference. This implies that our proposed method is robust to both of input and output outliers, while the ordinary variational method is not. We experimentally demonstrate that our robust variational method outperforms ordinary variational inference in regression and classification with deep networks.

연구 동기 및 목표

  • 실제 데이터에서 입력 및 출력 이상치에 노출되었을 때 표준 변분 추론의 부족한 강건성 문제를 해결하기 위해.
  • 단순한 모델을 넘어서 복잡한 깊은 신경망에 변분 추론을 적용함으로써 강건한 베이지안 추론를 확장하기 위해.
  • 강건한 발산이 유계 영향 함수를 이끌어내어 데이터 오염 상황에서도 안정성을 확보함을 이론적·실험적으로 입증하기 위해.
  • 노이즈 또는 손상된 데이터 상황에서도 성능을 유지하는 확장 가능한 의사-베이지안 프레임워크를 제공하기 위해.

제안 방법

  • 표준 변분 추론에서 쿨백-라이블러 발산을 β-발산 및 γ-발산과 같은 강건한 발산으로 대체하여 이상치에 대한 민감도를 감소시킴.
  • zellner의 최적화 및 베이지안 추론의 변분 공식을 도입하여 강건한 의사-베이지안 추론 절차를 유도함.
  • 재구성 기법과 확률적 최적화(Adam)를 사용하여 변분 사후 근사와 함께 깊은 신경망을 훈련함.
  • 모델 밀도의 거듭제곱을 통해 가중치를 부여한 가능성 접근법을 도입하여 낮은 확률(이상치) 데이터 포인트의 영향을 감소시킴.
  • 이론적 및 실험적으로 이상치 오염 상황에서의 모델 변화에 대한 영향 함수의 유계성을 검증하기 위해 영향 함수 분석을 수행함.
  • 교차 검증을 통해 벤치마크 데이터셋에서 하이퍼파라미터(β, γ, α)를 튜닝하여 강건성과 예측 성능을 최적화함.

실험 결과

연구 질문

  • RQ1β- 및 γ-발산과 같은 강건한 발산이 깊은 신경망의 변분 추론 강건성 향상에 효과적으로 활용될 수 있는가?
  • RQ2제안된 방법은 표준 변분 추론과 달리 입력 및 출력 이상치에 대해 유계 영향 함수를 제공하는가?
  • RQ3데이터 오염 상황에서 제안된 강건한 변분 추론의 예측 성능은 표준 변분 추론보다 어떻게 비교되는가?
  • RQ4훈련 데이터에 허위 이상치가 포함되어 있을 때, 이 방법이 회귀 및 분류 과제에서 높은 예측 정확도를 유지할 수 있는가?

주요 결과

  • ReLU 활성화 함수를 가진 깊은 신경망에서 제안된 방법의 영향 함수는 유계이지만, 표준 변분 추론에서는 유계가 아니며, 이는 입력 및 출력 이상치에 대한 내재적 강건성을 나타냄.
  • 실험 결과, 인위적인 입력 및 출력 이상치가 포함된 상황에서 회귀 및 분류 과제에서 제안된 방법이 표준 VI에 비해 테스트 로그우도 측면에서 뛰어난 성능을 보임.
  • 레이블 잘못 지정 상황에서 표준 VI 대비 테스트 로그우도의 평균 감소가 더 적어, 데이터 오류 상황에서도 더 안정적인 예측을 함.
  • 영향 함수 분석 결과, 이상치가 모델 파라미터 및 예측 분포에 미치는 영향은 제한적이며 무한히 증가하지 않음.
  • 교차 검증를 통해 선택된 하이퍼파라미터를 사용하여 여러 데이터셋(회귀 및 분류 벤치마크 포함)에서 강건한 성능 유지를 함.
  • 강건한 발산의 사용은 특히 허위 또는 손상된 샘플을 포함한 훈련 데이터 상황에서 더 안정적이고 신뢰할 수 있는 사후 근사에 기여함.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.