QUICK REVIEW

[논문 리뷰] On Variational Bounds of Mutual Information

Ben Poole, Sherjil Ozair|arXiv (Cornell University)|2019. 05. 16.

Face and Expression Recognition인용 수 153

한 줄 요약

본 논문은 상호정보량(MI)에 대한 변분적 경계를 통합하고 확장하며, 바이어스와 분산을 상호 보완적으로 조정하는 연속적인 하한의 스펙트럼을 도입하고 이를 고차원에서의 추정 및 표현 학습에 유용하다는 것을 보인다.

ABSTRACT

Estimating and optimizing Mutual Information (MI) is core to many problems in machine learning; however, bounding MI in high dimensions is challenging. To establish tractable and scalable objectives, recent work has turned to variational bounds parameterized by neural networks, but the relationships and tradeoffs between these bounds remains unclear. In this work, we unify these recent developments in a single framework. We find that the existing variational lower bounds degrade when the MI is large, exhibiting either high bias or high variance. To address this problem, we introduce a continuum of lower bounds that encompasses previous bounds and flexibly trades off bias and variance. On high-dimensional, controlled problems, we empirically characterize the bias and variance of the bounds and their gradients and demonstrate the effectiveness of our new bounds for estimation and representation learning.

연구 동기 및 목표

단일 프레임워크 내에서 기존의 MI 추정기를 검토하고 관련시키는 것.
MI 추정을 위해 바이어스와 분산 사이의 균형을 이루는 연속적인 하한을 도입하는 것.
표현 학습 맥락에서 MI를 샌드위치처럼 포획하는 해석 가능한 경계를 도출하기 위해 조건부 구조를 활용하는 것.
고차원 문제에서 추정기와 그래디언트의 바이어스/분산을 경험적으로 특성화하는 것.
dSprites에서 디코더-프리 해방 표현 학습에 경계의 적용을 시연하는 것.

제안 방법

정규화되지 않은 변분 프레임워크 내에서 Barber & Agakov, Donsker–Varadhan, Nguyen–Wainwright–Jordan, MINE 경계를 검토하고 통합한다.
log partition을 a(y)로 상한하여 MI의 계산 가능한 하한을 얻는 Tractable Unnormalized Barber–Agakov (TUBA) 경계를 도입한다.
여러 샘플 경계를 도출하여 NCE 하한을 특수한 경우로 회복하고 NWJ와 다중 샘플 추정기를 연결한다.
바이어스와 분산의 상호 보완을 위해 m(y; x_{1:K})와 q(y)를 결합하는 비선형 보간 경계 I_alpha를 제안하되, α는 [0,1] 범위에 있다.
p(y|x)가 계산 가능할 때의 구조화된 경계를 제시하며, 알려진 조건부를 갖는 InfoNCE 경계 및 leave-one-out 상한을 포함한다.
밀도 비율 추정기를 MI 경계로 전환하는 방법을 보여주고 안정성을 위한 JS 기반 크리틱에 대해 논의한다.

실험 결과

연구 질문

RQ1기존의 변분적 MI 경계가 하나의 프레임워크 내에서 어떻게 관련되며 어떤 트레이드오프가 있는가?
RQ2저편향/고분산 와 고편향/저분산 추정기 사이를 보간하는 MI 경계의 연속체를 구축할 수 있는가?
RQ3알려진 조건부 구조 p(y|x)를 어떻게 활용해 표현 학습에서 MI 경계를 더 촉박하게 만들 수 있는가?
RQ4고차원 설정에서 MI 추정기와 그 그래디언트의 바이어스와 분산 특성은 무엇인가?
RQ5MI 경계가 디코더-프리 해방 표현 학습에 효과적으로 사용될 수 있는가?

주요 결과

연속적인 하한들(I_TUBA, I_NWJ, I_NCE, I_JS)이 MI 추정에서 바이어스와 분산을 조정할 수 있게 한다.
보간 경계 I_alpha가 NWJ와 NCE를 연결하여 알파(0에서 1까지)를 통해 바이어스-분산을 조정할 수 있게 한다.
다중 샘플 경계가 NCE 추정기를 특수한 경우로 재현하고 추가 샘플을 통해 분산을 줄인다.
최적 크리틱은 선택된 경계에 따라 달라질 수 있으며, 실험에서 공동 크리틱(joint)과 분리 크리틱(separable)이 서로 다른 분산 특성을 보인다.
상한과 하한이 MI를 샌드위치할 수 있어 표현 학습에서 실용적인 경계를 가능하게 한다.
dSprites에서 디코더-프리 InfoMax_STYLE 학습은 해제된 표현에 대한 경계의 실용적 활용을 시연한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.