QUICK REVIEW

[論文レビュー] On Mutual Information Maximization for Representation Learning

Michael Tschannen, Josip Djolonga|arXiv (Cornell University)|Jul 31, 2019

Domain Adaptation and Few-Shot Learning参考文献 49被引用数 219

ひとこと要約

本論文は、MI最大化を無監督表現学習の唯一の目的として問う。推定量とアーキテクチャのバイアスが学習された表現を大きく支配していることを示し、これらの考えを深層メトリック学習につなげている。

ABSTRACT

Many recent methods for unsupervised or self-supervised representation learning train feature extractors by maximizing an estimate of the mutual information (MI) between different views of the data. This comes with several immediate problems: For example, MI is notoriously hard to estimate, and using it as an objective for representation learning may lead to highly entangled representations due to its invariance under arbitrary invertible transformations. Nevertheless, these methods have been repeatedly shown to excel in practice. In this paper we argue, and provide empirical evidence, that the success of these methods cannot be attributed to the properties of MI alone, and that they strongly depend on the inductive bias in both the choice of feature extractor architectures and the parametrization of the employed MI estimators. Finally, we establish a connection to deep metric learning and argue that this interpretation may be a plausible explanation for the success of the recently introduced methods.

研究の動機と目的

情報理論的目標を通じて無監督表現学習を動機づけ、MIの役割を評価する。
MI境界を最大化することがエンコーダを望ましくない表現へ偏らせる可能性を示す。
推定量の選択とエンコーダのアーキテクチャが下流の性能に強く影響することを示す。
MIベースの手法を深層メトリックラーニングとトリプレット損失に結びつけることで代替的な解釈を提供する。

提案手法

InfoNCEやNWJなどの推定量を用いて、データの2つのビュー間のMI下限を最大化することとして表現学習を定式化する。
可逆/非可逆エンコーダで実験し、MI最大化が下流タスクにどのように影響するかを観察する。
クリティックアーキテクチャ（双線形、分離可能、MLP）を変化させ、学習表現への影響を調べる。
MI境界を一致させつつエンコーダアーキテクチャ（MLP対ConvNet）を比較し、アーキテクチャの影響を切り出す。
InfoNCEとNWJにおけるネガティブサンプリングの役割と、それがMI推定と性能に及ぼす影響を分析する。
MIベースの目的をトリプレットベースのメトリックラーニング損失と関連づけ、結果を再解釈する。

実験結果

リサーチクエスチョン

RQ1一般的な推定量を介してMIを最大化することは、下流タスクに有用な表現を確実に生み出すのか？
RQ2エンコーダのアーキテクチャと推定量の選択は、学習された表現をどうバイアスするのか？
RQ3MIベースの表現学習におけるクリティックアーキテクチャとネガティブサンプリングの役割は？
RQ4MIベースの手法の成功は深層メトリックラーニングの原理でより良く説明できるか？
RQ5どの条件下で緩いMI境界がより良い表現を生むのか？

主な発見

MI最大化は良い表現を保証しない。MIを最大化する可逆エンコーダの中には、生のピクセルより下流の性能が劣るものがある。
InfoNCEやNWJのような推定量は、反転が難しい、または条件数の悪い写像へエンコーダを偏らせ、表現に影響を与える。
より高容量なクリティックはMI境界を厳しくするが下流の性能を損なうことがあり、より単純なクリティック（双線形/分離可能）はそれを改善することがある。
同じMI境界を達成する際には、エンコーダのアーキテクチャが特定のMI推定量よりも影響が大きいことが多い。
トリプレット損失によるメトリックラーニングの視点は経験的成功の代替説明を提供し、MIを目的とすることの優位性に疑問を投げかける。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。