QUICK REVIEW

[論文レビュー] Information Theoretic Counterfactual Learning from Missing-Not-At-Random Feedback

Zifeng Wang, Xi Chen|arXiv (Cornell University)|Sep 6, 2020

Domain Adaptation and Few-Shot Learning参考文献 37被引用数 28

ひとこと要約

本稿では、欠損がランダムでない（MNAR）フィードバックにおける観測済み（事実的）および未観測（反事実的）な結果の間でのモデル性能のバランスを、情報理論的正則化を用いて図る、RCTを必要としない反事実的学習フレームワーク、反事実的変分情報ボトルネック（CVIB）を提案する。情報ボトルネックのタスクに依存する項を事実的および反事実的成分に分解することで、CVIBは対照的情報損失と信頼性ペナルティを導入し、高価なランダム化比較試験（RCT）を必要とせずに、実世界の推薦データセットにおける汎化性能を顕著に向上させる。

ABSTRACT

Counterfactual learning for dealing with missing-not-at-random data (MNAR) is an intriguing topic in the recommendation literature since MNAR data are ubiquitous in modern recommender systems. Missing-at-random (MAR) data, namely randomized controlled trials (RCTs), are usually required by most previous counterfactual learning methods for debiasing learning. However, the execution of RCTs is extraordinarily expensive in practice. To circumvent the use of RCTs, we build an information-theoretic counterfactual variational information bottleneck (CVIB), as an alternative for debiasing learning without RCTs. By separating the task-aware mutual information term in the original information bottleneck Lagrangian into factual and counterfactual parts, we derive a contrastive information loss and an additional output confidence penalty, which facilitates balanced learning between the factual and counterfactual domains. Empirical evaluation on real-world datasets shows that our CVIB significantly enhances both shallow and deep models, which sheds light on counterfactual learning in recommendation that goes beyond RCTs.

研究の動機と目的

観測されたユーザーのフィードバックが非一様な選択ポリシーによって偏る、実世界のレコメンデーションシステムにおける欠損がランダムでない（MNAR）フィードバックの課題に対処すること。
偏りのない反事実的評価に必要とされるが、実装が極めて高価であるため実用的でないランダム化比較試験（RCT）の非現実性を克服すること。
観測済み（事実的）および未観測（反事実的）の両ドメインに対する情報量のバランスを取ることで、未観測の結果への代表表現学習がうまく機能するようにすること。
外部の偏りのないデータ収集に依存する既存のプロパティススコアおよびドメイン適応手法に対する、理論的裏付けがありRCTを必要としない代替手法を提供すること。

提案手法

タスクに依存する相互情報量項を事実的および反事実的成分に分割することで、変分情報ボトルネック（VIB）フレームワークを拡張する。
事実的および反事実的結果の両方に対して、モデル表現が同程度に情報量を持つように促進する対照的情報正則化子を導入する。
特に観測済みイベントにおいて過信しないように、出力の信頼性ペナルティを組み込む。
変分推論を用いて、RCTへのアクセスがなくてもMNARデータ上でエンドツーエンドの学習が可能な、結果のCVIB目的関数を最適化する。
元のIBラグランジュ形式を事実的および反事実的項に分解し、観測済みと未観測のフィードバックの間のトレードオフを明示的にモデル化する。
観測済みと未観測の結果の間での表現品質の乖離を最小化するための対照的損失を用いることで、バランスの取れた汎化を促進する。

実験結果

リサーチクエスチョン

RQ1偏りのないデータ収集にための高価なランダム化比較試験（RCT）に依存せずに、レコメンデーションシステムにおける効果的な反事実的学習を達成できるか？
RQ2MNARフィードバック設定において、観測済み（事実的）および未観測（反事実的）な結果の間でのモデル性能をどのようにバランスさせるか？
RQ3真の未観測フィードバックが入手できない状況下で、反事実的結果へのモデルの汎化性能を向上させる情報理論的正則化は何か？
RQ4実世界のデータセットにおいて、既存のRCT依存手法と比較して、提案されたCVIBフレームワークは公平性、正確性、および耐性の観点でどのように異なるか？

主な発見

提案されたCVIBフレームワークは、RCTを必要とせずに、浅いモデルおよび深いモデルの両方におけるモデルの汎化性能を顕著に向上させる。
実証的評価により、対照的情報項の係数αを増加させることでテストAUCが向上し、これが事実的および反事実的学習のバランスを取る役割を果たしていることが確認された。
出力の信頼性ペナルティγは過学習および学習不足を防ぐが、正確性指標への影響はやや弱い。
YAHOOデータセットではMSEが高くなったが、NCF-CVIBは最高のAUCを達成しており、実際の推薦タスクでは順序付けの質（AUC）が回帰の正確性（MSE）よりも優先されることを示している。
本手法は、事実的および反事実的ドメインにおける情報量のバランスを促進することで、MNAR設定におけるポリシーバイアスを効果的に軽減する。
RCTベースのバイアス除去手法に対する実用的代替手段を提供し、データ制限のある実用的環境でも頑健な反事実的学習を可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。