QUICK REVIEW

[論文レビュー] Learning from Conditional Distributions via Dual Embeddings

Bo Dai, Niao He|arXiv (Cornell University)|Jul 15, 2016

Advanced Bandit Algorithms Research参考文献 29被引用数 20

ひとこと要約

本稿では、1つの条件付き分布あたり1つのサンプルのみを用いても効率的な関数推定が可能な、条件付き分布からの学習のための新しいミニマックス定式化であるEmbedding-SGDを提案する。双対埋め込みとカーネル法を活用することで、サンプルの複雑さと理論的保証を伴う、ポリシー評価および不変性学習において最先端の性能を達成する。

ABSTRACT

Many machine learning tasks, such as learning with invariance and policy evaluation in reinforcement learning, can be characterized as problems of learning from conditional distributions. In such problems, each sample $x$ itself is associated with a conditional distribution $p(z|x)$ represented by samples $\{z_i\}_{i=1}^M$, and the goal is to learn a function $f$ that links these conditional distributions to target values $y$. These learning problems become very challenging when we only have limited samples or in the extreme case only one sample from each conditional distribution. Commonly used approaches either assume that $z$ is independent of $x$, or require an overwhelmingly large samples from each conditional distribution. To address these challenges, we propose a novel approach which employs a new min-max reformulation of the learning from conditional distribution problem. With such new reformulation, we only need to deal with the joint distribution $p(z,x)$. We also design an efficient learning algorithm, Embedding-SGD, and establish theoretical sample complexity for such problems. Finally, our numerical experiments on both synthetic and real-world datasets show that the proposed approach can significantly improve over the existing algorithms.

研究の動機と目的

1つまたは数個のサンプルしか利用できない状況における条件付き分布からの学習の課題に対処すること。
zとxの間の独立性を仮定する既存手法の制限や、条件付き分布あたりの大規模なサンプルサイズを要する手法の限界を克服すること。
ネストされた期待値と条件付き分布を含む問題に対して、理論的根拠に基づいた、サンプル効率の良いアルゴリズムを開発すること。
強化学習のポリシー評価や不変性学習のような、条件付き分布あたりのデータが限られる設定でも、効果的な学習を可能にすること。
非パラメトリックおよびパラメトリックな関数近似器（特に双対埋め込みを介したニューラルネットワークを含む）を統合するフレームワークを提供すること。

提案手法

元の問題を条件付き期待値の直接取り扱いを回避するため、p(z,x)の同時分布を含むミニマックス定式化に変換する。
カーネル埋め込み技術を用いて、再生核ヒルバート空間（RKHS）における条件付き分布の表現を可能にし、非パラメトリック推定を実現する。
鞍点フレームワークにおけるプライム関数と双対関数の交互更新を行う、Embedding-SGDアルゴリズムを設計する。
従来の手法（例：GTD2）で用いられる制約付き空間よりも柔軟性の高い双対関数空間を採用し、最適化能力を向上させる。
カーネル埋め込みと確率的勾配降下法を統合し、スラック目的関数を経由せずに、平均二乗ベルヌーイ誤差を直接最小化する。
ランダム特徴量を介したパラメトリックモデルへの拡張を可能とし、双対ニューラルネットワーク埋め込みを介してディープラーニングに応用可能にし、エンドツーエンド学習を実現する。

実験結果

リサーチクエスチョン

RQ11つの分布あたり1つのサンプルしか利用できない状況でも、効果的に条件付き分布学習を扱える学習アルゴリズムを設計できるか？
RQ2条件付き分布を含むネストされた期待値問題を、同時最適化フレームワークに再定式化する方法は何か？
RQ3制限されたサンプリング下での条件付き分布からの学習における理論的サンプル複雑度は何か？
RQ4最小限のデータで、GTD2、RG、およびカーネルMDPと比較して、より優れた性能を達成できるか？
RQ5双対埋め込みとカーネル法を組み合わせることで、分布学習における一般化性と最適化性能をどのように向上できるか？

主な発見

提案されたEmbedding-SGDアルゴリズムは、ナビゲーション、カートポールスイングアップ、PUMA-560マニピュレーションの各タスクにおいて、GTD2、リジッドグラデント、カーネルMDPと比較して、ポリシー評価で顕著に優れた性能を示した。
ナビゲーションタスクでは、すべてのベースラインと比較して低い平均二乗ベルヌーイ誤差を達成し、1つの条件付き分布あたり1つのサンプルという条件下でも、優れたサンプル効率を示した。
カートポールスイングアップタスクでは、状態行動ペアあたりのデータが最小限であっても、GTD2やRGと比較して安定かつ低い誤差を維持した。
PUMA-560マニピュレーションでは、価値関数推定の精度が一貫して向上し、高次元制御設定におけるその頑健性を裏付けた。
スラック目的関数を経由せず、直接的に平均二乗ベルヌーイ誤差を最適化することで、GTD2 や RG とは異なり、最先端の性能を達成した。
理論的分析により、証明可能なサンプル複雑度を確立し、1サンプル条件付け下での保証を提供する最初のアルゴリズムであることを示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。