Skip to main content
QUICK REVIEW

[論文レビュー] Flow Network based Generative Models for Non-Iterative Diverse Candidate Generation

Emmanuel Bengio, Moksh Jain|arXiv (Cornell University)|Jun 8, 2021
Machine Learning in Materials Science参考文献 40被引用数 27
ひとこと要約

GFlowNet は、正の報酬に比例する確率で終端状態をサンプルするフローネットワークベースのポリシーを学習し、非反復的で多様な高報酬候補の生成を可能にする(例: 分子)。

ABSTRACT

This paper is about the problem of learning a stochastic policy for generating an object (like a molecular graph) from a sequence of actions, such that the probability of generating an object is proportional to a given positive reward for that object. Whereas standard return maximization tends to converge to a single return-maximizing sequence, there are cases where we would like to sample a diverse set of high-return solutions. These arise, for example, in black-box function optimization when few rounds are possible, each with large batches of queries, where the batches should be diverse, e.g., in the design of new molecules. One can also see this as a problem of approximately converting an energy function to a generative distribution. While MCMC methods can achieve that, they are expensive and generally only perform local exploration. Instead, training a generative policy amortizes the cost of search during training and yields to fast generation. Using insights from Temporal Difference learning, we propose GFlowNet, based on a view of the generative process as a flow network, making it possible to handle the tricky case where different trajectories can yield the same final state, e.g., there are many ways to sequentially add atoms to generate some molecular graph. We cast the set of trajectories as a flow and convert the flow consistency equations into a learning objective, akin to the casting of the Bellman equations into Temporal Difference methods. We prove that any global minimum of the proposed objectives yields a policy which samples from the desired distribution, and demonstrate the improved performance and diversity of GFlowNet on a simple domain where there are many modes to the reward function, and on a molecule synthesis task.

研究の動機と目的

  • 単一のリターンを最大化することよりも、複数の高報酬軌道をサンプリングすることを動機づける。
  • 正規化されていない報酬関数を生成ポリシーに変換する方法を示す。
  • 非単射性に対処する:複数のアクション列が同じ最終状態を生み出す可能性がある。
  • 正しいサンプリング比例を保証するためにTD様の更新を伴うフローに基づく学習目的を提案する。

提案手法

  • 生成プロセスを単一のソースと終端状態でのシンクを持つフローネットワークとしてモデル化する。
  • pi(a|s) = F(s,a) / F(s) を定義してフロー整合性の下で pi(x) ∝ R(x) を達成する。
  • 各ノードで入ってくるフローと出ていくフローを等しくするフロー整合性を課す(境界条件: F(x) = R(x))。
  • 対数スケールのフロー整合目的を用いて、対数フローを予測するニューラル予測子を訓練する、式は L_theta,epsilon(τ)。
  • オフポリシー/オフライン収束を実証する:広いサポートを持つ軌道での訓練は、十分な容量の下で正しいフローをもたらす。

実験結果

リサーチクエスチョン

  • RQ1同じ状態に到達する複数のアクション列があっても、終端状態を与えられた報酬に比例する確率でサンプルできるか。
  • RQ2ツリーベースの見方と比較して、フローネットワークの定式化は非単射な状態写像から生じる偏りを避けるか。
  • RQ3TD様のフロー整合目的は、ターゲット分布 π(x) ∝ R(x) への収束を保証しますか。
  • RQ4合成DAG領域や大規模分子生成タスクにおいて、PPOおよびMCMCと比較してこのアプローチは有効か。

主な発見

  • アクションから状態への写像が非単射であっても、GFlowNetは π(x) ∝ R(x) のサンプルを実現する。
  • 対数フローメッチング目的は安定した訓練信号を提供し、十分な容量下でオフポリシー/オフライン収束を可能にする。
  • ハイパーグリッドの toy ドメインでは、モード分離が進むほど、GFlowNetはMCMCとPPOよりも速く、より正確にターゲット分布へ収束する。
  • 分子設計では、GFlowNet はより多様な高報酬分子を発見し、top-k 報酬がベースラインの MARS や PPO よりも速く高い値を達成する。
  • GFlowNet は高報酬のモードを >1500 見つけるのに対し、MARS では <100 のため、大規模な行動空間における多様性が著しく向上していることを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。