[論文レビュー] Fine-Tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning
この論文は、生成チェーン・オブ・チョート推論とテキストベースのアクションをモデルに生成させ、それを実行環境のアクションへパースしてRL訓練を行うことで、大規模なビジョン・言語モデル(VLM)を強化学習でファインチューニングする枠組みを提案する。
Large vision-language models (VLMs) fine-tuned on specialized visual instruction-following data have exhibited impressive language reasoning capabilities across various scenarios. However, this fine-tuning paradigm may not be able to efficiently learn optimal decision-making agents in multi-step goal-directed tasks from interactive environments. To address this challenge, we propose an algorithmic framework that fine-tunes VLMs with reinforcement learning (RL). Specifically, our framework provides a task description and then prompts the VLM to generate chain-of-thought (CoT) reasoning, enabling the VLM to efficiently explore intermediate reasoning steps that lead to the final text-based action. Next, the open-ended text output is parsed into an executable action to interact with the environment to obtain goal-directed task rewards. Finally, our framework uses these task rewards to fine-tune the entire VLM with RL. Empirically, we demonstrate that our proposed framework enhances the decision-making capabilities of VLM agents across various tasks, enabling 7b models to outperform commercial models such as GPT4-V or Gemini. Furthermore, we find that CoT reasoning is a crucial component for performance improvement, as removing the CoT reasoning results in a significant decrease in the overall performance of our method.
研究の動機と目的
- 対話型環境でビジョン-言語推論を要求する多段階で目標指向のタスクの学習能力を持つVLMベースのエージェントの学習能力を動機づける。
- CoT推論を活用して実行可能なテキスト出力を生成するRLベースのファインチューニング枠組みを導入する。
- 特定の意思決定ベンチマークで商用モデルを上回ることを目的とした7B規模のVLMのエンドツーエンド訓練を実現する。
- 複数のタスクとドメインにおけるRL駆動の意思決定の改善に対するCoT推論の重要性を示す。
提案手法
- VLMポリシーを、(画像観察、入力プロンプト) から CoT推論と提案アクションを含むオープンエンドなテキスト出力への対応関係として定義する。
- テキスト出力から実行可能な環境アクションを抽出する後処理関数を用いる。抽出に失敗した場合は、許容アクションのうちランダム探索を行う。
- 選択したアクションの正則化対数確率を、CoTトークンの確率とアクション・トークンの確率をスケーリングして結合し、因子lambdaで制御して計算する。
- 環境報酬と計算したアクション確率を用いて、PPOでエンドツーエンドにVLMを訓練し、モデルパラメータを更新する。
- CoT推論と整形出力を引き出すためのドメイン特化プロンプトを設計し、CoTトークンのアクション確率推定における支配を緩和するスケーリング機構を導入する。
- 7BバックボーンVLM(Llava-7Bファミリー)を用いて2つのドメイン(gym_cards と ALFWorld)で評価し、GPT4-V、Gemini、監督付きファインチューニングベースラインと比較する。

実験結果
リサーチクエスチョン
- RQ1環境相互作用を要する多段階のビジョン–言語タスクにおいて、巨大VLMのRLファインチューニングは意思決定を改善できるか?
- RQ2VLMエージェントのRLファインチューニングの成功には、チェーンオブソート推論がどれほど重要か?
- RQ3ビジョン-言語の意思決定タスクで、VLMのエンドツーエンドRLファインチューニングは、凍結モデル prompting や標準RLのベースラインを上回るか?
- RQ4VLMのオープンエンドなテキスト出力から実行可能な環境アクションを抽出する効果的な方法は何か?
- RQ5CoTがドメイン間のパフォーマンスと安定性の観点で、アクション抽出のスケールにどのように影響するか?
主な発見
- RLファインチューニング枠組みは、細粒度の vision-language gym ドメイン(gym_cards)と embodiment AI ドメイン(ALFWorld)の両方でVLMの意思決定を改善する。
- RLファインチューニングを備えた7BサイズのVLMは、評価タスクでGPT4-VやGeminiなどの商用モデルを上回る。
- チェーン・オブ・ソート推論は性能にとって極めて重要であり、CoT推論を除去すると、ドメインを横断して全体の性能が大幅に低下する。
- CoTトークンのスケーリング係数lambda(通常0.2〜0.5の間)は、CoTとアクション-トークンの寄与をバランスさせ、性能に大きく影響する。
- CNNベースのRLや凍結VLM promptingベースラインと比較して、エンドツーエンドのRLファインチューニング手法は、評価タスクでより高いタスク成功率を示す。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。