[論文レビュー] Listening to the Echo: User-Reaction Aware Policy Optimization via Scalar-Verbal Hybrid Reinforcement Learning
RAPOは、スカラー–言語ハイブリッドRLフレームワークを用いてユーザーの反応を活用し、 hindsight対話選択と生成的 hindsight フィードバックを通じて相互作用の結果から学習して、感情的サポート対話を最適化します。
While current emotional support dialogue systems typically rely on expert-defined scalar rewards for alignment, these signals suffer from severe information sparsity. They cannot explain why a response failed or how to adapt to dynamic user states, often diverging from the actual goal of facilitating positive emotional shifts. In practice, the most direct and reliable learning signal emerges from the user's continuous reactions during ongoing interaction. We therefore propose Reaction Aware Policy Optimization (RAPO), a framework that optimizes over interaction consequences rather than rubric scores. RAPO treats dialogue as a reaction-driven process and utilizes simulated user responses to generate dense natural-language feedback through three core components: Hindsight Dialogue Selection, which isolates pivotal turns that meaningfully alter user emotional trajectories; Generative Hindsight Feedback, which transforms user reactions into contrastive ranking signals and natural-language critiques; and Scalar-Verbal Hybrid Policy Optimization, which couples scalar reward optimization for global alignment with verbal feedback distillation for fine-grained semantic refinement. Extensive experiments on ESC and Sotopia demonstrate that RAPO significantly outperforms strong reinforcement learning baselines in driving positive interaction outcomes.
研究の動機と目的
- 静的な専門家ルーブリックから動的なユーザー反応へ学習をシフトし、感情的サポートを最適化する。
- 感情的軌道に意味のある影響を与える転換点を特定する(Hindsight Dialogue Selection)。
- ユーザー反応を凝縮した実用的な監視信号へと変換する生成的hindsightフィードバックモデルを導入する。
- スカラー報酬最適化と言語的フィードバック蒸留を組み合わせた細粒度なポリシー改良を実現する。
提案手法
- 対話を反応駆動プロセスとしてモデル化し、ユーザー反応が最適化を導く(J(x,a))。
- Hindsight Dialogue Selectionを用いて感情軌道に意味のある影響を与える転換点をフィルタする(I_j)。
- 生成的hindsightフィードバックをユーザーシミュレータと共に用いて応答軌道を生成し、生成的報酬モデルでランク、批評、報酬(R_i, c_i, Rank_i)を産出する。
- Scalar–Verbal Hybrid Policy Optimizationを適用し、Scalar ranking報酬のGRPOと、言語的hindsightフィードバックを用いたオンポリシー自己蒸留を組み合わせる(L_SD)。
- 最終目的関数J(θ)=J_GRPO(θ)−ηL_SD(θ)を最適化し、グローバルアラインメントと語彙の洗練のバランスを取る。
実験結果
リサーチクエスチョン
- RQ1ESC対話中のユーザー反応は、静的な専門家ルーブリックよりも有益な監視を提供するか。
- RQ2 hindsight対話選択と生成的hindsightフィードバックは感情サポートのポリシー学習を改善するか。
- RQ3スカラー–言語ハイブリッド目的関数は、ESCベンチマークやオープンエンドの社会環境全体で、純粋なスカラー RLまたは純粋な言語RLを上回るか。
- RQ4RAPOは感情サポートを越えた広範な社会知性対話タスクへ一般化できるか。
主な発見
- RAPOはEmoHarborとESC-Evalのベンチマークで強力なRLベースラインを一貫して上回り、GRPOおよびCPOに対して顕著な改善を示す。
- RAPOは人間の参照と強い意味的整合性を達成(ESConvで高いBert-Score)。
- アブレーション評価によりURM(ユーザー反応モデリング)とSD(言語的自己蒸留)は補完的で重要であり、いずれも削除すると性能が大幅に低下。
- 人間評価によりRAPOはablation版に対して対になるペアを基準より多く勝つことが示され、ESCおよびSotopiaで優位。
- RAPOはSotopiaへ一般化し、PPO、GRPO、RLOOを上回り、難易度の高い社会的シナリオでも強力な性能を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。