QUICK REVIEW

[논문 리뷰] Listening to the Echo: User-Reaction Aware Policy Optimization via Scalar-Verbal Hybrid Reinforcement Learning

Jing Christine Ye, Xinpei Zhao|arXiv (Cornell University)|2026. 03. 16.

Speech and dialogue systems인용 수 0

한 줄 요약

RAPO는 스칼라–언어 하이브리드 RL 프레임워크를 통해 사용자 반응을 활용하여 감정 지원 대화를 최적화하고, 회상 대화 선택 및 생성적 회상 피드백을 사용해 상호 작용 결과로부터 학습한다.

ABSTRACT

While current emotional support dialogue systems typically rely on expert-defined scalar rewards for alignment, these signals suffer from severe information sparsity. They cannot explain why a response failed or how to adapt to dynamic user states, often diverging from the actual goal of facilitating positive emotional shifts. In practice, the most direct and reliable learning signal emerges from the user's continuous reactions during ongoing interaction. We therefore propose Reaction Aware Policy Optimization (RAPO), a framework that optimizes over interaction consequences rather than rubric scores. RAPO treats dialogue as a reaction-driven process and utilizes simulated user responses to generate dense natural-language feedback through three core components: Hindsight Dialogue Selection, which isolates pivotal turns that meaningfully alter user emotional trajectories; Generative Hindsight Feedback, which transforms user reactions into contrastive ranking signals and natural-language critiques; and Scalar-Verbal Hybrid Policy Optimization, which couples scalar reward optimization for global alignment with verbal feedback distillation for fine-grained semantic refinement. Extensive experiments on ESC and Sotopia demonstrate that RAPO significantly outperforms strong reinforcement learning baselines in driving positive interaction outcomes.

연구 동기 및 목표

학습을 정적 전문가 루브릭에서 동적 사용자 반응으로 전환해 감정 지원을 최적화한다.
사용자 정서 궤도에 의미 있게 영향을 주는 중요한 전환점들을 식별한다 (Hindsight Dialogue Selection).
사용자 반응을 생성적 회상 피드백 모델을 통해 조밀하고 실행 가능한 감독으로 변환한다.
정밀한 정책 개선을 위해 스칼라 보상 최적화와 언어 피드백 증류를 결합한다.

제안 방법

사용자 반응이 최적화를 이끄는 반응 기반 프로세스로 대화를 모델링한다 (J(x,a)).
Hindsight Dialogue Selection을 사용하여 감정 궤도에 의미 있게 영향을 주는 전환점을 필터링한다 (I_j).
사용자 시뮬레이터를 사용한 생성적 회상 피feedback을 활용해 응답 궤적을 생성하고 생성적 보상 모델이 순위, 비판, 보상을 산출한다 (R_i, c_i, Rank_i).
스칼라–언어 하이브리드 정책 최적화를 적용하여 스칼라 순위 보상을 위한 Group Relative Policy Optimization (GRPO)과 언어적 회상 피드백을 활용한 온폴리시 자기 증류를 결합한다 (L_SD).
전역 정렬과 언어적 정교화를 균형 있게 달성하기 위해 최종 목적 J(θ)=J_GRPO(θ)−ηL_SD(θ)를 최적화한다.

실험 결과

연구 질문

RQ1ESC 상호작용 동안의 사용자 반응이 정적 전문가 루브릭보다 더 유익한 감독 정보를 제공할 수 있는가?
RQ2Hindsight 대화 선택과 생성적 회상 피드백이 감정 지원 정책 학습을 개선하는가?
RQ3정량–언어 하이브리드 목표가 ESC 벤치마크 및 개방형 사회 환경에서 순수 스칼라 또는 순수 언어 RL 방식보다 우수한가?
RQ4감정 지원을 넘어서 더 넓은 사회 지능 대화 과제에 대해 RAPO의 일반화 성능은 어떤가?

주요 결과

RAPO는 EmoHarbor 및 ESC-Eval 벤치마크에서 강력한 RL 기반 비교대비를 지속적으로 상회하며, GRPO 및 CPO에 비해 뚜렷한 향상을 보인다.
RAPO는 인간 참조와 강한 의미적 일치도를 달성한다(ESConv에서 높은 Bert-Score).
제거 연구는 URM(사용자 반응 모델링)과 SD(언어 자가 증류)가 상호보완적이고 결정적임을 보여주며, 두 가지를 모두 제거하면 성능이 크게 저하된다.
사람 기반 평가에서 RAPO가 ESC와 Sotopia 전반에서 기준선 대비 절삭된 변형들보다 더 많은 페어에서 우위를 보였다.
RAPO는 Sotopia에 일반화되어 PPO, GRPO, RLOO를 능가하며, 어렵고 고난도 사회적 시나리오에서도 강한 성능을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.