[논문 리뷰] The Silent Thought: Modeling Internal Cognition in Full-Duplex Spoken Dialogue Models via Latent Reasoning
FLAIR는 ELBO 기반 학습 목표를 통해 들으면서 잠재 추론을 수행하여 추론 지연을 추가하지 않고 응답 품질을 향상시키는 전이반 음성 대화 모델을 가능하게 한다. Global-aware Expert를 사용해 잠재 임베딩을 안내하고 교사 강제 미세조정을 수행한다.
During conversational interactions, humans subconsciously engage in concurrent thinking while listening to a speaker. Although this internal cognitive processing may not always manifest as explicit linguistic structures, it is instrumental in formulating high-quality responses. Inspired by this cognitive phenomenon, we propose a novel Full-duplex LAtent and Internal Reasoning method named FLAIR that conducts latent thinking simultaneously with speech perception. Unlike conventional "thinking" mechanisms in NLP, which require post-hoc generation, our approach aligns seamlessly with spoken dialogue systems: during the user's speaking phase, it recursively feeds the latent embedding output from the previous step into the next step, enabling continuous reasoning that strictly adheres to causality without introducing additional latency. To enable this latent reasoning, we design an Evidence Lower Bound-based objective that supports efficient supervised finetuning via teacher forcing, circumventing the need for explicit reasoning annotations. Experiments demonstrate the effectiveness of this think-while-listening design, which achieves competitive results on a range of speech benchmarks. Furthermore, FLAIR robustly handles conversational dynamics and attains competitive performance on full-duplex interaction metrics.
연구 동기 및 목표
- 양방향 SDLM에서 응답 품질과 강건성을 개선하기 위해 동시적 사고의 필요성을 제시한다.
- 사용자 음성 중 연속 잠재 추론을 가능하게 하는 연속 잠재 추론 프레임워크(ELBO)를 소개한다.
- 명시적 추론 주석 없이도 교사 강제를 활용하는 감독 학습 미세조정 전략을 제시한다.
- 잠재 추론이 팩트 기반 QA, 개방형 생성, 대화 벤치마크에서 성능을 향상시키면서 지연 시간을 보존하는지 보여준다.
- 대화 동적 변화와 실시간 상호작용 시나리오에 대한 강건성을 보여준다.
제안 방법
- Listening 중에 연속 임베딩을 입력으로 받아 잠재 공간에서 추론하는 완전한 인과적 잠재 추론 메커니즘(FLAIR)을 제안한다.
- KL 발산을 통해 비인과적 Global-aware Expert 포스트eriors를 인과적 SDLM 잠재 사전 분포와 정렬하는 ELBOObjective로 잠재 추론을 모델링한다.
- 추론 중 잠재 임베딩 사용 여부를 결정하는 잠재 추론 타이밍 레이블 G를 정의하여 듣는 동안 무지연(제로-latency)을 가능하게 한다.
- 사전 학습(잠재 추론 없이), 잠재 추론 SFT(재구성 손실 후 ELBO), 음성 합성 SFT의 3단계 파이프라인으로 학습한다.
- 훈련 및 평가를 지원하기 위해 대규모 합성 대화 데이터세트(530K 시간 연속, 70k QA, 20k ASR-QA)를 만든다.
- SFT 중 Global-aware Expert를 사용한 교사 강제를 통해 잠재 임베딩을 감독하고, 분포를 맞추면서도 인과성을 보존하기 위해 스톱-그래디언트 메커니즘을 적용한다.
실험 결과
연구 질문
- RQ1듣는 단계에서의 잠재적이고 연속적인 추론이 지연 없이 양방향 SDLM의 응답 품질을 향상시키는가?
- RQ2Global-aware Expert를 활용한 ELBO 기반 학습이 스트리밍 입력에서 인과적 모델이 잠재 공간에 추론을 내재화하도록 어떻게 이끄는가?
- RQ3잠재 추론 SDLM이 말하기 대화 환경에서 사실 QA, 다-turn QA, 개방형 생성에 대해 일반화하는가?
- RQ4제안된 접근법이 실시간 대화 dynamics 및 바르게 끼어들기(barge-in) 시나리오에 대해 강건한가?
주요 결과
- 듣는 단계에서의 잠재 추론은 여러 QA 벤치마크와 개방형 작업에서 잠재 추론 없는 베이스라인에 비해 성능 향상을 보인다.
- 본 접근법은 MMSU와 OpenbookQA에서 경쟁력 있는 결과를 달성하며 여러 작업에서 기존의 많은 전이반 SDLM을 능가한다.
- 대화 행태 지표(턴-테이킹 및 바지인)는 비-사고 베이스라인과 동일하거나 더 나은 수준이며 음성 합성 품질(MOS)은 유지된다.
- 실제 인간 음성(CommonEval)에 대한 평가에서도 잠재 추론의 강건성이 실용적 조건에서 확인된다.
- 추가 추론 오버헤드 없이 낮은 대기 시간을 유지하며 듣는 동안 생각하는 능력을 가능하게 한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.