[論文レビュー] The Silent Thought: Modeling Internal Cognition in Full-Duplex Spoken Dialogue Models via Latent Reasoning
FLAIR は ELBO ベースの訓練目的でリスニング時の潜在推論を可能にし、推論遅延を追加せずに応答品質を向上させる全二重話し言葉対話モデルを実現します。グローバル認識エキスパートを用いて潜在埋め込みをガイドし、教師ありフォニングを行います。
During conversational interactions, humans subconsciously engage in concurrent thinking while listening to a speaker. Although this internal cognitive processing may not always manifest as explicit linguistic structures, it is instrumental in formulating high-quality responses. Inspired by this cognitive phenomenon, we propose a novel Full-duplex LAtent and Internal Reasoning method named FLAIR that conducts latent thinking simultaneously with speech perception. Unlike conventional "thinking" mechanisms in NLP, which require post-hoc generation, our approach aligns seamlessly with spoken dialogue systems: during the user's speaking phase, it recursively feeds the latent embedding output from the previous step into the next step, enabling continuous reasoning that strictly adheres to causality without introducing additional latency. To enable this latent reasoning, we design an Evidence Lower Bound-based objective that supports efficient supervised finetuning via teacher forcing, circumventing the need for explicit reasoning annotations. Experiments demonstrate the effectiveness of this think-while-listening design, which achieves competitive results on a range of speech benchmarks. Furthermore, FLAIR robustly handles conversational dynamics and attains competitive performance on full-duplex interaction metrics.
研究の動機と目的
- 全二重 SDLM の応答品質と堅牢性を向上させるための同時思考の必要性を動機づける。
- 連続的な潜在推論のための潜在変数フレームワーク(ELBO)を導入し、ユーザ発話中の潜在推論を実現する。
- 明示的な推論注釈なしで教師 forcing を活用する監視付きファインチューニング戦略を提供する。
- 潜在推論がファクトQA、オープンエンド生成、対話ベンチマークの性能を改善しつつ遅延を維持することを示す。
- 対話ダイナミクスとリアルタイム相互作用シナリオへの頑健性を示す。
提案手法
- リスニング中に潜在空間で推論する完全因果的潜在推論機構(FLAIR)を提案し、ユーザターン中は離散トークンの代わりに連続埋め込みを入力する。
- KL ダイバージェンス を介して因果SDLM潜在事前分布と非因果グローバル認識エキスパート後部分布を整合させる ELBO 目的で潜在推論をモデル化する。
- 推論時に潜在埋め込みを明示的テキストトークンと使用するタイミングを決定する潜在推論タイミングラベル G を定義し、リスニング時のゼロ遅延を可能にする。
- 三段階のパイプラインで訓練する:潜在推論なしの事前学習、潜在推論 SFT(再構成損失→ELBO)、およびスピーチ合成 SFT。
- 訓練と評価を支える大規模な合成対話データセットを作成(530K 時間の継続、70k QA、20k ASR-QA)。
- SFT ではグローバル認識エキスパートを用いた教師 forcing によって潜在埋め込みを監視し、因果性を維持しつつ分布を整合させるストップ・グラデーション機構を適用する。
実験結果
リサーチクエスチョン
- RQ1リスニングフェーズにおける潜在的で連続的な推論は、推論遅延を追加せずに全二重 SDLM の応答品質を向上させることができるのか。
- RQ2ELBO ベースの訓練とグローバル認識エキスパートは、ストリーミング入力から潜在空間で推論を内在化するよう因果モデルを導くのか。
- RQ3潜在推論を用いた SDLM は、事実 QA、マルチターン QA、オープンエンド生成を話し言葉の対話設定で一般化するのか。
- RQ4提案手法はリアルタイムの対話ダイナミクスや barging-in(途中介入)シナリオに対して頑健か。
主な発見
| Method | FD | LlamaQ | WebQ | TriQA | SDQA | AlpacaE | ComE | OBQA | MMSU |
|---|---|---|---|---|---|---|---|---|---|
| Moshi (Défossez et al., 2024 ) | ✓ | 54.5 | 22.1 | 16.7 | 15.6 | 2.01 | 1.60 | 25.9 | 24.0 |
| Freeze-Omni (Wang et al., 2024b ) | ✓ | 56.2 | 27.9 | 28.5 | 53.5 | 4.03 | 3.46 | 31.0 | 28.1 |
| SALMONN-omni (Yu et al., 2025 ) | ✓ | 73.6 | 43.7 | 56.0 | - | 3.22 | - | - | 30.0 |
| SALM-Duplex (Hu et al., 2025 ) | ✓ | 51.3 | 25.0 | 16.9 | 26.0 | 2.99 | 2.50 | 39.6 | 26.3 |
| GLM-4-Voice (Zeng et al., 2024 ) | ✗ | 65.7 | 37.0 | 47.5 | 37.0 | 3.97 | 3.42 | 53.4 | 39.8 |
| Qwen2-Audio (Chu et al., 2024 ) | ✗ | 69.7 | 45.2 | 40.3 | 35.7 | 3.74 | 3.43 | 49.5 | 35.7 |
| Kimi-Audio (Ding et al., 2025 ) | ✗ | 68.3 | 37.3 | 51.2 | 63.1 | 4.46 | 3.97 | 83.5 | 62.2 |
| Baichuan-Audio (Li et al., 2025 ) | ✗ | 74.0 | 40.7 | 53.0 | 45.8 | 4.41 | 4.08 | 71.7 | 53.2 |
| STITCH-R (Chiang et al., 2025b ) | ✗ | 70.0 | 50.3 | 49.6 | - | 2.70 | - | - | - |
| FLAIR w/o thk | ✓ | 73.0 | 41.7 | 53.8 | 54.4 | 3.80 | 3.54 | 72.9 | 50.2 |
| FLAIR w/thk | ✓ | 78.0 | 43.0 | 51.2 | 56.2 | 3.85 | 3.65 | 74.2 | 56.2 |
- ユーザーが話している間の潜在推論は、潜在推論を持たないベースラインと比較して複数の QA ベンチマークやオープンエンドタスクで性能向上を示す。
- MMSU および OpenbookQA で競争力のある結果を達成し、いくつかのタスクで従来の多くの全二重 SDLM を上回る。
- 対話挙動指標(ターン取り、 barging-in)は非思考ベースラインと同等またはそれ以上を維持しつつ、音声合成品質(MOS)も維持。
- 実話者の音声(CommonEval)での評価は、実用条件における潜在推論の頑健性を確認。
- 追加の推論オーバーヘッドなしで低遅延を維持し、思考しながら聴くことを可能にする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。