Skip to main content
QUICK REVIEW

[論文レビュー] Moshi: a speech-text foundation model for real-time dialogue

Alexandre Défossez, Laurent Mazaré|arXiv (Cornell University)|Sep 17, 2024
Speech and dialogue systems被引用数 5
ひとこと要約

Moshiは、2つの音声ストリームをモデリングし、時間に揃えられたテキストをオーディオの前置として内的モノローグを統合することにより、リアルタイムで全二重の会話を実現する音声-テキスト基盤モデルであり、低遅延を達成し、明示的な話者ターンなしでオーバーラップを処理する。

ABSTRACT

We introduce Moshi, a speech-text foundation model and full-duplex spoken dialogue framework. Current systems for spoken dialogue rely on pipelines of independent components, namely voice activity detection, speech recognition, textual dialogue and text-to-speech. Such frameworks cannot emulate the experience of real conversations. First, their complexity induces a latency of several seconds between interactions. Second, text being the intermediate modality for dialogue, non-linguistic information that modifies meaning -- such as emotion or non-speech sounds -- is lost in the interaction. Finally, they rely on a segmentation into speaker turns, which does not take into account overlapping speech, interruptions and interjections. Moshi solves these independent issues altogether by casting spoken dialogue as speech-to-speech generation. Starting from a text language model backbone, Moshi generates speech as tokens from the residual quantizer of a neural audio codec, while modeling separately its own speech and that of the user into parallel streams. This allows for the removal of explicit speaker turns, and the modeling of arbitrary conversational dynamics. We moreover extend the hierarchical semantic-to-acoustic token generation of previous work to first predict time-aligned text tokens as a prefix to audio tokens. Not only this "Inner Monologue" method significantly improves the linguistic quality of generated speech, but we also illustrate how it can provide streaming speech recognition and text-to-speech. Our resulting model is the first real-time full-duplex spoken large language model, with a theoretical latency of 160ms, 200ms in practice, and is available at https://github.com/kyutai-labs/moshi.

研究の動機と目的

  • 音声対話システムにおける遅延、情報ボトルネック、そしてターンベースの制約に対処する。
  • 入力と出力を並列の音声ストリームとしてモデリングすることにより、全二重対話を実現する。
  • 言語的品質を向上させ、ストリーミングASR/TTSを可能にするため、テキストトークンをオーディオトークンのプレフィックスとして統合する。

提案手法

  • テキストLLMのバックボーン(Helium)を、残差ベクトル量子化によって離散的な音声トークンを生成するニューラル音声コーデック(Mimi)で拡張する。
  • ユーザーとMoshiの2つの音声ストリームに対して、意味トークンと音響トークンの両方を並行に予測する、ストリーミング対応の階層型アーキテクチャを開発する。
  • テキストと音声トークンを共にモデリングするためのInner Monologueを導入し、時間合わせされたテキストトークンを意味トークンのプレフィックスとして用いる。
  • 実時間で全二重の音声生成と聴取を可能にするため、マルチストリーム・トランスフォーマー(Depth Transformer)を使用する。
  • 意味レベルと音響レベルを分離するsplit RVQを用いることで、意味-音響のトレードオフと可読性を改善する。
  • 大量のテキストデータで事前学習を行い、意味-音響トークナイゼーション用にMimiを訓練し、ダイアリゼーションの模擬、Fisherデータ、および指示微調整でMoshiを微調整する。

実験結果

リサーチクエスチョン

  • RQ1最小限の遅延で、リアルタイムかつ全二重の音声対話を実現する音声-テキスト基盤モデルは可能か。
  • RQ2階層型でマルチストリームなアプローチは、従来の音声-テキストモデルと比較して理解度、言語品質、ストリーミング能力を向上させるか。
  • RQ3Inner Monologue、すなわち意味トークンへの時間揃えテキストプレフィックスが、生成音声の言語的忠実性と事実性を改善するか。
  • RQ4明示的な話者ターンに依存せず、重複発話、割り込み、バックチャネルをモデルがどれだけ上手く処理できるか。
  • RQ5ストリーミング音声生成のための意味-音響トークナイゼーションのトレードオフは何か。

主な発見

  • Moshiはリアルタイム対話において理論遅延160 ms、実践では約200 msを達成する。
  • モデルは二つの音声ストリーム(ユーザーとMoshi)によるストリーミング、全二重対話をサポートし、話者ターンの必要性を軽減する。
  • Inner Monologueは、音声トークンの前に時間整列済みのテキストトークンを予測することにより、生成音声の言語品質と事実性を著しく向上させる。
  • 意味トークンと音響トークンの分割RVQは、意味‑音響のトレードオフと可読性を改善する。
  • Moshiは音声モデリングと発話質問応答において、複数分の文脈(実験では最大5分)を扱いながら、音声-テキストモデルの最先端性能を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。