[논문 리뷰] Moshi: a speech-text foundation model for real-time dialogue
Moshi는 두 개의 오디오 스트림을 모델링하고 오디오에 시간 정렬 텍스트를 접두사로 붙이는 내부 독백을 통합하여 실시간, 전이중 구어 대화를 가능하게 하는 음성-텍스트 기반의 패런 모델로, 지연을 낮추고 명시적 화자 전환 없이도 중첩을 처리합니다.
We introduce Moshi, a speech-text foundation model and full-duplex spoken dialogue framework. Current systems for spoken dialogue rely on pipelines of independent components, namely voice activity detection, speech recognition, textual dialogue and text-to-speech. Such frameworks cannot emulate the experience of real conversations. First, their complexity induces a latency of several seconds between interactions. Second, text being the intermediate modality for dialogue, non-linguistic information that modifies meaning -- such as emotion or non-speech sounds -- is lost in the interaction. Finally, they rely on a segmentation into speaker turns, which does not take into account overlapping speech, interruptions and interjections. Moshi solves these independent issues altogether by casting spoken dialogue as speech-to-speech generation. Starting from a text language model backbone, Moshi generates speech as tokens from the residual quantizer of a neural audio codec, while modeling separately its own speech and that of the user into parallel streams. This allows for the removal of explicit speaker turns, and the modeling of arbitrary conversational dynamics. We moreover extend the hierarchical semantic-to-acoustic token generation of previous work to first predict time-aligned text tokens as a prefix to audio tokens. Not only this "Inner Monologue" method significantly improves the linguistic quality of generated speech, but we also illustrate how it can provide streaming speech recognition and text-to-speech. Our resulting model is the first real-time full-duplex spoken large language model, with a theoretical latency of 160ms, 200ms in practice, and is available at https://github.com/kyutai-labs/moshi.
연구 동기 및 목표
- 발화 대화 시스템의 지연, 정보 병목 및 턴 기반 한계를 해결한다.
- 입력과 출력을 병렬 오디오 스트림으로 모델링하여 전이중 대화를 가능하게 한다.
- 언어 품질을 개선하고 스트리밍 ASR/TTS를 가능하게 하기 위해 텍스트 토큰을 오디오 토큰의 접두사로 통합한다.
제안 방법
- 텍스트 LLM 백본(Helium)을 잔여 벡터 양자화(residual vector quantization)를 통해 이산 오디오 토큰을 생성하는 신경 오디오 코덱(Mimi)으로 확장한다.
- 의미 토큰과 음향 토큰을 두 개의 오디오 스트림(사용자와 Moshi)에서 병렬로 예측하기 위한 스트리밍형 계층적 아키텍처를 개발한다.
- 의미 토큰과 음향 토큰을 공동으로 모델링하기 위해 Inner Monologue를 도입하고, 시간 정렬된 텍스트 토큰을 의미 토큰의 접두사로 사용한다.
- 실시간, 전이중 음성 생성 및 청취를 가능하게 하기 위해 다중 스트림 트랜스포머(Depth Transformer)를 사용한다.
- 의미 수준과 음향 수준을 분리된 RVQ로 분리하여 음운 구별력과 음질을 향상시킨다.
- 대규모 텍스트 데이터로 사전 학습하고, 의미-음향 토큰화에 대해 Mimi를 학습시키며, 시뮬레이션된 발화자 구분, Fisher 데이터 및 지시문 미세 조정을 통해 Moshi를 미세 조정한다.
실험 결과
연구 질문
- RQ1실시간, 전이중 구어 대화를 최소 지연으로 달성할 수 있는 음성-텍스트 기반 모델이 가능한가?
- RQ2계층적 다중 스트림 접근 방식이 이전의 음성-텍스트 모델에 비해 이해력, 언어 품질, 스트리밍 가능성을 개선하는가?
- RQ3Inner Monologue, 즉 의미 토큰에 시간 정렬된 접두사를 추가하는 것이 생성된 음성의 언어적 충실도와 사실성 향상에 기여하는가?
- RQ4명시적 화자 턴에 의존하지 않고 겹치는 발화, 끊김, 백채널을 얼마나 잘 다룰 수 있는가?
- RQ5스트리밍 음성 생성의 의미-음향 토큰화에서의 트레이드오프는 무엇인가?
주요 결과
- Moshi는 이론적 지연 160 ms 및 실제로는 약 200 ms 수준의 실시간 대화를 달성한다.
- 모델은 두 개의 오디오 스트림(사용자 및 Moshi)으로 스트리밍, 전이중 대화를 지원하며 화자 턴의 필요성을 완화한다.
- Inner Monologue는 오디오 토큰보다 앞서 시간 정렬된 텍스트 토큰을 예측함으로써 생성 음성의 언어적 품질과 사실성을 크게 향상시킨다.
- 의미 토큰과 음향 토큰에 대한 분리된 RVQ(split RVQ)가 의미-음향 간 트레이드오프와 이해도를 개선한다.
- Moshi는 실험에서 최대 5분까지의 컨텍스트를 다루는 동안 음성 모델링과 음성 질의응답에서 음성-텍스트 모델 중 최첨단 성능을 시연하며, 수 분의 컨텍스트를 처리한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.