[論文レビュー] LauraGPT: Listen, Attend, Understand, and Regenerate Audio with GPT
LauraGPT は音声とテキストの入力と出力を処理する統合型の音声-テキストGPTモデルで、連続入力特徴を使い離散コーデック出力を用いた単一のデコーダーのみのフレームワーク内で ASR、S2TT、TTS、SE、AAC、SER、SLU、そしてその他を可能にします。
Generative Pre-trained Transformer (GPT) models have achieved remarkable performance on various natural language processing tasks, and have shown great potential as backbones for audio-and-text large language models (LLMs). Previous mainstream audio-and-text LLMs use discrete audio tokens to represent both input and output audio; however, they suffer from performance degradation on tasks such as automatic speech recognition, speech-to-text translation, and speech enhancement over models using continuous speech features. In this paper, we propose LauraGPT, a novel unified audio-and-text GPT-based LLM for audio recognition, understanding, and generation. LauraGPT is a versatile LLM that can process both audio and text inputs and generate outputs in either modalities. We propose a novel data representation that combines continuous and discrete features for audio: LauraGPT encodes input audio into continuous representations using an audio encoder and generates output audio from discrete codec codes. We propose a one-step codec vocoder to overcome the prediction challenge caused by the multimodal distribution of codec tokens. We fine-tune LauraGPT using supervised multi-task learning. Extensive experiments show that LauraGPT consistently achieves comparable to superior performance compared to strong baselines on a wide range of audio tasks related to content, semantics, paralinguistics, and audio-signal analysis, such as automatic speech recognition, speech-to-text translation, text-to-speech synthesis, speech enhancement, automated audio captioning, speech emotion recognition, and spoken language understanding.
研究の動機と目的
- GPT フレームワーク内で音声とテキストの両方のモダリティを扱う統一モデルの構築を動機づける。
- 連続入力で音声忠実度を保持しつつ自己回帰生成(離散出力)を可能にするデータ表現を開発する。
- 単一モデルで広範な音声関連タスクをカバーするマルチタスク微調整を実現する。
- 最先端のベースラインと比較して、多様な音声ベンチマークで競争力のあるまたは優れた性能を示す。
提案手法
- デコーダーのみの Transformer 骨格を音声-テキストモデリング用に拡張した Qwen を使用する。
- 入力音声は連続特徴を生み出す Conformer ベースのエンコーダーで表現し、出力音声はコーデックベースの離散トークンで表現する。
- 集約されたコーデック・トークン埋め込みから波形を再構築するワンステップのコーデック・ボコーダを導入する。
- 統一されたクロスエントロピー目的とターゲットタスクを示す特別なタスクトークンを用いて、複数の音声/テキストタスクを共同訓練する。
- マルチタスク微調整中は事前訓練済みのコーデック・ボコーダを凍結し、バックボーンとエンコーダを訓練する。
実験結果
リサーチクエスチョン
- RQ1連続入力と離散出力を持つ単一のデコーダーのみのモデルは、音声タスクとテキストタスクを同時に処理できるか。
- RQ2入力に連続的な音声表現を、出力に離散的コーデックトークンを組み合わせると、ASR、S2TT、TTS、SE、AAC、SER、SLU などのタスクで強力な性能を発揮するか。
- RQ3認識、理解、生成タスクにおける連続音声表現と離散音声表現の影響はどの程度か。
- RQ4統一された音声-テキスト GPT のマルチタスク微調整は、タスク特有のベースラインと比較してどの程度効果的か。
主な発見
- LauraGPT は複数の音声タスクとベンチマークで強力なベースラインと同等またはそれを上回る性能を達成する。
- 連続音声入力は認識と信号処理タスクに有利をもたらす一方、離散出力は単一モデル内で強力な音声生成を可能にする。
- このモデルは統一フレームワーク内で ASR、S2TT、MT、SE、AAC、SER、SLU などの広範なタスクをサポートする。
- S2TTでは、LauraGPT はベースラインを大きく上回る BLEU の改善を示し、特定の言語ペアで Cascaded 系列に近いまたはそれを上回る。
- SE において、LauraGPT はノイズのある入力に対して PESQ と STOI を改善し、いくつかの指標で最先端 CMGAN に近づく。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。