QUICK REVIEW

[論文レビュー] Spirit LM: Interleaved Spoken and Written Language Model

Tu Anh Nguyen, Benjamin Müller|arXiv (Cornell University)|Feb 8, 2024

Speech Recognition and Synthesis被引用数 3

ひとこと要約

SPIRIT LM は、テキストと音声トークンを交互に学習する 7B パラメータの基盤モデルであり、音声とテキストの両方のクロスモダリティ生成を可能にしている。LLaMA 2 を、テキスト（BPE）と音声（HuBERT、ピッチ、スタイルユニット）の混合ストリームにおける連続的微調整で拡張することで、ASR、TTS、音声分類の分野で少数-shot 学習において優れた性能を発揮するとともに、モダリティ間で感情を保持する。これは、テキストと音声生成の両方でクロスモダリティ感情保持を実証した最初のモデルである。

ABSTRACT

We introduce Spirit LM, a foundation multimodal language model that freely mixes text and speech. Our model is based on a 7B pretrained text language model that we extend to the speech modality by continuously training it on text and speech units. Speech and text sequences are concatenated as a single stream of tokens, and trained with a word-level interleaving method using a small automatically-curated speech-text parallel corpus. Spirit LM comes in two versions: a Base version that uses speech phonetic units (HuBERT) and an Expressive version that models expressivity using pitch and style units in addition to the phonetic units. For both versions, the text is encoded with subword BPE tokens. The resulting model displays both the semantic abilities of text models and the expressive abilities of speech models. Additionally, we demonstrate that Spirit LM can learn new tasks in a few-shot fashion across modalities (i.e. ASR, TTS, Speech Classification). We make available model weights and inference code.

研究の動機と目的

トレーニング中にモダリティを交互に扱うことで、テキストと音声の両方を生成可能な統合型言語モデルの開発。
テキスト中心の LLM にピッチやスタイルといった表現力のある音声機能を追加し、感情的・プロソディックな正確性を向上させる。
ASR、TTS、音声分類を含む、モダリティ間の少数-shot 一般化を評価する。
音声とテキストのモダリティ間での感情保持を測定する新しいベンチマーク、STSP を導入する。
生成された音声とテキストにおける追加的トキシシティを評価・定量し、特に感受性の高いデモグラフィック軸における差異を分析する。

提案手法

テキストと音声トークンの混合ストリーム上で、7B パラメータの LLaMA 2 ベースモデルを連続的微調整により学習する。
音声を HuBERT で符号化し、表現力のあるモデリングのためのピッチ（F0）とスタイルトークンを、EXPRESSIVE バージョンに追加する。
特別なモダリティトークン [TEXT] と [SPEECH] を用いて、整列済みの音声-テキストデータにおける語の境界で、テキスト（BPE符号化済み）と音声トークンを交互に配置する。
連続する音声トークンの重複を除外することで、冗長性を低減し、学習効率を向上させる。
全インタリーブドシーケンスにおける次トークン予測損失を用い、両モダリティを同時に最適化する。
テキストから音声、音声からテキスト、およびクロスモダリティ分類タスクにおけるコンテキスト内学習プロンプトを用いて、少数-shot 機能を評価する。

実験結果

リサーチクエスチョン

RQ11 つの言語モデルが、モダリティを交互に学習することで、テキストと音声の両方を流暢に生成できるか？
RQ2テキストベースの LLM が、モダリティ間（テキストから音声、音声からテキスト）で生成する際、感情をどの程度保持できるか？
RQ3ピッチとスタイルトークンの導入が、表現力のある音声生成および感情保持に与える影響はいかほどか？
RQ4生成された音声とテキストにおける追加的トキシシティのレベルはどの程度で、デモグラフィック軸ごとにどのように変化するか？
RQ5SPIRIT LM は、ASR や TTS、音声分類といった下流タスクにおいて、少数-shot 環境で一般化できるか？

主な発見

SPIRIT LM BASE は、ASR、TTS、音声分類の分野で、少数-shot 学習において競争力のある性能を示し、クロスモダリティ一般化を実証した。
SPIRIT LM の EXPRESSIVE バージョンは、ベースラインモデルと比較して、特に音声からテキスト、テキストから音声の生成において、感情の保持が顕著に優れている。
STSP ベンチマークでは、SPIRIT LM はすべての方向で最高の感情保持スコアを示した。S→T は最低スコアであったが、依然としてベースラインを上回った。
トキシシティ評価において、SPIRIT LM BASE は、段階的な ASR+LLM+TTS パイプラインと同等の ETOX スコアを示したが、S→S 生成では MUTOX スコアが高く、音声生成における追加的トキシシティが増加していることが示された。
性別、性的指向、性別に関する軸では、生成コンテンツにおける追加的トキシシティが高かったが、能力や国籍の軸では低く、モダリティ間で顕著な差異は認められなかった。
元の LLaMA 2 と比較して、テキスト生成において性能のギャップが見られたため、統合的テキスト-音声微調整の改善の余地があることが示唆された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。