QUICK REVIEW

[論文レビュー] Pengi: An Audio Language Model for Audio Tasks

Soham Deshmukh, Benjamin Elizalde|arXiv (Cornell University)|May 19, 2023

Music and Audio Processing被引用数 20

ひとこと要約

Pengiはすべての音声タスクを、音声プレフィックスで条件づけられた凍結済み言語モデルを用いてテキスト生成問題として再定式化し、タスク特化のファインチューニングなしに、オープンエンド（キャプション作成、QA）とクローズドエンド（分類、検索）タスクの両方を可能にする。

ABSTRACT

In the domain of audio processing, Transfer Learning has facilitated the rise of Self-Supervised Learning and Zero-Shot Learning techniques. These approaches have led to the development of versatile models capable of tackling a wide array of tasks, while delivering state-of-the-art performance. However, current models inherently lack the capacity to produce the requisite language for open-ended tasks, such as Audio Captioning or Audio Question & Answering. We introduce Pengi, a novel Audio Language Model that leverages Transfer Learning by framing all audio tasks as text-generation tasks. It takes as input, an audio recording, and text, and generates free-form text as output. The input audio is represented as a sequence of continuous embeddings by an audio encoder. A text encoder does the same for the corresponding text input. Both sequences are combined as a prefix to prompt a pre-trained frozen language model. The unified architecture of Pengi enables open-ended tasks and close-ended tasks without any additional fine-tuning or task-specific extensions. When evaluated on 22 downstream tasks, our approach yields state-of-the-art performance in several of them. Our results show that connecting language models with audio models is a major step towards general-purpose audio understanding

研究の動機と目的

従来、タスク固有のモデルを必要とする多様な音声タスクに対して、統一的な転移学習アプローチを提案する。
ファインチューニングなしでオープンエンドとクローズドエンドのタスクを処理できる Audio Language Model (ALM) を導入する。
指示調整風のテンプレートを活用して、幅広い音声-テキストタスクでモデルを訓練する。
音声プレフィックスで言語モデルをグラウンドすることで、複数のドメインで高い性能を示すことを示す。

提案手法

入力音声を音声エンコーダ（HTSAT/CLAPベースのバックボーン）を介して連続埋め込みの列として表現し、訓練可能なプレフィックスネットワークとマッピングして音声プレフィックスを形成する。
凍結されたテキストエンコーダを用いてテキストプロンプトを処理し、それを対応する埋め込みプレフィックスへマッピングする。
音声プレフィックスとテキストプレフィックスを連結し、事前学習済みの凍結自己回帰型言語モデル（GPT-2ファミリー）を条件付けてテキスト出力を生成する。
音声-テキストプレフィックスを条件付けて出力テキストを予測するクロスエントロピーを用いたキャプション作成目的で訓練する。
8テンプレートにわたる3.4百万の音声-テキストペアで訓練し、指示調整型の汎化を可能にする。
推論時には、音声およびプロンプトプレフィックスを条件付けてビーム探索（サイズ5）でテキストを自己回帰的に生成する。

実験結果

リサーチクエスチョン

RQ1すべての音声タスクを、単一の訓練手続きで音声-テキストからテキスト生成問題として再定式化できるか。
RQ2統一された Audio Language Model は、タスク固有のアーキテクチャ変更を行うことなく、オープンエンドとクローズエンドの音声タスクの両方を可能にするか。
RQ3音声ドメインにおける指示調整風テンプレートからどのような利得が生じるか。
RQ4タスク固有またはゼロショットのベースラインと比較して、Pengi は多様な下流タスクでどのように達成するか。

主な発見

Pengi は、評価対象の21タスクのうち、いくつかのオープンエンドタスク（Audio Captioning および Audio QA）で最先端の性能を達成する。
Pengi は分類や検索などの複数のクローズドエンド音声タスクで、基準となるゼロショットモデルを上回る。
音声キャプション作成では、Pengi が AudioCaps および Clotho データセットのいくつかの教師ありモデルを上回り、研究で有意な相対改善が報告されている。
線形プローブ分析は、次トークン予測目的が音声イベント、音楽、話者感情領域にわたる汎用的な音声表現を学習するのに役立つことを示唆する。
Pengi は現代のゼロショットモデルと比較して、音響イベント分類において競争力のあるゼロショット性能を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。