[論文レビュー] NatureLM-audio: an Audio-Language Foundation Model for Bioacoustics
NatureLM-audio は生物音響に特化した最初の音声言語基盤モデルで、BEANS-Zero の複数タスクでゼロショットの最先端性能を達成し、音声/音楽から生物音響ドメインへの表現を転移する。
Large language models (LLMs) prompted with text and audio have achieved state-of-the-art performance across various auditory tasks, including speech, music, and general audio, showing emergent abilities on unseen tasks. However, their potential has yet to be fully demonstrated in bioacoustics tasks, such as detecting animal vocalizations in large recordings, classifying rare and endangered species, and labeling context and behavior -- tasks that are crucial for conservation, biodiversity monitoring, and animal behavior studies. In this work, we present NatureLM-audio, the first audio-language foundation model specifically designed for bioacoustics. Our training dataset consists of carefully curated text-audio pairs spanning bioacoustics, speech, and music, designed to address the field's limited availability of annotated data. We demonstrate successful transfer of learned representations from music and speech to bioacoustics, and our model shows promising generalization to unseen taxa and tasks. We evaluate NatureLM-audio on a novel benchmark (BEANS-Zero) and it sets a new state of the art on several bioacoustics tasks, including zero-shot classification of unseen species. To advance bioacoustics research, we release our model weights, benchmark data, and open-source the code for training and benchmark data generation and model training.
研究の動機と目的
- 分類、検出、キャプション付けタスクに対応する、生物音響に特化した音声言語基盤モデルを開発する。
- 音声、音楽、一般のオーディオからのドメイン横断転移を活用して、生物音響の一般化能力を向上させる。
- 未見の分類群や新しいタスク(キャプション付け、ライフステージ、カウント)を含む BEANS-Zero ベンチマークで生物音響評価を強化する。
- 生物音響研究の加速と再現性の確保のため、トレーニングとベンチマークデータをオープンソース化する。
提案手法
- 事前学習済み BEATs の音声エンコーダと Q-Former を用いて、LoRA アダプター経由で LLM(Llama-3.1-8b)と連携する音声-to-テキストアーキテクチャを使用する。
- カリキュラム学習に触発された二段階の訓練: ステージ1 は focal species classification に対する知覚前学習、ステージ2 は 検出、キャプション付け、ライフステージ、呼名タイプ、さらには音声/音楽データを含む一般化微調整。
- 生物音響、音声、音楽を横断する多様なテキスト-オーディオ訓練データを整備し、プロンプトベースのラベリングと手続き的拡張データを含める。
- BEANS を BEANS-Zero で拡張して、未見の分類群および新規タスク(キャプショニング、カウント)へのゼロショット転送を評価する。
- ベースライン(CLAP風モデル、BirdNET、Perch、SALMONN、Qwen-audio)と比較し、いくつかの BEANS-Zero データセットで SotA のゼロショット性能を実証する。

実験結果
リサーチクエスチョン
- RQ1生物音響、音声、音楽で訓練された音声言語基盤モデルは、生物音響の未見分類群や未見タスクに一般化できるか。
- RQ2音声と音楽からの表現転写が、生物音響のゼロショット分類/検出を改善するか。
- RQ3キャプショニングや個体計数などの新しい BEANS-Zero タスクで NatureLM-audio はどの程度の性能を示すか。
- RQ4音声/音楽データを除外した場合、下流の生物音響タスクの性能にどのような影響があるか。
主な発見
- NatureLM-audio は、未見種分類を含む複数の BEANS-Zero タスクでゼロショットの最先端性能を達成する。
- モデルは音声と音楽から生物音響への強いドメイン横断転移を示し、未見分類群への一般化を改善する。
- BEANS-Zero の新規タスク(例:ライフステージ、呼び名タイプ、キャプショニング、シマキンチョウのカウント)で新しい SotA を設定する。
- 未見種評価では、NatureLM-audio はベースラインの一般ドメインモデルおよび CLAP 系アプローチを大幅に上回る。
- アブレーションにより、ステージ-2 訓練で音声/音楽データを含めることが、シマキンチョウのカウント性能を意味的に向上させることが示された。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。