QUICK REVIEW

[論文レビュー] LabelBuddy: An Open Source Music and Audio Language Annotation Tagging Tool Using AI Assistance

Ioannis Prokopiou, Ioannis Sina|arXiv (Cornell University)|Mar 4, 2026

Music and Audio Processing被引用数 0

ひとこと要約

LabelBuddyは、UIをAIバックエンドから分離するオープンソースの協調型オーディオアノテーションツールで、音楽およびオーディオ言語タグ付けのAI支援事前アノテーションとヒト-in-the-loopのコンセンサスを可能にします。

ABSTRACT

The advancement of Machine learning (ML), Large Audio Language Models (LALMs), and autonomous AI agents in Music Information Retrieval (MIR) necessitates a shift from static tagging to rich, human-aligned representation learning. However, the scarcity of open-source infrastructure capable of capturing the subjective nuances of audio annotation remains a critical bottleneck. This paper introduces extbf{LabelBuddy}, an open-source collaborative auto-tagging audio annotation tool designed to bridge the gap between human intent and machine understanding. Unlike static tools, it decouples the interface from inference via containerized backends, allowing users to plug in custom models for AI-assisted pre-annotation. We describe the system architecture, which supports multi-user consensus, containerized model isolation, and a roadmap for extending agents and LALMs. Code available at https://github.com/GiannisProkopiou/gsoc2022-Label-buddy.

研究の動機と目的

静的タグ付けだけではなく、MIRにおけるよりリッチで人間と整合したオーディオアノテーション表現を動機づける。
AI推論からアノテーションインターフェースをデカップリングするコンテナ化バックエンドを提供するオープンソース基盤。
マネージャー、アノテーター、レビュワーといった役割とコンセンサスベースのグラウンドトゥルースを備えた協調ワークフローを有効化する。
領域ベースのタグ付けと主観的嗜好の集約を評価とデータキュレーションのためにサポートする。
NLP音楽タグ付けのワークフローを実証し、アノテーションパイプラインにおけるRLHFおよびエージェント的推論の道筋を議論する。

提案手法

宣言的 YAML 設定を介して統合されたコンテナ化バックエンドによるデカップリングAI支援。
Projects、Users、Tasksのリレーショナルデータベースとアクセス制御のRBACを備えたDjangoベースのフロントエンド。
サンドボックス化とスケーラビリティを確保するREST API 経由でバックエンドと通信するコンテナ化推論エンジン。
wavesurfer.jsを用いた波形ベースのアノテーションインターフェースで、対話的な事前アノテーションと編集可能な領域を提供。
アクティブなDockerコンテナによるオンデマンドAI予測を生成し、人間の検証と修正を促す。
モデルのエクスポート/インポートと、機械学習トレーニング用のJSONL/CSV形式でのグラウンドトゥルースをエクスポートするコンセンサス主導QAをサポート。

Figure 1: System Architecture Overview : The architecture decouples the Django web server from Dockerized ML inference.

実験結果

リサーチクエスチョン

RQ1アノテーションインターフェースを進化するAIバックエンドからどうデカップリングすれば、MIRデータセットの信頼性と適応性を向上できるか。
RQ2AI支援前アノテーションと人間の検証を組み合わせて、品質を損なうことなくラベリングの効率を向上させられるか。
RQ3RBAC、マルチユーザー役割、コンセンサスといったガバナンスとワークフロー機構は、協調オーディオアノテーションでグラウンドトゥルースの信頼性を最大化できるか。
RQ4オーディオと言語のマルチモーダリティを活用して、LALMsとRLHF駆動トレーニングに適したデータセットを作成できるか。
RQ5アノテーションプラットフォーム内で主観的評価（ペアワイズ嗜好）を統合する潜在的な道筋は何か。

主な発見

システムはYAML設定とREST APIを介してコンテナ化モデルを統合することで、デカップルドAI支援の事前アノテーションを提供する。
マネージャー、アノテーター、レビュワーの役割を持つマルチユーザー協力を可能にし、コンセンサスベースのグラウンドトゥルースをサポートする。
アーキテクチャは、HITLワークフロー内で領域ベースのタグ付けと主観的嗜好の集約をサポートする。
NLP音楽タグ付けのケーススタディは、Music Flamingoのようなマルチモーダルバックエンドを用いて音声に整合したキャプションを作成するワークフローを実証する。
プラットフォームは、後続モデルのファインチューニング用にJSONL/CSV形式でキュレーションデータをエクスポートするワークフローを公開する。
設計は、ペアワイズの嗜好とベイジアン集約を含む将来のRLHF統合を想定し、人間主導のモデル整合性を堅牢にする。

Figure 2: The annotation interface displaying AI-generated predictions as editable waveform regions.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。