QUICK REVIEW

[논문 리뷰] LabelBuddy: An Open Source Music and Audio Language Annotation Tagging Tool Using AI Assistance

Ioannis Prokopiou, Ioannis Sina|arXiv (Cornell University)|2026. 03. 04.

Music and Audio Processing인용 수 0

한 줄 요약

LabelBuddy는 UI를 AI 백엔드와 분리한 오픈 소스 협업 음성 주석 도구로, 음악 및 음성 언어 태깅을 위한 AI 보조 프리 주석과 인간-루프 합의를 가능하게 한다.

ABSTRACT

The advancement of Machine learning (ML), Large Audio Language Models (LALMs), and autonomous AI agents in Music Information Retrieval (MIR) necessitates a shift from static tagging to rich, human-aligned representation learning. However, the scarcity of open-source infrastructure capable of capturing the subjective nuances of audio annotation remains a critical bottleneck. This paper introduces extbf{LabelBuddy}, an open-source collaborative auto-tagging audio annotation tool designed to bridge the gap between human intent and machine understanding. Unlike static tools, it decouples the interface from inference via containerized backends, allowing users to plug in custom models for AI-assisted pre-annotation. We describe the system architecture, which supports multi-user consensus, containerized model isolation, and a roadmap for extending agents and LALMs. Code available at https://github.com/GiannisProkopiou/gsoc2022-Label-buddy.

연구 동기 및 목표

MIR에서 정적 태깅을 넘어 더 풍부하고 사람과 정렬된 오디오 주석 표현을 촉진한다.
컨테이너화된 백엔드를 통해 주석 인터페이스와 AI 추론을 분리하는 오픈 소스 인프라를 제공한다.
관리자, 주석가, 검토자 역할과 합의 기반의 기준 진실ground truth를 통한 협업 워크플로우를 가능하게 한다.
영역 기반 태깅과 평가 및 데이터 선정을 위한 주관적 선호도 집계 모두를 지원한다.
NLP 음악 태깅 워크플로우를 시연하고 RLHF 및 주석 파이프라인에서 에이전트적 추론으로의 경로를 논의한다.

제안 방법

선언적 YAML 구성을 통해 컨테이너화된 백당과 연동하여 분리된 AI 보조를 구현한다.
Django 기반 프런트엔드와 프로젝트, 사용자, 작업에 대한 관계형 데이터베이스 및 접근 제어 RBAC를 갖춘다.
백엔드와 REST API로 소통하는 컨테이너화된 추론 엔진으로 샌드박싱과 확장성을 보장한다.
파형 기반 주석 인터페이스로 wavesurfer.js를 사용해 상호작용 가능한 프리 주석과 편집 가능한 영역을 제공한다.
활발한 도커 컨테이너에 의해 필요시 AI 예측이 생성되고 사람의 검증 및 수정에 제시된다.
모델 내보내기/가져오기 및 합의 주도 QA를 통해 ML 학습용 JSONL/CSV 형식으로 Ground-truth를 내보낼 수 있다.

Figure 1: System Architecture Overview : The architecture decouples the Django web server from Dockerized ML inference.

실험 결과

연구 질문

RQ1주석 인터페이스를 evolving AI 백엔드로부터 분리하여 MIR 데이터셋의 신뢰성과 적응성을 향상시킬 수 있는가?
RQ2사람의 검증과 결합된 AI 보조 프리 주석이 품질을 떨어뜨리지 않으면서 라벨링 효율성을 향상시킬 수 있는가?
RQ3협업 음성 주석에서 기준 진실의 신뢰성을 극대화하는 거버넌스와 워크플로우 메커니즘(RBAC, 다중 사용자 역할, 합의)은 무엇인가?
RQ4오디오-언어 다중모달리티를 활용해 LALMs 및 RLHF 주도 학습에 적합한 데이터셋을 어떻게 만들 수 있는가?
RQ5주관적 평가(쌍대 선호도)를 주석 플랫폼 내에서 통합할 수 있는 잠재 경로는 무엇인가?

주요 결과

시스템은 YAML 구성 및 REST API를 통해 컨테이너화된 모델을 통합하여 분리된 AI 보조 프리 주석을 제공한다.
관리자, 주석가, 검토자 역할이 가능한 다중 사용자 협업을 통해 합의 기반의 기준 진실을 지원한다.
아키텍처는 HITL 워크플로우 내에서 영역 기반 태깅과 주관적 선호 집계를 지원한다.
NLP 음악 태깅 사례 연구는 음악 Flamingo와 같은 멀티모달 백엔드를 사용하여 오디오에 맞춰 자막을 생성하는 워크플로우를 시연한다.
플랫폼은 ML 학습을 위한 후속 모델 미세조정을 위해 JSONL/CSV 형식으로 큐레이션된 데이터를 내보내는 워크플로우를 노출한다.
디자인은 쌍대 선호도 및 베이지안 집계를 포함한 미래의 RLHF 통합을 예상하여 인간 주도 모델 정렬의 강건성을 확보한다.

Figure 2: The annotation interface displaying AI-generated predictions as editable waveform regions.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.