QUICK REVIEW

[논문 리뷰] MuLan: A Joint Embedding of Music Audio and Natural Language

Qingqing Huang, Aren Jansen|arXiv (Cornell University)|2022. 08. 26.

Music and Audio Processing인용 수 31

한 줄 요약

MuLan은 44M 음악 클립에서 두-tower 음성-텍스트 임베딩 모델을 학습하여 음악 오디오를 제약 없는 자연어와 연결하고 제로샷 태깅 및 교차 모달 검색을 가능하게 한다.

ABSTRACT

Music tagging and content-based retrieval systems have traditionally been constructed using pre-defined ontologies covering a rigid set of music attributes or text queries. This paper presents MuLan: a first attempt at a new generation of acoustic models that link music audio directly to unconstrained natural language music descriptions. MuLan takes the form of a two-tower, joint audio-text embedding model trained using 44 million music recordings (370K hours) and weakly-associated, free-form text annotations. Through its compatibility with a wide range of music genres and text styles (including conventional music tags), the resulting audio-text representation subsumes existing ontologies while graduating to true zero-shot functionalities. We demonstrate the versatility of the MuLan embeddings with a range of experiments including transfer learning, zero-shot music tagging, language understanding in the music domain, and cross-modal retrieval applications.

연구 동기 및 목표

오디오와 텍스트를 위한 공유 임베딩 공간을 학습하여 음악 오디오에 대한 유연하고 자연어 인터페이스를 생성한다.
대규모 약하게 연관된 텍스트 주석을 활용하여 교차 모달 표현을 학습한다.
학습된 임베딩을 통해 제로샷 태깅, 음악에 대한 언어 이해, 교차 모달 검색을 입증한다.
표준 음악 태깅 벤치마크에서 오디오 인코더의 전이 학습 성능을 평가한다.
다양한 텍스트 소스(짧은 형식, 긴 형식, 재생목록, ASET)가 교차 모달 학습에 미치는 영향을 탐구한다.

제안 방법

두 타워 아키텍처로 각기 다른 오디오 인코더와 텍스트 인코더가 차원 d=128의 L2-정규화 임베딩을 생성한다.
오디오 인코더: ResNet-50 또는 Audio Spectrogram Transformer(AST로 10초 로그멜 스펙트로그램 창에서 SpecAugment를 사용하여 작동한다.
텍스트 인코더: CLS 토큰 임베딩을 생성하여 공유 공간으로 투영하는 BERT-base-uncased를 사용한다.
학습 목표: 코사인 유사도와 학습 가능한 온도 매개변수 tau를 사용하는 컨트라스트 멀티뷰 코딩 손실(교차 모달 InfoNCE/NT-Xent).
학습 데이터: 약 44백만 개의 30초 음악 클립과 짧은 형식 태그, 긴 형식 설명, 재생목록, AudioSet 레이블에서의 약하게 연관된 텍스트; 고정된 미니배치 비율 2:2:1:1(SF:LF:PL:ASET)로 데이터 샘플링.
사전 학습: 오디오 인코더는 AudioSet에서 사전 학습되며; 텍스트 인코더는 BERT에서 워밍업 시작.

실험 결과

연구 질문

RQ1약하게 연관된 자연어에서 학습된 공동 오디오-텍스트 임베딩이 고정된 온톨로지 밖의 제로샷 음악 태깅을 가능하게 할 수 있는가?
RQ2교차 모달 컨트라스트 학습이 서로 다른 텍스트 스타일에 걸쳐 자유 형식 언어를 음악 오디오에 효과적으로 연결하는가?
RQ3MuLan이 교차 모달 음악 검색 및 음악 도메인 언어 이해를 얼마나 확장할 수 있는가?
RQ4다양한 텍스트 데이터 소스(짧은 형식, 긴 형식, 재생목록, ASET)가 교차 모달 정합 및 다운스트림 작업에 어떤 영향을 미치는가?
RQ5오디오 인코더로서 ResNet-50 대 AST를 사용할 때 제로샷 태깅 및 검색 성능에 어떤 영향이 있는가?

주요 결과

MuLan은 MagnaTagATune(MTAT) 및 AudioSet(Gen-25 및 Mu-141) 벤치마크에서 경쟁력 있는 제로샷 태깅 성능을 달성하며, M-Resnet-50과 M-AST 간의 결과는 유사하다.
다양한 텍스트 소스를 도입하는 것이 일반적으로 다운스트림 작업을 개선하는 경향이 있으며, 필터링은 일부 설정에서 도움이 될 수 있지만 노이즈에 강한 컨트라스트 학습으로 인해 비필터링 데이터도 놀라울 정도로 효과적이다.
MuLan의 오디오 임베딩에 대한 선형 프로브는 태깅 벤치마크에서 최첨단 전이 학습 성능을 보이며, 일반적인 오디오 표현에 비해 강력한 범용성을 시사한다.
MuLan은 텍스트 쿼리를 사용한 교차 모달 검색을 가능하게 하며, 짧은 형식 및 긴 형식 텍스트, 재생목록 데이터를 포함할 때 특히 복잡한 다중 용어 및 부정어가 풍부한 쿼리에서 성능이 향상된다.
뮤랜에서 음악 도메인 데이터와 교차 모달 손실을 사용한 텍스트 임베딩 미세 조정은 일반 문장 임베딩에 비해 텍스트 트리플렛 분류 정확도를 향상시킨다.
엔드-투-엔드 베이스라인은 경쟁력 있는 성능을 보이지만, 공유 임베딩 공간을 갖춘 MuLan의 두 타워 구조는 고정 어휘를 넘어서는 다목적 제로샷 및 검색 기능을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.