QUICK REVIEW

[논문 리뷰] Text-based LSTM networks for Automatic Music Composition

Keunwoo Choi, George Fazekas|arXiv (Cornell University)|2016. 04. 18.

Music and Audio Processing참고 문헌 12인용 수 75

한 줄 요약

이 논문은 텍스트 기반 LSTM 네트워크를 제안하여 음악 자동 작곡을 수행한다. 문자 수준 및 단어 수준의 RNN을 사용해 음악의 텍스트 표현으로부터 재즈 카드 진행과 록 드럼 트랙을 생성한다. 단어 수준 RNN은 음악적으로 일관된 시퀀스를 성공적으로 생성했으며, 문자 수준 RNN은 카드 진행에서만 성공했으며, 이는 제어 가능한 다양성을 온도 매개변수를 통해 구현할 수 있는 단어 수준 모델링의 효과성을 보여준다.

ABSTRACT

In this paper, we introduce new methods and discuss results of text-based LSTM (Long Short-Term Memory) networks for automatic music composition. The proposed network is designed to learn relationships within text documents that represent chord progressions and drum tracks in two case studies. In the experiments, word-RNNs (Recurrent Neural Networks) show good results for both cases, while character-based RNNs (char-RNNs) only succeed to learn chord progressions. The proposed system can be used for fully automatic composition or as semi-automatic systems that help humans to compose music by controlling a diversity parameter of the model.

연구 동기 및 목표

기호적 또는 수치적 음악 인코딩 없이 텍스트 기반 LSTM 네트워크를 사용한 자동 음악 작곡의 가능성 탐색.
원시 텍스트 표현의 카드 및 드럼 패턴으로부터 음악적 시퀀스를 학습하는 데 문자 기반과 단어 기반 RNN의 성능 비교.
텍스트 입력만을 사용하여 LSTMs가 음악 시퀀스에서 장기적 의존성을 모델링할 수 있는지 평가.
출력 다양성을 조절할 수 있는 기능을 갖춘 완전 자동 및 반자동 음악 작곡 시스템 개발.

제안 방법

모델은 음악 이벤트를 텍스트 형식으로 표현한 문자 또는 단어 시퀀스를 처리하기 위해 장기 기억 전이(LSTM) 네트워크를 사용한다.
카드 진행의 경우, 카드는 'C:maj' 또는 'G:7'와 같은 문자열로 표현되며, 네트워크는 시퀀스에서 다음 토큰을 예측한다.
드럼 트랙의 경우, 드럼 구성 요소(베이스드럼, 스네어, 하이햇 등)의 이진 인코딩을 사용하며, 각 16분 음표는 9비트 벡터로 표현되고, 바는 '_BAR_' 토큰으로 표시된다.
두 작업 모두에 대해 단어 수준 RNN을 사용하며, 샘플링 중 소프트맥스 온도를 조정하는 데 사용되는 다양성 제어 매개변수 α를 포함한다.
네트워크는 MIDI 파일을 텍스트 시퀀스로 변환한 대규모 데이터셋을 사용해 시간에 따라 역전파(back-propagation through time)로 훈련된다.
시스템은 학습된 다음 토큰에 대한 확률 분포에서 자동으로 순차적으로 샘플링하여 음악을 생성한다. 이는 이전 시퀀스에 조건부로 이루어진다.

실험 결과

연구 질문

RQ1텍스트 기반 LSTM 네트워크는 원시 텍스트 표현의 카드로부터 음악적으로 일관된 카드 진행을 효과적으로 학습하고 생성할 수 있는가?
RQ2최소한의 이진 인코딩을 사용할 때 문자 수준 RNN은 드럼 트랙의 복잡한 리듬 패턴을 성공적으로 모델링할 수 있는가?
RQ3다른 음악 유형에 대해 단어 수준 모델링과 문자 수준 모델링의 음악적 일관성 및 구조 학습 능력에서의 비교는 어떠한가?
RQ4샘플링 과정에서 온도 매개변수를 통해 생성된 음악의 다양성을 얼마나 효과적으로 제어할 수 있는가?
RQ5텍스트 전용 입력만으로도 네트워크는 바 경계와 리듬 일관성과 같은 전반적인 구조적 패턴을 학습할 수 있는가?

주요 결과

단어 수준 RNN은 음악적으로 일관된 재즈 카드 진행과 록 드럼 트랙을 성공적으로 생성했으며, 인식 가능한 화성 및 리듬적 구조를 보였다.
문자 수준 RNN은 카드 진행에서만 성공했으며, 드럼 트랙의 구조적 패턴을 학습하지 못했으며, 이는 극도로 희박한 이진 0/1 시퀀스와 장기적인 시간적 의존성으로 인해 발생한 것으로 보인다.
모델은 일관된 8박짜리 하이햇 패턴, 박자에 맞춘 스네어/베이스드럼 조합, 그리고 특히 높은 다양성 설정에서 자주 발생하는 크래시 싱커 또는 톰 톰 편지 패턴을 학습했다.
다양성 매개변수 α는 생성된 드럼 트랙의 복잡도를 효과적으로 제어했다: 낮은 α 값은 단순하고 반복적인 패턴을 생성했고, 높은 α 값은 더 복잡한 편지 패턴을 도입했다.
_BAR_ 토큰의 포함이 단어 수준 RNN에서 바 수준의 구조를 학습하는 데 도움이 되었으며, 생성된 출력에서 일관된 바 분할이 관찰됨으로써 이를 뒷받침했다.
시스템은 사용자가 α를 조절하여 출력의 기술적 복잡도를 제어할 수 있기 때문에 반자동 음악 작곡 도구로서 잠재력을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.