QUICK REVIEW

[논문 리뷰] A Unit Selection Methodology for Music Generation Using Deep Neural Networks

Mason Bretan, Gil Weinberg|arXiv (Cornell University)|2016. 12. 12.

Music Technology and Sound Studies참고 문헌 4인용 수 38

한 줄 요약

이 논문은 가변 길이 음악 단위(1–4소절)를 사용하여 딥 러닝 기반의 유닛 선택 방법을 제안한다. 이 방법은 의미적 유사도를 위해 심층 구조적 의미 모델(DSSM)과 연결 비용을 계산하기 위해 LSTM을 통합한다. 이 방법은 노트 수준의 생성 방식보다 자연스럽고 선호도가 높으며, 1소절 및 2소절 단위가 가장 청각적으로 일관된 결과를 낸다.

ABSTRACT

Several methods exist for a computer to generate music based on data including Markov chains, recurrent neural networks, recombinancy, and grammars. We explore the use of unit selection and concatenation as a means of generating music using a procedure based on ranking, where, we consider a unit to be a variable length number of measures of music. We first examine whether a unit selection method, that is restricted to a finite size unit library, can be sufficient for encompassing a wide spectrum of music. We do this by developing a deep autoencoder that encodes a musical input and reconstructs the input by selecting from the library. We then describe a generative model that combines a deep structured semantic model (DSSM) with an LSTM to predict the next unit, where units consist of four, two, and one measures of music. We evaluate the generative model using objective metrics including mean rank and accuracy and with a subjective listening test in which expert musicians are asked to complete a forced-choiced ranking task. We compare our model to a note-level generative baseline that consists of a stacked LSTM trained to predict forward by one note.

연구 동기 및 목표

유한한 길이의 가변 길이 음악 단위(1–4소절)로 구성된 라이브러리가 단위 선택을 통해 효과적인 음악 생성을 가능하게 할 수 있는지 조사한다.
의미적 관련성과 연결 품질을 기반으로 단위를 순위 매기는 생성 모델을 개발하여 일관되고 스타일이 일치하는 음악을 생성한다.
주관적 청취 테스트와 객관적 지표를 사용하여 생성된 음악의 청각적 품질을 평가하고, 단위 수준과 노트 수준 생성 방식을 비교한다.
단위 선택 기반 음악 생성에서 음악적 구조와 유연성의 균형을 이루는 데 최적의 단위 길이를 규명한다.

제안 방법

유한한 라이브러리에서 단위를 선택하여 입력 음악을 재구성하는 딥 오토에코더를 훈련시켜 라이브러리의 충분성에 대한 정성적 평가를 가능하게 한다.
생성 모델은 압축된 임베딩 공간에서 단위 간 의미적 유사도를 계산하기 위해 DSSM을 사용하여 관련성을 측정한다.
순차적 가능성의 모델링을 위해 LSTM을 훈련시어 단위 경계에서의 연결 비용을 계산한다.
시스템은 의미적 관련성과 연결 비용의 가중 조합을 사용하여 후보 단위를 순위 매긴다.
음악은 복합 점수에 기반해 순차적으로 선택되고 연결된 단위를 사용하여 생성되며, 1, 2, 또는 4소절 단위가 평가된다.
주관적 평가는 전문 음악가들이 자연스러움, 선호도, 스타일 일관성 등에서 생성된 음악을 순위 매기는 강제 선택 청취 테스트를 통해 수행된다.

실험 결과

연구 질문

RQ1유한한 길이의 가변 길이 음악 단위(1–4소절)로 구성된 라이브러리가 새로운 음악의 재구성과 생성을 효과적으로 가능하게 할 수 있는가?
RQ2의미적 관련성과 연결 비용을 사용한 단위 선택이 노트 수준 생성보다 더 자연스럽고 스타일이 일관된 음악을 생성하는가?
RQ3단위 선택 기반 생성에서 음악적 일관성과 구조적 다양성을 균형 잡는 데 최적의 단위 길이(1, 2, 또는 4소절)는 무엇인가?
RQ4단위 선택을 사용한 음악 생성의 청각적 품질은 노트 수준 LSTM 기반 베이스라인과 비교해 어떻게 다른가?

주요 결과

1소절 단위 시스템이 전체 선호도와 자연스러움에서 가장 높은 순위를 차지했으며, 이어 2소절 단위가 뒤를 이었다. 이는 짧은 단위가 더 청각적으로 일관된 결과를 낳음을 시사한다.
4소절 단위 시스템은 단독으로 생성된 세그먼트의 자연스러움에서 가장 높은 순위를 차지했으며, 원본 음악이 그대로 유지되었기 때문이다. 그러나 제한된 유연성으로 인해 전체 평가에서는 낮은 성능을 보였다.
노트 수준 LSTM 기반 베이스라인은 시드 세그먼트와 생성된 세그먼트 간 전이의 자연스러움에서 가장 높은 순위를 차지했지만, 생성 과정이 진행될수록 품질이 떨어졌으며, 이는 오류 누적 현상을 시사한다.
주관적 청취 테스트에서 모든 다섯 가지 평가 기준에서 통계적으로 유의미한 차이(p < .05)가 나타났으며, 일관된 순위 차이가 없다는 귀무가설을 기각했다.
DSSM 기반 의미적 관련성 점수는 단위 간 스타일 유사성을 효과적으로 포착하여 생성된 음악의 더 높은 청각적 일관성에 기여했다.
DSSM와 LSTM 기반 점수의 조합은 노트 수준 기반 베이스라인보다 항상 높은 전체 선호도와 자연스러움을 보이는 음악 생성을 가능하게 했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.