QUICK REVIEW

[논문 리뷰] The Jazz Transformer on the Front Line: Exploring the Shortcomings of AI-composed Music through Quantitative Measures

Shih-Lun Wu, Yi‐Hsuan Yang|arXiv (Cornell University)|2020. 08. 04.

Music and Audio Processing참고 문헌 35인용 수 38

한 줄 요약

Jazz Transformer는 Transformer-XL을 Weimar Jazz Database lead sheets에 적용하고, 생성 지도를 구조 이벤트로 안내하며, 새로운 목표 지표와 주관적 연구로 한계를 평가하여 인간 작곡과의 차이를 드러낸다.

ABSTRACT

This paper presents the Jazz Transformer, a generative model that utilizes a neural sequence model called the Transformer-XL for modeling lead sheets of Jazz music. Moreover, the model endeavors to incorporate structural events present in the Weimar Jazz Database (WJazzD) for inducing structures in the generated music. While we are able to reduce the training loss to a low value, our listening test suggests however a clear gap between the average ratings of the generated and real compositions. We therefore go one step further and conduct a series of computational analysis of the generated compositions from different perspectives. This includes analyzing the statistics of the pitch class, grooving, and chord progression, assessing the structureness of the music with the help of the fitness scape plot, and evaluating the model's understanding of Jazz music through a MIREX-like continuation prediction task. Our work presents in an analytical manner why machine-generated music to date still falls short of the artwork of humanity, and sets some goals for future work on automatic composition to further pursue.

연구 동기 및 목표

복합적인 재즈 특화 데이터셋(WJazzD)을 활용하여 표면 품질을 넘어선 AI 기반 재즈 작곡 탐구를 고무한다.
트랜스포머를 사용하여 멜로디, 하모니, 및 구조 이벤트를 함께 모델링하는 것을 목표로 한다.
주관적 청취 테스트와 일련의 객관적 지표를 모두 사용하여 생성된 음악을 평가하고 실패 모드를 정확히 파악한다.

제안 방법

장기 맥락을 다루기 위해 Transformer-XL로 Jazz Transformer를 모델링한다.
음악을 음표, 화음, 리듬, 및 WJazzD 구조 이벤트(Phrase, MLU, Part, Repetition)를 포함하는 이벤트 토큰의 시퀀스로 표현한다.
토큰 희소성을 줄이기 위해 화음을 Chord-Tone, Chord-Type, 그리고 Chord-Slash로 분해한다.
두 가지 변형을 학습한다: Model A(구조 이벤트 없음)와 Model B(전체 구조 이벤트 포함).
재즈의 간결함을 포착하기 위해 음 지속 시간을 64분음표 배수로 양자화한다.
학습 중 솔로를 전조시키는 데이터 증강을 적용한다.

실험 결과

연구 질문

RQ1트랜스포머 기반 모델이 멜로디, 하모니 및 구조적 일관성을 갖춘 재즈 리드 시트를 생성하는 것을 학습할 수 있는가?
RQ2구조 관련 이벤트가 AI가 생성한 재즈 음악의 품질과 확장성을 향상시키는가?
RQ3AI가 작곡한 재즈의 한계를 인간 작곡과 비교했을 때 어떤 객관적 지표가 가장 잘 드러내는가?
RQ4학습 중 모델 성능은 어떻게 변화하며, 특정 손실 임계치를 넘는 경우 과적합이 발생하는가?

주요 결과

주관적 청취 평가에서 AI가 생성한 재즈는 전반적인 품질과 구조성에서 인간 작곡에 크게 뒤떨어진다.
Model B(구조 이벤트 포함)는 여러 단기 지표에서 실제 데이터에 가장 근접하지만, 학습 손실이 너무 낮아지면 성능이 저하된다.
객관적 지표는 AI 작품에서 음정 사용의 불규칙성과 장기 반복의 약함을 드러내며, 특히 더 긴 시간 규모에서 그렇다.
Grooving 패턴 유사성은 기계 생성한 곡에서 리듬의 불일치를 시사한다.
구조성 지표는 AI 곡이 실제 재즈에서 나타나는 장거리 반복 구조가 부족함을 보여주지만, 구조 이벤트가 단기 일관성에는 도움이 된다.
MIREX 유사한 연속 예측 정확도는 두 모델 모두 손실 0.25 근처에서 정점에 이르며, 과적합 이전에 최적 학습이 이루어진다는 것을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.